-

Starten met AI? Bestaande ‘best practices’ voor data-analyse helpen je op weg

AI belooft veel, maar hoe vertaal je die beloftes naar concrete resultaten? Wil je als bedrijf serieus met AI aan de slag, dan kan AI geen ‘black box’ zijn. Inzicht in hoe je AI werkt zijn de dat die je gebruikt. De ‘best practices’ die werken voor data-analyse werken ook voor AI.

Bij bijna elk bedrijf wereldwijd wordt AI nadrukkelijk op de agenda gezet, wat een bijzondere verdienste is van OpenAI. Na vier maanden was ChatGPT het snelst groeiende webplatform ooit. Oorspronkelijke angsten zoals een AI-dystopie of het wegautomatiseren van menselijke arbeiders zijn naar de achtergrond verdwenen en er wordt vooral gekeken naar de zakelijke toepasbaarheid. De superlatieven en lofbetuigingen waarmee de berichtgeving over AI gepaard gaat, nopen echter wel tot enige voorzichtigheid.

AI als gebakken lucht

Wanneer een product wordt aangekondigd dat bijzonder laat of zelfs nooit beschikbaar komt, dan wordt dat vaporware genoemd, omdat er gebakken lucht wordt verkocht. Oorspronkelijk betreft vaporware vooral software en hardware, zoals Windows in 1985 en IBM’s System/360 Model 91. Maar ook Amazon.com en General Motors met een elektrische auto in 2008 zijn hiervan beschuldigd. Door de vroegtijdige aankondiging zullen klanten hierop gaan wachten en niet de huidige oplossing van een concurrent aanschaffen. Een van de factoren die bijdragen aan vaporware is een gebrek aan kritische toetsing: journalisten nemen de commerciële boodschappen zonder echt onderzoek voor waar aan.

Zo kondigde Google op 6 december 2023 met trots Gemini aan als “een grote mijlpaal in de ontwikkeling van AI en het begin van een nieuw tijdperk voor ons”. NRC kopte bijvoorbeeld: “Met zijn nieuwe taalmodel Gemini herneemt Google een leidende positie in de AI-race”. Maar de blitse demo-video bleek een marketingstunt: de video was niet realtime en bovendien bewerkt, zo achterhaalde Bloomberg. Google Gemini loopt op tal van ijkpunten nog achter ChatGPT aan. Maar niet iedere journalist is zo doortastend: bij Renze op RTL werden laatst vooral de vele mogelijkheden van ChatGPT aangehaald.

AI heeft inderdaad aanzienlijke mogelijkheden, maar er kan ook veel nog niet. Om AI efficiënt in te kunnen zetten, zul je de black box moeten openen en begrijpen hoe AI echt werkt. En dan zie je dat de principes van data-analyse heel goed zijn toe te passen.

Rotzooi erin, rotzooi eruit

Taalmodellen zoals ChatGPT en Machine Learning zijn datagedreven. De kwaliteit van wat eruit komt is afhankelijk van de kwaliteit van wat je erin stopt: je data. Stap één van ‘iets met AI doen’ is dus je datakwaliteit op orde krijgen: ontdubbelen, accuraatheid, compleetheid, consistentie… en dat is slechts het begin.

De algoritmes gebruikt bij de toeslagenaffaire gebruikten ook data die wettelijk niet relevant was bij de besluitvorming – zoals religie, etniciteit en adres – wat leidde tot discriminatie. Je kunt dus niet alle data zomaar inzetten. Verzamel daarom alleen die soorten data die nodig zijn om je AI te realiseren en te laten draaien.

Waar laat je die data eigenlijk?

Taalmodellen en Machine Learning werken met vectoren: wiskundige representaties van objecten. Ze stellen woorden voor als punten in een multidimensionale ruimte, waarbij de posities van de punten de semantische betekenis van de woorden weerspiegelen. Wil je veel woorden omzetten naar vectoren, of echt de diepte in kunnen gaan qua betekenis, dan zul je veel dataruimte nodig hebben voor je AI-toepassing.

De grote vraag is waar je die data allemaal laat. Ten eerste nemen de kosten van cloudoplossingen snel toe naarmate de complexiteit toeneemt. Dit was bijvoorbeeld de reden voor Basecamp, een online samenwerkingsplatform, om volledig te stoppen met de cloud en weer hardware-servers aan te schaffen na een cloud-rekening van 3,2 miljoen dollar. Daarnaast is er het principe van data residence: het opslaan en verwerken van gegevens binnen de grenzen van een bepaald gebied of land heeft impact op de toepasbare wet- en regelgeving, privacy en security. Daarbij speelt ook dat sommige landen gegenereerde data beschouwen als troef en in het belang van nationale veiligheid.

Kies je risico’s

Net zoals het verzamelen en verwerken van persoonsgegevens door wetgeving zoals de GDPR aan banden is gelegd, zo wordt ook de regulering van AI versterkt. Inmiddels is de Europese AI Act aanstaande: op 7 december 2023 is die aangenomen en vanaf 2026 treedt die volledig in werking. Deze Europese wet moet Europeanen beschermen tegen de risico’s van AI, zoals inbreuk op de privacy en gekenmerkt worden op basis van geslacht en etniciteit. De AI Act hanteert drie risiconiveaus:

  • Onaanvaardbare risico’s – Dit is wanneer AI iets doet dat in strijd is met fundamentele normen en waarden, zoals het voorspellen van misdadig gedrag (predictive policing), gezichtsherkenning of social scoring. Deze zaken worden verboden vanaf medio 2024.
  • Hoge risico’s – Deze risico’s worden gevormd door AI wanneer het gezondheid, grondrechten, het milieu of de veiligheid betreft, zoals het screenen van sollicitanten of klimaatbeheersing in gebouwen. Deze moeten voldoen aan strenge voorwaarden zoals menselijk toezicht en transparantie.
  • Lage risico’s – Dit betreft AI waar minder strenge voorwaarden voor gelden, zoals transparantie en geen beslissingen mogen nemen. ChatGPT en andere AI-contentcreatie vallen hieronder.

Wil je AI gaan inzetten als bedrijf, dan moet je je dus aan deze kaders houden. Je AI-gegenereerde ‘veelgestelde vragen’, bijvoorbeeld, moeten straks vermelden dat die met AI zijn geproduceerd. De interpretatie van de wetgeving kan het verschil kunnen maken tussen de risiconiveaus en dus de toepasbaarheid van je AI.

‘Best practices’ voor de data die AI voeden

De grote aandacht voor AI zal ook resulteren in meer aandacht voor data-analyse: bedrijven zullen zich meer gaan richten op het correct verzamelen, verwerken en interpreteren van grote hoeveelheden data om hun AI te voeden. Dat komt niet alleen de AI-toepassing ten goede, maar ook het creëren van waardevolle inzichten en de besluitvorming op verschillende niveaus. De volgende best practices voor data-analyse zijn een-op-een toe te passen op AI:

  • Pas gegevensanonimisering toe – Door gevoelige gegevens effectief te anonimiseren kunnen bedrijven de privacy van individuen beschermen en tegelijkertijd waardevolle inzichten uit hun gegevens halen. Onthoud dat de wettelijke bewaartermijnen nog steeds gelden voor geanonimiseerde data.
  • Omarm ‘privacy by design’ – Het is cruciaal om het principe privacy by design aan te nemen, waarbij privacy vanaf het begin wordt toegepast in het hele bedrijfsproces rond AI en andere technologische producten.
  • Blijf datakwaliteit verbeteren – De kwaliteit van je data is essentieel voor de nauwkeurigheid van je analyses, gewonnen inzichten en besluitvorming, kortom je output. Het streven naar voortdurende verbetering van de datakwaliteit is daarom essentieel.
  • Beperk en monitor het gebruik van generatieve AI – Het is verstandig om derde partijen te vermijden die mogelijk je gegevens opslaan en gebruiken. Zorg ervoor dat je exact weet hoe deze tools gegevens gebruiken, of overweeg het ontwikkelen van interne oplossingen.
  • Zorg voor transparantie – Communiceer duidelijk over hoe AI wordt gebruikt en welke gegevens worden verzameld.

Over de auteur: Vincent de Winter is Regional manager Benelux bij Piwik PRO.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond