Machine learning is mensenwerk
Alle slimme huidige technologie ten spijt, we zijn vaak helemaal nog niet zover als we denken. Zeker niet als je het vergelijkt met wat er in de afgelopen decennia werd bedacht, voorspeld en verwacht. Hooverboard? Niet echt. Zelfrijdende auto? Mwah. Autonoom opererende, zelflerende computersystemen? Op één hand te tellen.
Maar alles wat nu bedacht en gemaakt wordt is toch gedreven door ‘machine learning’? Superintelligente programma’s die zichzelf steeds slimmer maken? Je zou het denken. De werkelijkheid ligt anders. Voorlopig is en blijft het vooral: de machine dingen leren, en niet zozeer dat de machine uit zichzelf iets leert. En dat leren, dat doen we zelf – mensenwerk dus.
Praktijk of theorie?
Machine learning (ook wel: automatisch leren of machinaal leren) is de wetenschappelijke studie naar algoritmen en statistische modellen die computersystemen gebruiken om een specifieke taak uit te voeren zonder expliciete instructies, maar in plaats daarvan vertrouwend op patronen en gevolgtrekking. Het is een vorm van kunstmatige intelligentie (AI). Zo, keurig vertaald vanuit Wikipedia. Maar wacht, een studie! Betekent dat dan dat het nog niet in de praktijk wordt toegepast? Nauwelijks voor te stellen.
Vijf methodes
Verder de diepte in. De methodes waarop machine learning gebeurt zijn te verdelen in twee groepen: aanleidinggevend en deductief. De eerste creëert computerprogramma’s door het vormen van regels of het extraheren van patronen uit data. De tweede heeft als resultaat: functies die net zo generiek zijn als de invoerdata. Volg je het nog? Ik amper.
Nog even volhouden. Er zijn vijf soorten methodes voor machinaal leren: gecontroleerd leren (het algoritme krijgt voorbeelden van invoer en bijbehorende uitvoer), ongecontroleerd leren (geen voorbeelden van de gewenste uitvoer), semi-gecontroleerd leren (een combinatie), ondersteund leren (het algoritme leert gedrag in relatie tot zijn wereld en past zichzelf aan op basis van succes) en transductieleren (zeldzame methodiek waarbij geen generieke regels, maar datuminstanties worden voorspeld).
Deep learning
Boven machine learning hangt deep learning. Een grotere familie van methodes gebaseerd op kunstmatige neurale netwerken. Deep learning zie je terug bij bijvoorbeeld beeld-, spraak en audioherkenning, bij het filteren van sociale netwerken, taalverwerking en vertalen, bioinformatica, de samenstelling van medicijnen, en bordspelprogramma’s. Daarmee worden resultaten behaald die vergelijkbaar zijn met die van menselijke specialisten, en soms zelfs beter. Misschien bedoelen we dit wel met wat we nu vaak machine learning noemen.
Want voorbeelden van machine learning – het volledig autonoom zelflerend zijn van een computergegenereerd systeem – zijn op één hand te tellen. Een senior developer van een tech-agency tipte mij Alpha Go gemaakt door Google Deepmind, een computerprogramma dat het eeuwenoude oost-Aziatische bordspel Go tot in de puntjes beheerst. Niet alleen het eerste dat (in 2016) de beste professionele Go-spelers ter wereld met groot gemak wist te verslaan, maar na afloop ook nog eens zelfstandig weet te beoordelen hoe goed het dat deed. In oktober 2017 werd AlphaGo Zero geïntroduceerd, een versie gemaakt zonder gegevens uit menselijke games te gebruiken, en die sterker is dan elke eerdere versie. Zero leerde zichzelf in drie dagen Go spelen op bovenmenselijk niveau. Wow. Maar dit is een uitzondering. Zelflerend, of machine learning, lijkt vooral een hypeterm.
Techliefhebbers onderschatten de mens
Hoe dat komt? Omdat alles en iedereen zichzelf technologie als wondermiddel toeëigent. Bijvoorbeeld: ‘We zijn geen bank, we zijn een techbedrijf.’ Wat ze eigenlijk zeggen is: we zijn tech-driven. En dat is altijd al zo geweest, in alle revoluties die onze geschiedenis gekend heeft. Alle tech is ooit bedacht en ingezet om mensenwerk makkelijker te maken. Om dingen voor elkaar te krijgen die anders langer duurden, te zwaar waren of misschien zelfs onmogelijk. Dat begon in principe al met het gebruiken van een scherp stuk steen als gereedschap in de oertijd. Low-tech – sinds de industriële revolutie spreken we van hightech.
Wat we nu doen is automatiseren nieuwe stijl. Met als belangrijk verschil dat nu de gehele keten geautomatiseerd wordt, waarbij ook de eindgebruiker er onderdeel van uitmaakt.
Wat nu de grootste onderscheidende factor is, is de mens. Zijn empathie en creativiteit. Techliefhebbers onderschatten de mens – hoe het menselijk brein werkt. Dat is zo precies, zo onvoorspelbaar, zo complex. Al die opties en emoties die per seconde door onze hersenen schieten, waardoor je bijvoorbeeld de ene keer op eenzelfde gegeven anders reageert dan de andere keer. Dat maakt ons brein uniek en zo lastig door een computer na te bootsen of te kopiëren. Laat staan volautomatisch, zonder tussenkomst, feedback of input van de mens zelf.
Tientallen e-mails tegelijkertijd
Een mooi praktijkvoorbeeld is Michiel, de AI-reserveringsmedewerker van Postillion Hotels. Deze e-mailbot ‘on steroids’ verwerkt moeiteloos tientallen e-mails tegelijkertijd en levert complexe offertes binnen no-time op. Hij slaapt niet, is nooit ziek, kent geen werkdruk, werkt zelfstandig en kan heel goed multitasken. Heeft hij dat zichzelf allemaal aangeleerd? Nope. Daar is een heel team aan mensen maandenlang fulltime mee bezig geweest.
Annotator, is de officiële naam van hun functie. Dit team annoteert e-mails. Veel e-mails, tienduizenden. Want de olie om de motor te laten draaien is data. Olie die je wel eerst moet raffineren. Anders kun je er niets mee. Data moet namelijk passen in het model.
Dat raffineren is dus het annoteren oftewel taggen van de e-mails, wat het team doet met de tool Tagtog. Vandaar de bijnaam: tagteam. Ze verwerken hierbij real-life data. Concrete e-mails uit de periode 2013-2019 in dit geval.
Door onderdelen van die e-mails te taggen heeft Michiel uiteindelijk 35 entities leren herkennen, denk aan: naam, begindatum, einddatum, aantal personen, et cetera. Named Entity Recognition (NER) noemen we dat. Michiel maakte hierbij zowel gebruik van supervised learning (‘gecontroleerd leren’) als unsupervised learning (‘ongecontroleerd leren’) – zie ‘Vijf methodes’.
Geen stompzinnig werk
Dat annoteren is intensief, repeterend werk. En nee, dat is geen stompzinnig werk. Sterker nog, het vergt intellectuele capaciteiten op universitair niveau. Je moet het maar kunnen. Annotators worden geselecteerd op zelfstandigheid en verantwoordelijkheidsgevoel. Het team werkt cloudbased, dus iedereen kan overal en altijd bij en ze leren veel van elkaar. Twintig tot dertig procent van alle input wordt door een derde persoon gecontroleerd, bij wijze van tiebreaker. Waarom? Mensen interpreteren dezelfde dingen soms anders – zo wispelturig is ons brein wel (en daarom zo lastig te kopiëren).
Om het succes van Michiels opleiding te meten, zijn er scores aan gekoppeld. Zo is er bijvoorbeeld de F1-score. Hiermee wordt gemeten hoe accuraat een test is bij statistische analyse van binaire classificatie. In meer begrijpelijke woorden: een score die een balans aangeeft tussen de kans dat als Michiel zegt dat iets X is, dat daadwerkelijk zo is (precision) en de kans dat van alle X-en die er zijn, Michiel dit percentage X-en ook daadwerkelijk vindt (recall). Op één van de twee een 100 procent score halen is relatief eenvoudig, maar de balans tussen de twee is belangrijk. De F1-score is een manier om deze twee scores in een optimale balans te krijgen.
Vier zaken van levensbelang
Een groot verschil met de meeste andere AI-toepassingen, zo ving ik op, Michiel is een volledig product dat onderdeel is van een totale applicatie. En niet een model dat nooit live gaat doordat met de resultaten van het model (in een productieomgeving) niet iets nuttigs gedaan kan worden, zoals nu vaak gebeurt. Omdat Michiel een totaalapplicatie is kunnen de voorspellingen van het model daadwerkelijk gebruikt worden.
In vogelvlucht zijn de volgende vier zaken van levensbelang:
- data-analyse: de voorbereidingen voor het “raffineren”
- voldoende data: en voldoende betekent ook écht veel (zie eerder)
- kennis om mensen te trainen: voor het optimaliseren van het taggen (zowel kwalitatief als kwantitatief)
- budget voor rapportage: geen machine learning-algoritme zal ooit 100 procent halen, dus moet je goede afspraken maken over wat je wilt bereiken en hoe je daar op gaat rapporteren (en daar dus ook budget voor reserveren).
Dat is in dit geval gelukt. Michiel is inmiddels uitgegroeid tot een succescase, de makers wonnen er zilver mee tijdens de Dutch Interactive Awards 2019.
Conclusie
Er zijn dus vragen waarop Michiel (nu nog) geen antwoord heeft. Maar die herként hij wel, omdat hij er op getraind is. Komt er zo’n vraag voorbij, dan schakelt hij een medewerker van vlees en bloed in. Want er blijft hoe dan ook altijd een specialistenteam naast Michiel actief. Ook bij het trainen van de machine zie je dat terug, de allerbeste medewerker van het tagteam blijft aan om bepaalde, specialistische input te geven en Michiel verder te leren. Dus nee, dat doet hij nog steeds niet zelf.
Mogen we dan voorzichtig de volgende conclusie trekken? De essentie en het doel van machine learning is: meer doen met minder mensen, maar niet zónder mensen. En bovendien hen minder saai werk geven door ze juist de interessante vragen te geven, precies die waar empathie en creativiteit maximale meerwaarde bieden voor de klant. Daarmee maken we als mensen het verschil. Voorlopig…
Plaats een reactie
Uw e-mailadres wordt niet op de site getoond