-

Natural Language Processing: GPT-3 en andere ontwikkelingen

Computers die ‘gewone’ menselijke teksten begrijpen, aanvullen, en zelfs uit het niks produceren: het is niet langer toekomstmuziek. Recente ontwikkelingen tonen dat de beste modellen het fenomenaal goed kunnen.

Natural Language Processing (NLP) is een expertisegebied dat zich richt op de interactie tussen computers en menselijke taal. Met behulp van Data Science en kunstmatige intelligentie kunnen NLP-algoritmen informatie uit teksten extraheren, teksten analyseren en zelfs teksten genereren.

Ontwikkeling in NLP

NLP is een fenomeen dat teruggaat tot de jaren vijftig, maar vooral in de afgelopen decennia is het veld drastisch volwassen geworden. Vroeger was de benadering van NLP erg academisch en linguïstisch, geconcentreerd op taalstructuren en het onderzoeken van manieren waarop computers deze structuren konden begrijpen. Tegenwoordig is de linguïstiek van een taal minder relevant dankzij het gebruik van Big Data en moderne typen neurale netwerken. Deze neurale netwerken zijn modellen die, als ze groot genoeg zijn, elke denkbare relatie in de ingevoerde data kunnen interpreteren. Bovendien zijn neurale netwerken in staat om taken zoals classificatie, voorspelling en visualisatie te leren, enkel door voorbeelden te beschouwen.

Recente ontwikkelingen op het gebied van NLP zijn een direct gevolg van de toepassing van neurale netwerken en Deep Learning methoden. Deep Learning is in het afgelopen decennium ontstaan ​​en is in de afgelopen vijf jaar de basis geworden van innovaties op alle gebieden van kunstmatige intelligentie.

Innovaties in Deep Learning

Deep Learning deelt in wezen een bepaald probleem op in meerdere lagen. Elke laag vertegenwoordigt een bepaalde functie en definieert een abstract model. Elke laag die wordt toegevoegd, kan de informatie uit de voorgaande lagen gebruiken. Stel je dus voor dat je het algoritme wilt leren om een ​​afbeelding van een hond te herkennen. In dit geval kan de eerste laag er een zijn die vormen (cirkels, driehoeken, enzovoort) herkent. De tweede laag kan er een zijn die ogen kan identificeren (twee ovale vormen naast elkaar). De derde laag kan er een zijn die een gezicht herkent, enzovoort. Uiteindelijk kan het algoritme de afbeelding van een hond herkennen. Hetzelfde principe kan worden toegepast op tekstuele bronnen zoals zinnen.

Onlangs heeft de wereld kennis gemaakt met Transformermodellen (bijvoorbeeld BERT, T5 en GPT-3), revolutionaire Deep Learning-modellen die gegevens niet meer opeenvolgend van begin tot eind hoeven te verwerken. In plaats daarvan gebruiken deze modellen namelijk een mechanisme dat bekend staat als attention om een grote tekst in één keer als een geheel te verwerken. Deze innovaties hebben het taalkundig begrip van de recente modellen drastisch verbeterd en stellen ze in staat om eerdere modellen te overtreffen in een verscheidenheid aan taken.

Een voorbeeld van een dergelijke taak is het voorspellen van een ontbrekend woord. Het voorspellen van ontbrekende woorden is handig omdat het het maken van een ​​enorme dataset vergemakkelijkt, simpelweg door een grote hoeveelheid tekst te nemen en woorden te maskeren. Om een ​​bruikbaar model te maken – zoals het beantwoorden van vragen op basis van een tekst – gebruikten onderzoekers meerdere kleinere datasets en trainden het model opnieuw voor deze specifieke taak, een proces dat bekend staat als fine-tuning. De AI-gemeenschap was stomverbaasd om te zien dat BERT beter presteerde dan alle bestaande AI-modellen op een breed scala aan NLP-taken!

Nieuw hoofdstuk met GPT-3

Maar de nieuwste revolutie komt van het GPT-3-model (Generative Pre-trained Transformer), een extreem krachtig model ontwikkeld door het mede door Elon Musk opgerichte OpenAI, dat bestaat uit een enorme hoeveelheid van 175 miljard parameters. Het kan Engelse prompts begrijpen en kan teksten genereren zonder een enkel voorbeeld. Jelmer Wind, datawetenschapper bij Machine Learning Company, experimenteerde met het GPT-3-model door het te vragen een tekst te genereren die zich verzet tegen een menselijk politiek argument. Zonder een enkel voorbeeld (zero-shot training) was het GPT-3-model in staat om een coherente tekst te genereren die een tegenargument voor het eerder genoemde menselijke politieke argument vertegenwoordigde. Dit vermogen is een direct resultaat van het verbeterde taalkundige begrip.

Vanwege de enorme rekenkracht kunnen deze recente innovaties op het gebied van NLP mogelijk ook een negatieve impact hebben wanneer ze worden toegepast voor onethische doeleinden. Het GPT3-model kan bijvoorbeeld gemakkelijk worden overgehaald om voor alles te pleiten, hoe onethisch ook, op zo’n levensechte manier dat het vrijwel niet te onderscheiden is van een mens. Recente modellen zijn dus in staat mensachtige teksten te genereren die niet per se de waarheid hoeven te bevatten. Daarom is de toegang tot modellen als GPT-3 beperkt en moet er een evenwicht worden gevonden tussen technologische innovaties en onethische bedoelingen.

GPT-3 opende een nieuw hoofdstuk in Machine Learning, vooral vanwege de algemeenheidsfunctie. Tot nu toe werden neurale netwerken gebouwd voor specifieke taken (zoals vertaling), maar GPT-3 is niet taakspecifiek en heeft niet langer gespecialiseerde datasets nodig.

Wachtlijst

Wil je ook toegang krijgen tot GPT-3? Je bent niet de enige. De hype rondom het nieuwe Deep Learning-model is enorm, en om toegang te krijgen tot een privé-bèta, kom je eerst op een lange wachtlijst terecht. Zoals eerder vermeld , zijn er nog geen plannen voor algemene beschikbaarheid. Desalniettemin is de voorganger, GPT-2, open source en die versie kan nu al door iedereen gebruikt worden.

Over de auteur: Guus van de Mond is de oprichter van Squadra Machine Learning Company.

Op de hoogte blijven van het laatste nieuws binnen je vakgebied? Volg Emerce dan ook op social: LinkedInTwitter en Facebook.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond