-

Generatieve AI en Large Language Models: wat is het en hoe werkt het?

Iedereen heeft het erover: generatieve AI en Large Language Models. Om echt te begrijpen wat je ermee kunt, hoe je ze kunt verfijnen voor eigen gebruik, maar ook wat de gevaren zijn, helpt het om te begrijpen hoe deze modellen werken.

Het is een van de allerheetste onderwerpen binnen de marketingsector: generatieve AI en Large Language Models. Er is inmiddels al veel over gezegd, maar de ontwikkelingen gaan zo snel dat een update van de huidige stand van zaken zeker op zijn plaats is. Wat is het precies? Hoe ziet het landschap er inmiddels uit? Wat zijn de voordelen? Daar gaan wij – de DDMA Commissie Conversational AI – in een reeks van drie artikelen op in.

Wat is het?

Generatieve AI (GEN-AI) is een specifiek type kunstmatige intelligentie dat zich richt op het genereren van nieuwe inhoud, zoals tekst, afbeeldingen, audio of video. Deze systemen zijn getraind op grote datasets en gebruiken Machine-Learning-algoritmes om nieuwe inhoud te genereren. Dit kan nuttig zijn voor eindeloos veel verschillende toepassingen. Denk bijvoorbeeld aan het genereren van tekst voor chatbots, het maken van kunst of illustraties of zelfs het genereren van spraak- of mediabestanden.

Large Language Models (LLM’s) zijn een vorm van generative AI en zijn in staat om tekst te begrijpen en te genereren. Je kunt deze technologie gebruiken om antwoorden op vragen te voorspellen, creatief te schrijven (zoals koppen, blogposts, etc.), tekst te vertalen of samenvattingen van teksten te genereren. Je kunt het ook gebruiken om code te genereren, te vertalen of om fouten op te sporen.

LLM’s worden over het algemeen getraind op enorme hoeveelheden tekstgegevens, soms zelfs met petabytes aan data. Hierdoor begrijpen ze de relaties tussen zinnen, woorden en delen van woorden, iets dat ze hebben geleerd door enorme hoeveelheden data van het web in te nemen, waaronder honderdduizenden Wikipedia-vermeldingen, socialmediaberichten en nieuwsartikelen. LLM’s zijn zelftoezichthoudend. Met andere woorden: het is een Machine-Learning-algoritme dat geen geannoteerde gegevens door mensen (labeling) vereist, omdat het in de eerste fase die labels zelf genereert en deze gegenereerde labels vervolgens in een latere fase gebruikt.

Hoe werkt het?

Voor velen lijken LLM’s magisch, maar feitelijk is het een voorspellingsmachine. Het model neemt een stukje tekst als invoer (de zogenaamde prompt) en voorspelt vervolgens wat de volgende woorden zouden moeten zijn op basis van de data waarop het model getraind is. Achter de schermen bedenkt het de kansen op de verschillende mogelijkheden en combinaties van woorden die zouden kunnen volgen. De output van het model is een gigantische lijst met mogelijke woorden en hun waarschijnlijkheden.

Met andere woorden, als ik aan een Large Language Model vraag “Wie is de president van de Verenigde Staten?”, zal het waarschijnlijk antwoorden: “De president van de Verenigde Staten is… Joe Biden”. Niet omdat het model feiten kent, maar vanwege de waarschijnlijkheid van de woorden “Joe Biden” op basis van de data die het heeft gezien. De woorden “Joe Biden” in de context van de Amerikaanse president zullen hoger scoren dan een andere naam.

Omdat deze modellen zijn getraind op veel data, kunnen ze een enorme verscheidenheid aan teksten genereren, inclusief teksten die onverwacht zijn. Geef een LLM een prompt om een tekst naar een andere taal te vertalen dan rolt daar waarschijnlijk een prima vertaling uit. Dit komt omdat het model is getraind met enorm veel meertalige tekst, wat het in staat stelt om vertalingen te doen zónder daar expliciet voor getraind te zijn.

ChatGPT en andere Large Language Models

Waarschijnlijk denk je bij de term Generatieve AI en Large Language Models direct aan ChatGPT, een applicatie die veel in het nieuws is geweest de afgelopen maanden. ChatGPT is een LLM dat op een conversationele manier tekst kan genereren. Het is een fijn afgestelde versie van een ander groot taalmodel genaamd: GPT-3.5 van OpenAI, een startup opgericht door Elon Musk. In december 2022 bracht de release van ChatGPT in slechts vijf dagen een miljoen gebruikers binnen.

Inmiddels heeft Google ook een LLM ontwikkeld: Bard. Waar ChatGPT is gebaseerd op GPT 3.5, is Bard, ook een conversational LLM, gebaseerd op (een lichtgewicht versie van) LaMDA. Een groot voordeel van Bard is dat het tekst kan genereren op basis van actuele gegevens, terwijl ChatGPT vooralsnog is getraind met gegevens tot 2021. Actuele vragen kan ChatGPT dus niet beantwoorden.

Er zijn naast Google en OpenAI nog veel meer partijen die bezig zijn met Large Language Models. Hieronder vind je een overzicht.

Naam Ontwikkeld door Aangekondigd Openbaar beschikbaar
PaLM Google Deepmind Mei 2023 Bèta
GPT-4 OpenAI Maart 2023 Ja
Bard Google Februari 2023 Bèta
Sparrow Google Deepmind September 2022 Nee
OPT-IML Meta AI December 2022 Ja
ChatGPT OpenAI November 2022 Ja
LaMDA 2 Google AI Mei 2022 Nee
PaLM Google Deepmind April 2022 Bèta
Chinchilla Google Deepmind Mei 2022 Nee
GLaM Google December 2021 Nee
LaMDA Google AI Juni 2021 Nee
GPT-3 OpenAI Mei 2020 Ja
Meena Google Januari 2020 Nee
T5 Google Oktober 2019 Ja
GPT-2 OpenAI Februari 2019 Ja
BERT Google Oktober 2018 Ja
GPT-1 OpenAI Juni 2018 Ja

 

Hoe werken LLMs precies?: prompt, parameters en tokens

Om goed te kunnen begrijpen hoe een LLM precies werkt en hoe het leert, zijn er een aantal sleutelbegrippen die je moet kennen:

  • Een prompt is de invoer waarop een LLM een antwoord op kan genereren. Op basis van de prompt voorspelt een LLM vervolgens wat de volgende woorden zouden moeten zijn op basis van de data waarop het getraind is.
  • Een zero-shot prompt is het eenvoudigste type prompt. Het geeft alleen een beschrijving van een taak, een stukje tekst voor de LLM om mee te beginnen. Het kan letterlijk alles zijn, een vraag, het begin van een verhaal, instructies, enzovoort. Hoe duidelijker je prompttekst, hoe makkelijker het is voor de LLM om de volgende tekst te voorspellen.
  • Een one-shot prompt biedt één voorbeeld dat de LLM kan gebruiken om te leren hoe de taak het beste kan worden voltooid.
  • Few-shot prompts bieden meerdere voorbeelden, meestal tussen de 10 en 100. Het kan worden gebruikt om de LLM een patroon aan te leren dat moet worden voortgezet.
  • Grote taalmodellen zijn getraind op parameters en tokens
    1. Parameters zijn de onderdelen van het model die het heeft geleer uit historische trainingsgegevens en ze definiëren de vaardigheid van het model bij een probleem. Hoe groter het aantal parameters, hoe meer nuances er zijn in het begrip van elke woordbetekenis en context van het model.
    2. Tokens zijn een numerieke representatie van woorden (of vaker: delen van woorden). Wanneer je een prompt naar een LLM stuurt, wordt deze opgesplitst in tokens.
Verfijn een Large Language Model voor je eigen wensen

Een LLM weet dankzij zijn training veel over taal en beschikt over kennis die nuttig is voor allerlei soorten Natural-Language-Processing-taken. Denk bijvoorbeeld het classificeren en samenvatten van tekst en het identificeren van een sentiment. Daarnaast is het mogelijk om enkele kleine wijzigingen aan de structuur van het Large Language Model aan te brengen, zodat het zich richt op het classificeren van onderwerpen in plaats van het voorspellen van volgende woorden. Daarbij verliest het niet wat het heeft geleerd over patronen in taal.

Daarnaast kun je een LLM trainen specifiek gericht op jouw bedrijfspraktijk. Stel, je wilt een chatbot bouwen voor je reisbureau. Het gebruikte LLM weet alles over alle landen ter wereld, maar weet verder niets over de pakketreizen die jij als reisagent aanbiedt. Je kunt een LLM verfijnen (finetunen) door het foundation model opnieuw te trainen met je eigen data. Dit proces, ook wel bekend als transfer learning, kan nauwkeurige modellen produceren met kleinere datasets en minder trainingsuren, en is daardoor goedkoper dan het creëren van een geheel eigen model.

De prestaties van een vooraf getraind taalmodel hangen af van de grootte. Hoe groter het model, hoe beter de kwaliteit van de output, maar dat gaat wel ten koste van snelheid en prijs. Kleinere modellen zijn goedkoper in gebruik en geven sneller output dan de grotere modellen. Ze zijn alleen niet erg krachtig, en daarmee beter geschikt voor eenvoudigere taken, zoals classificatie. Grotere modellen zijn nuttig voor het genereren van creatieve inhoud.

Beloftes

We kunnen wel stellen dat de mogelijkheden van Generative AI en LLM’s groot zijn. De resultaten zijn verbluffend en je kunt bestaande modellen trainen naar je eigen wensen. Dat belooft wat voor de toekomst. Of alles rondom deze nieuwe technologie rozengeur en maneschijn is valt te betwijfelen. Daar gaan we volgende week op in.

Over de auteur: Lee Boonstra is Applied AI Engineer en Developer Advocate en daarnaast actief bij DDMA. Dit artikel is ontstaan vanuit een samenwerking met Lee Boonstra (Google), Marike van de Klomp (ABN AMRO), Robin Hogenkamp (VodafoneZiggo) en Romar van der Leij (DDMA), met bijdragen van Martijn van Vreeden, Kevin Duijndam (KLM), Didric van den Borne (Merkle), Jimmy de Vreede (Springbok Agency), Daan Aussems (SDIM) en Andries Hiemstra ([ah]consulting).

Op de hoogte blijven van het laatste nieuws binnen je vakgebied? Volg Emerce dan ook op social media: LinkedIn, Twitter en Facebook.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond