De doorbraak van generatieve AI

Met toepassingen als ChatGPT en Dall-E lijkt de wereld van artificiële intelligentie plots een enorme sprong voorwaarts gemaakt te hebben. Dagelijkse krantenkoppen wedijveren in het voorspellen van ongekende mogelijkheden en tal van bedrijven hebben AI terug naar voor geschoven als een van hun topprioriteiten. Vanwaar komt die nieuwe generatie van generatieve AI opeens, en wat heeft ze zo krachtig gemaakt?

Met alle aandacht die we op Productivity.be al besteed hebben aan AI kunnen we de huidige hype rond toepassingen als ChatGPT en Dall-E uiteraard niet negeren. Want het moet gezegd: de prestaties die deze toepassingen lijken neer te zetten, zijn zonder meer indrukwekkend. Dus vroegen we ons af hoe dat komt en wat de mechanismen zijn achter deze nieuwe generatie AI toepassingen.

Zowel ChatGPT als Dall-E zijn producten van het bedrijf OpenAI en het zijn voorbeelden van wat generatieve AI genoemd wordt – een nieuwe generatie van artificiële intelligentie die in staat is om zelf dingen te creëren. De illustratie bij dit artikel is daar een voorbeeld van. Het is wat de Dall-E applicatie genereerde wanneer het gevraagd werd naar “An astronaut riding a horse in photorealistic style.”

Convolutie

In zijn meest eenvoudige uitleg kan artificiële intelligentie teruggebracht worden tot de combinatie van een model, data en rekenkracht. Het model heeft tot doel om een bepaalde taak te kunnen volbrengen, wat in de meeste toepassingen neerkomt op het catalogiseren van een input of het maken van een voorspelling. Wat artificiële intelligentie kenmerkt is dat het model deze taak aanleert door te trainen op een grote hoeveelheid gelabelde data. Dat komt er in feite op neer dat het model tijdens het trainen op zoek gaat naar de parameters waarmee het de beste mogelijke resultaten bekomt. De rekenkracht wijst op een ander typisch uitgangspunt in AI: zo veel te groter en complexer het model, zo veel te hoger de kans op een goed resultaat. In AI draait alles om probabiliteit.

In wat we in de context van dit artikel dan maar de vorige generatie AI zullen noemen, was beeldherkenning zonder meer de toonaangevende toepassing. U kent het wel: u logt in op de cloud van Google of Microsoft om uw foto’s van het recente weekendje met de familie te downloaden en ziet dat er automatisch een mapje werd aangemaakt met als benaming de stad die u bezocht. In dat soort toepassingen is AI gewoon heel erg goed geworden.

De verklaring is terug te brengen tot de ideale combinatie van model, data en rekenkracht die pakweg tien jaar geleden tot stand kwam. Toen groeide immers de praktijk om als model voor visietoepassingen convolutional neural networks (CNNs) te gebruiken. Zoals ook uitgelegd in onze pagina over Deep learning slaat convolutie op het gebruik van filters waarmee typische kenmerken van te herkennen objecten opgespoord kunnen worden in een nieuwe afbeelding. De idee om te werken met CNNs bestond al veel eerder maar wat er in 2009 bij kwam, was Imagenet – een enorme bibliotheek met gelabelde beelden die aan de Stanford universiteit ontwikkeld was met het specifieke doel om AI toepassingen te trainen. Het derde element was de lancering door Nvidia van CUDA – een programmeertaal om de parallelle computing die nodig is voor neurale netwerken met grafische kaarten te kunnen doen.

Transformer model

De nieuwe generatie van generatieve AI is opnieuw ontstaan uit het gelukkig samenvallen van model, data en rekenkracht, zo blijkt. Het model is het zogenaamde Transformer model, deze keer – een model dat ontwikkeld werd door Google om zijn toepassing Google Translate beter te maken. Het typische probleem bij vertalingen is dat men dit niet woord voor woord kan doen maar vaak meer context nodig heeft om een woord of woordgroep te vertalen. Typisch aan het Transformer model is dat het kan inzoomen en uitzoomen om woorden in een groter geheel te bekijken. Op die manier kunnen ook verwijzende naamwoorden, bijvoorbeeld, betekenis krijgen.

Het herkennen van betekenis is in het verhaal over generatieve AI het sleutelelement want eens dat mogelijk is, ontstaat er voor het Transformer model een brede waaier aan toepassingsmogelijkheden. Het tweede element is data waar onderzoekers een eenvoudige maar geniale methode bedacht hebben voor het leren begrijpen van teksten. Die bestaat erin om in bestaande teksten woorden weg te laten en die data als training aan het model te geven met de opdracht om het ontbrekende woord te achterhalen. Het voordeel van de methode is dat deze data vanzelf gelabeld is omdat de originele tekst met het ontbrekende woord er nog in als uitkomst gebruikt kan worden. De hoeveelheid beschikbare, gelabelde data is daardoor zo goed als eindeloos.

En dan is er het element rekenkracht. In 2019 was OpenAI aan zijn tweede versie van de GPT applicatie toe, waarin een model gebruikt werd met 1,5 miljard parameters. Dat lijkt ontzettend veel maar het is qua omvang wat een standaard grafische kaart nog net verwerkt krijgt. Voor de derde versie van GPT – die waar we nu over spreken – maakte OpenAI het model meer dan 100 keer groter, met in totaal 175 miljard parameters. Tot grote verbazing van de onderzoekers bracht dit een enorme stap voorwaarts met zich mee waarbij het model plots veel beter ging begrijpen wat er in een zin gezegd werd. Dat de software nu in staat is om gesproken instructies te begrijpen, zoals in het eerder aangehaalde voorbeeld van de illustratie, is iets wat volgens de onderzoekers spontaan gekomen is als gevolg van het simpelweg groter maken van het model.

Nieuwe revolutie

Bij de Dall-E toepassing komt er dan nog bij dat de software niet alleen de instructie moet begrijpen maar er dan ook nog grafisch iets mee moet kunnen doen. Maar blijkbaar is dat qua opzet niet zo verschillend van het maken van een vertaling, bijvoorbeeld. Zoals de software in staat is om met woorden een zin te bouwen, kan het model ook getraind worden om met de typische kenmerken van afbeeldingen – die ook al aan de basis lagen van convolutie – nieuwe tekeningen te maken. En als we dan toch bezig zijn, kan de software bijvoorbeeld ook met eiwitten aan de slag om nieuwe toepassingen in genetische manipulatie te ontwikkelen.

Er wordt nu ontzettend veel gezegd en geschreven over de mogelijkheden en beperkingen van de nieuwe generatie generatieve AI. Allicht wordt de technologie daarbij hier en daar iets te veel mogelijkheden toegedicht. Tegelijk zijn er ook al voldoende voorbeelden bekend van gevallen waar de software vooralsnog compleet de mist in gaat wat critici ervan overtuigt dat de mogelijkheden ernstig overschat worden. Toch kan men er niet omheen dat de software bij momenten tot verbluffende resultaten in staat is. Als dit nog maar het begin is van de nieuwe revolutie, zou het kunnen dat er nog meer verbluffende toepassingen staan aan te komen.

© Productivity.be, 28/02/2023, Foto: OpenAI