Doen Gaat Vooraf Aan Weten
Zoals elke vorm van intelligentie zal AI passende representaties van de wereld ontwikkelen om te bereiken wat het nodig heeft voor zijn verschillende taken.
Zolang mensen hebben gefantaseerd over denkmachines, zijn er critici geweest die ons hebben verzekerd van wat machines niet kunnen. Centraal in veel van deze kritiek staat het idee dat machines geen ‘gezond verstand’ hebben, zoals een kunstmatig intelligentiesysteem dat aanbeveelt ‘hardgekookte appelmayonaise’ of ‘zwaar water’ toe te voegen aan een koekjesrecept.
In een baanbrekend artikel, ‘Representational Genera’, betoogde de overleden filosoof van AI John Haugeland dat een uniek kenmerk van menselijk begrip, dat machines missen, het vermogen is om een afbeelding te beschrijven of een scène uit een beschrijving voor te stellen. Het begrijpen van representaties, schreef Haugeland, hangt af van ‘algemene achtergrondkennis van de weergegeven inhoud – dat wil zeggen van wereldse ervaring en vaardigheid.’ Het is onze bekendheid met representaties, zoals de ‘logische representaties’ van woorden en de ‘iconische representaties’ van beelden, die ons in staat stelt om krabbels op papier of geluiden te negeren en in plaats daarvan te begrijpen waar ze over gaan – wat ze vertegenwoordigen in de wereld.
Daarom zijn de onlangs uitgebrachte neurale netwerken van OpenAI, CLIP en DALL-E, zo’n verrassing. CLIP kan beschrijvingen geven van wat er in een afbeelding staat; DALL-E functioneert als een computationele verbeelding, waarbij objecten of scènes uit beschrijvingen worden opgeroepen. Beide zijn multimodale neurale netwerken, kunstmatige-intelligentiesystemen die statistische regelmatigheden ontdekken in enorme hoeveelheden gegevens via twee verschillende manieren om toegang te krijgen tot dezelfde situatie, zoals zicht en gehoor.
“Zolang mensen fantaseren over denkmachines, zijn er critici die ons verzekeren van wat machines niet kunnen.”
CLIP en DALL-E worden gevoed met woorden en beelden en moeten overeenkomsten onderscheiden tussen specifieke woorden en objecten, zinsneden en gebeurtenissen, namen en plaatsen of mensen, enzovoort. Hoewel de resultaten – zoals bij alle hedendaagse AI – hun mix kennen van verbluffende successen en beschamende mislukkingen, onthullen hun capaciteiten enig inzicht in de manier waarop representaties ons over de wereld informeren.
In veel kritiek op AI, die CLIP en DALL-E blootleggen, is de betekenis van gezond verstand dubbelzinnig. Veel waarnemers schijnen gezond verstand voor te stellen als een kwestie van woorden, zoals een reeks zinnen in het hoofd waarin de overtuigingen die iemand heeft, worden gecatalogiseerd. Een andere benadering zou zijn om het gezond verstand te baseren op mentale beelden, als een enorm model van de wereld die onze hersenen kunnen raadplegen.
Haugeland opende nog een andere benadering van het gezond verstand – die hij niet volgde – waarbij neurale netwerken centraal stonden, die een soort ‘gedistribueerde representatie’ zijn. Deze manier om de wereld weer te geven is minder bekend dan logisch en iconisch, maar misschien wel de meest voorkomende. Het beschouwt gezond verstand niet als een kwestie van dingen over de wereld weten, maar als een kwestie van dingen in de wereld doen.
Het onderscheid tussen logisch en iconisch
In zijn artikel ‘Representational Genera’ merkte Haugeland op dat mensen vele soorten representaties gebruiken, zoals de foto’s die we inlijsten en rond het huis hangen of de beschrijvingen die in boeken staan. Hij betoogde dat wat logische, iconische en gedistribueerde representaties onderscheidt, is wat ze wel of niet over de wereld kunnen vertegenwoordigen. Elk vertegenwoordigt slechts een klein deel van de wereld en kan dat op een eigenaardige manier doen: sommige kenmerken vastleggen, maar vele andere negeren.
Mensen absorberen deze representaties met behulp van achtergrondkennis, waarbij ze ontbrekende details ‘invullen’ op basis van gezond verstand. Zonder achtergrondkennis vertegenwoordigt de logische inhoud – een enkel woord of zin, een paar noten op een muziekpartituur, de markeringen in een vergelijking of zin – doorgaans alleen wat filosofen ‘discrete feiten’ noemen: objecten en eigenschappen, muzikale frases of de relatie van getallen in een vergelijking.
Iconische representaties – afbeeldingen, kaarten, muziekopnames of video’s – bevatten daarentegen elementen die alleen betekenis hebben in relatie tot elkaar: vormen in een foto, de locatie van een bergketen of de verschillende posities en bewegingen van acteurs in een film. Iconische representaties zijn afhankelijk van de relatie tussen elementen en hun locaties, zoals hoe een zwart-witfoto bepaalde golflengten van licht op verschillende locaties weergeeft. Beide soorten representaties zijn expressief, maar logische representaties kunnen de relaties tussen elementen niet vastleggen zonder meer informatie toe te voegen, terwijl iconische representaties elementen niet niet-relationeel kunnen weergeven.
Geen van deze vormen van representatie weerspiegelt hoe wij ze ervaren. Muzikanten die naar een bekende partituur kijken – een logische representatie – zullen zich onmiddellijk hun favoriete opname van het stuk voorstellen: een iconische representatie. Maar dit is het werk van onze achtergrondkennis met beide soorten representatie.
“DALL-E en CLIP herkennen en reproduceren niet alleen skeletachtige inhoud, maar geven er ook invulling aan.”
Neem een artikel over een recent burgemeestersdebat in New York. Een afbeelding kan een reeks menselijke lichamen tonen die onhandig achter podia staan met felrode, witte en blauwe vormenen patronen erachter. Het artikel bespreekt daarentegen beleidsideeën, persoonlijke aanvallen, oneliners en scherpe berispingen over het politiewerk. Op skeletniveau hebben deze betrekking op totaal verschillende zaken: een groep lichamen enerzijds en een groep onderwerpen anderzijds. Dat we de tekst en het beeld als verwant beschouwen, is gebaseerd op ons achtergrondbegrip van hoe nieuwsartikelen werken, omdat we begrijpen dat de lichamen bestaan uit mensen die zich kandidaat stellen voor een ambt en met en over elkaar praten.
Dit zijn het soort vaardigheden dat nodig is voor het schakelen tussen representaties, waarvan Haugeland begreep dat ze de capaciteiten van machines te boven gingen. En daarom is het succes van DALL-E en CLIP zo verrassend. Deze systemen herkennen en reproduceren niet alleen skeletachtige inhoud, maar geven er ook invulling aan, waarbij ze deze contextualiseren met stilzwijgende informatie die wordt geïmpliceerd door de logische modaliteit die betrekking heeft op wat in de iconische modaliteit moet worden afgebeeld.
Neem een specifiek voorbeeld: er is geen generiek beeld dat DALL-E kan genereren wanneer hij wordt geconfronteerd met de zinsnede “voetballer die een verdediger ontwijkt”, geen één-op-één-correspondentie die de machine kan leren waardoor hij het juiste antwoord zou kunnen onthouden. In plaats daarvan moet het een veel-op-veel-correspondentie onderscheiden die allerlei verschillende kenmerken omvat: twee spelers, volledig gekleed, op een veld, onder verlichting, met een voetbal aan hun voeten of een voetbal in hun hand (maar niet allebei), van dichtbij of van een afstand, omringd door andere spelers of misschien een scheidsrechter, maar geen adelaars of fietsen - en zo maar door.
Dit betekent dat DALL-E de wereld moet representeren – of in ieder geval de zichtbare wereld die beschikbaar wordt gemaakt in statische beelden – in termen van wat er toe doet, op basis van het soort beschrijvingen dat mensen van een scène geven. Gedistribueerde representaties, waarbij neurale netten de meest voorkomende soort zijn, bieden hun eigen specifieke manier om dingen weer te geven, een manier die in staat is om op de moeiteloze manier waarop mensen dat doen zowel logische als iconische representaties te genereren.
Gedistribueerde representaties in beeld krijgen
We zijn bekend met logische en iconische representaties omdat het alomtegenwoordige artefacten van ons dagelijks leven zijn. Gedistribueerde representaties daarentegen zijn pas sinds kort artefacten geworden vanwege het succes van deep learning, ook al zijn ze ouder en algemener dan wat dan ook kunstmatig. Evolutie stuitte al vroeg op dit soort oplossingen voor de hersenen, omdat deze netwerken een ongelooflijk efficiënt middel bieden om de wereld te vertegenwoordigen in termen van wat belangrijk is voor de agent om gepast te kunnen handelen. Hedendaagse AI bootst grofweg een deel van de architectonische ontwerp- en leertactieken na die in alle hersenen aanwezig zijn, om prestaties van de natuur te benaderen.
Haugeland stelde voor dat we gedistribueerde representaties beschouwen als het vertegenwoordigen van vaardigheden of knowhow. Het lijkt misschien vreemd om te zeggen dat een vaardigheid iets ‘vertegenwoordigt’, maar vaardigheden zijn afhankelijk van het herkennen van de relevante patronen in een taak, het begrijpen welke nuances en verschillen er toe doen en welke reacties het meest geschikt zijn.
De vaardigheid voor het spelen van pingpong moet bijvoorbeeld het uiterlijk weergeven van een bal met een spin die verband houdt met een eigenaardige zwaai van de peddel, en welke reacties effectief zullen zijn. De snelheid van het spel vereist dat herkenning en reactie onmiddellijk plaatsvinden, veel sneller dan we bewust kunnen begrijpen en kunnen beslissen hoe we moeten reageren. Neurale netwerken, zowel biologisch als kunstmatig, condenseren herkenning en respons in dezelfde handeling.
Voor een bekend voorbeeld van AI neem je het rijden op de snelweg. Het is een relatief eenvoudige taak: ervoor zorgen dat de auto op gelijke afstand van de rijstrookmarkeringen staat, een constante afstand tot de volgende auto aanhouden en – als er van rijstrook moet worden gewisseld – de relatieve positie van auto’s in de directe nabijheid achterhalen. Dit betekent dat het systeem nauwkeurig kan worden afgestemd op deze patronen van visuele gegevens – rijstrookmarkeringen, autovormen en relatieve afstand – en alle andere zaken kan negeren, zoals de kleuren van de auto’s of de afgebroken verf op de rijstrookmarkeringen. Er zijn slechts een paar uitgangen beschikbaar – snelheid behouden, sneller gaan, langzamer rijden, stoppen, linksaf slaan, rechtsaf slaan – en de juiste wordt meestal grotendeels bepaald door visuele input: remmen als je te dichtbij bent, een beetje draaien om op de rijstrook te blijven, enzovoort.
“Hedendaagse AI bootst grofweg een deel van de architectonische ontwerp- en leertactieken na die in alle hersenen aanwezig zijn, om prestaties van de natuur te benaderen.”
De skeletinhoud van een gedistribueerde representatie van het rijden op de snelweg is dus slechts de associatie tussen de relevante visuele patronen in de input die de ene output zal activeren in plaats van de andere. Het resultaat is een zeer gedetailleerde weergave van de situatie, maar wel anders dan logische of iconische representaties. De gedistribueerde representatie bevat niets dat ‘lijkt op’ een auto of fungeert als ‘beschrijving’ van de weg. In plaats daarvan codeert het hoe bepaalde visuele patronen in elkaar passen op een manier die auto's betrouwbaar volgt en dus op een bepaalde manier moet worden behandeld. Wanneer mensen op de ‘automatische piloot’ gaantijdens het rijden nemen ze plausibel hun toevlucht tot een soortgelijke representatie, waarbij ze moeiteloos en onbewust reageren op rijstroken, auto's en kuilen - grotendeels zonder veel van iets te merken.
De belangrijkste uitdaging voor deze vaardigheden is dezelfde als waar mensen voor staan: het voorkomen van een “hert in de koplampen”-moment. Veel zeldzame gebeurtenissen zullen in het model worden weergegeven, zoals het rijden op een gladde weg of bij beperkt zicht. Maar echt zeldzame gebeurtenissen zullen helemaal niet worden weergegeven en zullen in plaats daarvan als iets anders worden behandeld; er zal waarschijnlijk geen hert op de weg te zien zijn, dus het systeem zal het (hopelijk) in de brede categorie van onopvallende obstakels plaatsen en reageren door op de rem te slaan.
Dit duidt op een limiet van de representatie, namelijk dat veel mogelijke inputs eenvoudigweg niet voldoende verschillend zullen zijn, omdat ze statistisch gezien niet gemeenschappelijk genoeg zijn om relevant te zijn. Deze gedistribueerde representaties hebben in die zin een soort tunnelvisie: ze vertegenwoordigen de elementen die het meest essentieel zijn voor de taak en laten de rest buiten beschouwing. Maar dit geldt zowel voor biologische en kunstmatige netwerken als voor logische en iconische representaties; geen enkele representatie kan alles vertegenwoordigen.
“Neurale netwerken, biologisch en kunstmatig, condenseren herkenning en respons in dezelfde handeling.”
Bij CLIP en DALL-E gaat het erom vast te leggen hoe dingen eruit moeten zien in relatie tot een bepaalde zin. Dit vereist uiteraard inzicht in hoe woorden objecten beschrijven. Maar ze moeten ook uitzoeken wat de zinsnede stilzwijgend aangeeft: of het object zich op de voorgrond of op de achtergrond bevindt, poseert of in actie is, naar de camera kijkt of bezig is met een of andere taak, enzovoort.
Om te begrijpen wat belangrijk is op basis van een zin, is het nodig om ruwe multimodale representaties op te bouwen die enerzijds de relatie van woorden met andere woorden en anderzijds woorden met verschillende soorten beelden in kaart brengen. Een zinsnede met het woord ‘democraat’ moet niet alleen Joe Biden oproepen, maar ook blauwe vlaggen, plakkerige bumperstickers en antropomorfe ezels in pakken. Het vermogen van CLIP en DALL-E om deze prestaties te leveren suggereert dat ze over zoiets als gezond verstand beschikken, aangezien het representeren van een bepaald element op een plausibele manier een stilzwijgend algemeen begrip vereist van vele andere elementen en hun onderlinge verbindingen – dat wil zeggen, al het andere potentieel. manieren waarop iets eruit zou kunnen zien of beschreven zou kunnen worden.
Maar het voelt niet helemaal juist om gezond verstand toe te schrijven aan CLIP en DALL-E, omdat de taak zo beperkt is. Geen enkele levende soort zou een vaardigheid hoeven te verwerven alleen maar om bijschriften en afbeeldingen met elkaar te verbinden. Zowel bijschriften als afbeeldingen zijn sociale artefacten, beheerst door normen om ze formeel te houden: korte en krachtige beschrijvingen en scherpe, gerichte afbeeldingen. Ze zijn nutteloos bij schijnbaar vergelijkbare taken, zoals het produceren van ondertiteling voor video's of het maken van korte films. De hele activiteit is gewoon te kunstmatig, te specifiek en losgekoppeld van de wereld. Het lijkt erop dat gezond verstand, als het al iets is, meer algemeenheid zou moeten omvatten dan dit.
Heroverweging van gezond verstand
Een oude filosofische traditie beschouwde het gezond verstand als de plaats waar al onze modaliteiten samenkomen – waar aanraking, smaak en visie in de geest verenigd werden om een multimodaal iconisch model van de buitenwereld te vormen. Voor AI-onderzoekers die in de 20e eeuw actief waren, was het gebruikelijker om te denken aan een gigantische geschreven encyclopedie, waarin onze overtuigingen werden opgeschreven in kruisverwijzende zinnen – een database met logische representaties.
Maar in beide gevallen was er iemand nodig die deze modellen of databases raadpleegde, een centrale redenaar die uitkeek wat belangrijk is in de modellen of databases (of beide) om alles uit te zoeken. Het is geen verrassing dat mensen moeite hadden met het creëren van op gezond verstand gebaseerde AI, omdat het leek alsof je zowel een systeem nodig had dat alles kon weten, maar ook wist hoe je toegang kreeg tot alle relevante dingen bij het oplossen van een op gezond verstand gebaseerde puzzel.
Maar als normale mensen over gezond verstand praten, komt dat meestal doordat het iemand ontbreekt: iemand die zich onhandig gedraagt of domme dingen zegt. Als we gezond verstand toeschrijven, dan is dat aan mensen die zich normaal gedragen – mensen die over de vaardigheden en kennis beschikken om door de wereld te navigeren. Dit model van gezond verstand lijkt minder op de logische en iconische versies, waarbij wordt verwacht dat gezond verstand een gigantische hoeveelheid kennis in de hersenen is, en in plaats daarvan dichter aansluit bij wat we zien in gedistribueerde representaties.
“Wat betekenisvol is voor elke soort is relatief aan de wereld waarin zij leven, en wat niet betekenisvol is, hoeft gewoon niet vertegenwoordigd te worden.”
Neurale netwerken genereren vaak een gedistribueerde representatie die de juiste manier vastlegt om een specifieke taak te begrijpen en te handelen. Dankzij multimodale neurale netwerken kunnen deze gedistribueerde representaties veel robuuster worden. In het geval van CLIP en DALL-E bieden de rijke verbindingen tussen logische en iconische representaties hen een achtergrondkennis over de wereld – waarbij ze niet alleen onderscheiden hoe woorden met elkaar samenhangen, maar ookdus wat ze impliceren over hoe de dingen eruit zien.
Deze benadering van begrip is zinvoller vanuit een evolutionair perspectief: laat elke soort met de juiste representaties komen met betrekking tot zijn lichaam, modaliteiten en vaardigheden. Wat betekenisvol is voor elke soort is relatief aan de wereld waarin zij leven, en wat niet betekenisvol is, hoeft gewoon niet te worden weergegeven. Het gezonde verstand van een hond is zijn vermogen om veel hondachtige dingen goed te doen, maar er is zeker geen centrale redenaar in een hond, of een database met taalachtige zinnen die hun overtuigingen en verlangens specificeren. Een soort vertegenwoordigt zijn wereld in termen van hoe hij zou moeten reageren, en laat de rest niet vertegenwoordigd.
Deze meer bescheiden kijk op gezond verstand heeft gevolgen voor de veronderstelde zorgen over superintelligente machines die enorme hoeveelheden gegevens opzuigen – misschien de encyclopedie van overtuigingen of het model van alles – wat vervolgens leidt tot een alcompetente algemene redeneerder. Maar CLIP en DALL-E laten zien dat dit omgekeerd is: doen gaat vooraf aan weten, en wat we moeten doen bepaalt wat we weten. Elke representatie van de wereld – logisch, iconisch of gedistribueerd – impliceert een aanname over wat er wel en niet toe doet; je maakt geen foto van een geluid. Mensen weten veel omdat ze veel doen – en niet andersom.
Machine-inzicht is geen alles-of-niets-kwestie. Machines zullen steeds meer gaan begrijpen door de stukje bij beetje accumulatie van vaardigheden die hun mogelijkheden uitbreiden. Dit betekent dat kunstmatige algemene intelligentie er niet zal uitzien als wat we dachten, maar waarschijnlijk vergelijkbaar zal zijn met ons: een bundel vaardigheden met ruwe en kant-en-klare representaties van wat het moet weten om zijn verschillende taken te volbrengen. Er is niet meer aan de hand met algemene intelligentie dan dat.
Vrij naar Jacob Browning, Noema Magazine, 29 juni 2021