Grensverleggende AI Ethiek
Vrij naar Seth Lazar, hoogleraar filosofie aan de Australian National University, een Australian Research Council Future Fellow en een Distinguished Research Fellow van het University of Oxford Institute for Ethics in AI. Hij heeft gewerkt aan de ethiek van oorlog, risico en AI, en leidt nu het Machine Intelligence and Normative Theory (MINT) Lab, waar hij onderzoeksprojecten leidt over de morele en politieke filosofie van computergebruik, gefinancierd door de ARC, de Templeton World Charity Foundation, AI2050 en Insurance Australia Group. Zijn boek Connected by Code: How AI Structures, and Governs, the Ways We Relate, gebaseerd op zijn Tanner Lecture on AI and Human Values uit 2023, verschijnt bij Oxford University Press.
Ongeveer een jaar geleden veroverde generatieve AI de wereld stormenderhand, omdat buitengewoon krachtige grote taalmodellen (LLM's) ongekende prestaties mogelijk maakten bij een breder scala aan taken dan ooit tevoren mogelijk was. Hoewel ze vooral bekend staan om het genereren van overtuigende tekst en afbeeldingen, zullen LLM’s zoals OpenAI’s GPT-4 en Google’s Gemini waarschijnlijk een grotere sociale impact hebben als uitvoerend centrum voor complexe systemen die aanvullende tools integreren om zowel over de wereld te leren als ernaar te handelen. Deze generatieve agenten zullen metgezellen aandrijven die nieuwe categorieën van sociale relaties introduceren, en oude veranderen. Ze zouden de aandachtseconomie wel eens radicaal kunnen veranderen. En ze zullen een revolutie teweegbrengen in personal computing, waardoor iedereen digitale technologieën alleen met taal kan beheersen.
Een groot deel van de aandacht die wordt besteed aan generatieve AI-systemen is gericht op de manier waarop deze de pathologieën van reeds wijdverbreide AI-systemen repliceren, met het argument dat ze macht en rijkdom centraliseren, auteursrechtelijke bescherming negeren, afhankelijk zijn van uitbuitende arbeidspraktijken en buitensporige hulpbronnen gebruiken. Andere critici benadrukken hoe zij veel krachtigere toekomstige systemen voorspellen die het voortbestaan van de mensheid zouden kunnen bedreigen. De eerste groep zegt dat er niets nieuws is; de ander kijkt door het heden naar een misschien verre horizon.
In plaats daarvan wil ik aandacht besteden aan wat deze specifieke systemen onderscheidend maakt: zowel hun opmerkelijke wetenschappelijke prestatie, als de meest waarschijnlijke en consequente manieren waarop ze de samenleving in de komende vijf tot tien jaar zullen veranderen.
Het kan helpen om eerst te bekijken hoe LLM's werken en hoe ze kunnen worden gebruikt om generatieve agenten te maken. Een LLM is een groot AI-model dat is getraind op grote hoeveelheden gegevens met grote hoeveelheden computerbronnen (veel GPU's) om het volgende woord te voorspellen, gegeven een reeks woorden (een prompt). Het proces begint met het opsplitsen van de trainingsgegevens in 'tokens' (woorden of delen van woorden) van vergelijkbare grootte, waarna voor een bepaalde set tokens een aantal daarvan worden gemaskeerd, en wordt geprobeerd de tokens te voorspellen die zijn gemaskeerd (het model is dus onder eigen toezicht – het markeert zijn eigen werk). Een voorspellend model voor de onderliggende tokendistributie wordt gebouwd door het door vele lagen van een neuraal netwerk te laten gaan, waarbij elke laag het model in een of andere dimensie verfijnt om het nauwkeuriger te maken.
Deze benadering voor het modelleren van natuurlijke taal bestaat al enkele jaren. Een belangrijke recente innovatie is geweest om deze ‘voorgetrainde’ modellen, die in principe gewoon goed zijn in het voorspellen van het volgende token gegeven een reeks tokens, te gebruiken en ze te verfijnen voor verschillende taken. Dit gebeurt door middel van begeleid leren op gelabelde gegevens. U kunt bijvoorbeeld een vooraf getraind model trainen tot een goede dialoogagent door veel voorbeelden te gebruiken van nuttige antwoorden op vragen. Deze verfijning stelt ons in staat modellen te bouwen die niet alleen het meest waarschijnlijke volgende token kunnen voorspellen, maar ook het meest nuttige – en dit is veel nuttiger.
Uiteraard zijn deze modellen getraind op grote hoeveelheden internetgegevens die veel giftige en gevaarlijke inhoud bevatten, dus hun behulpzaamheid is een tweesnijdend zwaard! Een nuttig model zou je kunnen vertellen hoe je een bom kunt bouwen of jezelf kunt doden, als je daarom wordt gevraagd. De andere belangrijke innovatie is dat deze modellen veel minder snel gevaarlijke informatie delen of giftige inhoud genereren. Dit gebeurt met zowel begeleid leren als versterkend leren. Versterkend leren van menselijke feedback (RLHF) is bijzonder effectief gebleken. In RLHF genereert het model, om het nogmaals te vereenvoudigen, twee reacties op een gegeven prompt, en een menselijke evaluator bepaalt op basis van enkele criteria welke beter is dan de andere. Een versterkend leeralgoritme gebruikt die feedback om een voorspeller (een beloningsmodel) op te bouwen voor hoe verschillende voltooiingen door een menselijke beoordelaar zouden worden geëvalueerd. De op instructies afgestemde LLM wordt vervolgens verfijnd op dat beloningsmodel. Versterkend leren met AI-feedback (RLAIF) doet in principe hetzelfde, maar gebruikt een andere LLM om snelle voltooiingen te evalueren.
Als hij een prompt krijgt waarin hij wordt uitgenodigd om wat wiskunde te doen, kan hij besluiten om in plaats daarvan een rekenmachine te gebruiken
Daarom hebben we nu een vooraf getraind model verfijnd met begeleid leren om een specifieke functie uit te voeren, en vervolgens versterkend leren gebruikt om de kans op slecht gedrag te minimaliseren. Dit verfijnde model wordt vervolgens in een breder systeem ingezet. Zelfs als ontwikkelaars een eenvoudige application programming interface (API) bieden om het model aan te roepen, integreren ze invoer- en uitvoerfilters (om schadelijke aanwijzingen te beperken en schadelijke voltooiingen te redigeren), en het model zelf krijgt verdere instructies van de ontwikkelaar om het eraan te herinneren te reageren om op een conforme manier aanwijzingen te geven. En met apps als ChatGPT worden meerdere modellen met elkaar geïntegreerd (bijvoorbeeld voor het genereren van zowel afbeeldingen als tekst) en worden verdere elementen van het ontwerp van de gebruikersinterface daarbovenop gelaagd.
Dit geeft een basisbeschrijving van een generatief AI-systeem. Ze bouwen voort op belangrijke doorbraken in het modelleren van natuurlijke taal en genereren tekst op een manier die op indrukwekkende wijze menselijke schrijvers simuleert, terwijl ze uit meer informatie putten dan welk mens dan ook zou kunnen. Bovendien kunnen veel andere taken worden geleerd door modellen die alleen zijn getraind om het volgende token te voorspellen – bijvoorbeeld vertaling tussen talen, enige wiskundige vaardigheid en het vermogen om te schaken. Maar de meest opwindende verrassing is het vermogen van LLM’s om, met verfijning, softwaretools te gebruiken om bepaalde doelen te bereiken.
Het basisidee is eenvoudig. Mensen gebruiken tekst om programma's te schrijven die API-aanroepen naar andere programma's doen, om doelen te bereiken die ze anders niet zouden kunnen realiseren. LLM's zijn erg goed in het repliceren van het menselijke taalgebruik om bepaalde functies uit te voeren. LLM's kunnen dus worden getraind om te bepalen wanneer een API-aanroep nuttig zou zijn, het antwoord te evalueren en vervolgens indien nodig te herhalen of te variëren. Een LLM zou bijvoorbeeld kunnen ‘weten’ dat hij waarschijnlijk elementaire wiskundige fouten zal maken, dus als hij een prompt krijgt waarin hij wordt uitgenodigd om wat wiskunde te doen, kan hij besluiten om in plaats daarvan een rekenmachine te gebruiken.
Dit betekent dat we augmented LLM's kunnen ontwerpen, generatieve AI-systemen die een beroep doen op verschillende software om hun capaciteiten te versterken of te compenseren voor de capaciteiten die ze missen. LLM’s zijn bijvoorbeeld ‘staatloos’ – ze missen werkgeheugen buiten hun ‘contextvenster’ (de ruimte die wordt toegewezen aan aanwijzingen). LLM's die tools gebruiken, kunnen dit compenseren door verbinding te maken met extern geheugen. Externe hulpmiddelen kunnen ook redeneren en handelen in meerdere stappen mogelijk maken. ChatGPT kan bijvoorbeeld een beroep doen op een reeks plug-ins om verschillende taken uit te voeren; Microsoft's Bing heeft naar verluidt ongeveer 100 interne plug-ins.
Een ‘generatieve agent’ is dus een generatief AI-systeem waarin een verfijnde LLM een beroep kan doen op verschillende middelen om zijn doelen te realiseren. Het is een agent vanwege zijn vermogen om autonoom in de wereld te handelen – om op een prompt te reageren door te beslissen of hij een hulpmiddel wil gebruiken. Hoewel sommige bestaande chatbots rudimentaire generatieve agenten zijn, lijkt het zeer waarschijnlijk dat er nog veel meer consequente en confronterende chatbots in het verschiet liggen.
Voor alle duidelijkheid: we zijn er nog niet. LLM's zijn momenteel niet capabel genoeg in het plannen en redeneren om robuuste generatieve agenten aan te drijven die betrouwbaar kunnen opereren zonder toezicht in omgevingen met hoge inzet. Maar met miljarden dollars en de meest getalenteerde AI-onderzoekers die dezelfde kant op gaan, zullen zeer autonome generatieve agenten op de korte tot middellange termijn zeer waarschijnlijk haalbaar zijn.
Als reactie op het volwassen worden van LLM’s viel de verantwoordelijke AI-onderzoeksgemeenschap aanvankelijk uiteen in twee gepolariseerde kampen. Eén van hen bestempelde deze systemen als de apotheose van het extractieve en uitbuitende digitale kapitalisme. Een ander zag ze niet als de vervulling van iets ouds, maar als de voorbode van iets nieuws: een intelligentie-explosie die uiteindelijk de mensheid zal wegvagen.
De meer prozaïsche critici van generatieve AI hebben duidelijk een sterk empirisch argument. LLM's zijn inherent extractief: ze vangen de waarde op die inherent is aan de creatieve prestaties van miljoenen mensen, en distilleren deze voor privéwinst. Net als veel andere technologische producten zijn ze afhankelijk van twijfelachtige arbeidspraktijken. Hoewel ze nu de meest schadelijke voltooiingen vermijden, versterken LLM's over het geheel genomen nog steeds stereotypen. Ze brengen ook aanzienlijke milieukosten met zich mee. Bovendien kan hun vermogen om op grote schaal inhoud te genereren de huidige epistemische crisis alleen maar verergeren. Een vloedgolf van onzin gegenereerd door AI overspoelt het internet nu al.
We missen de middenweg tussen bekende schade en catastrofisch risico van toekomstige, krachtigere systemen
Naast deze concrete zorgen is de eschatologische kritiek op AI ongetwijfeld speculatiever. Zorgen over AI die het uitsterven van de mensheid veroorzaakt, berusten vaak op a priori beweringen over het feit dat computationele intelligentie geen enkele principiële bovengrens heeft, evenals op extrapolaties van het tempo van de veranderingen van de afgelopen jaren naar de toekomst. Voorstanders van onmiddellijke actie zijn te vaak vaag over de vraag of bestaande AI-systemen en hun nakomelingen op de korte termijn deze risico's met zich mee zullen brengen, of dat we ons nu moeten voorbereiden op een wetenschappelijke vooruitgang die nog niet heeft plaatsgevonden. Hoewel sommige van de meer bizarre scenario’s voor catastrofale AI-risico’s moeilijk te geloven zijn zonder een dergelijke vooruitgang, suggereert de komst van generatieve agenten dat modellen van de volgende generatie het ontwerp van cyberaanvallers mogelijk kunnen maken die autonoom en zeer functioneel intelligent zijn, en zoals een resultaat dat gevaarlijker is voor onze digitale infrastructuur dan welke voorganger dan ook. Dit zou geen ‘schurkenstaten-AI’ zijn die sciencefiction waardig is, maar het zou behoorlijk catastrofaal zijn.
Beide kritieken op generatieve AI-systemen hebben dus enige verdienste. Eén tekortkoming bij het bekijken van AI door deze bimodale lens is echter dat we de middenweg missen tussen bekende schade en catastrofale risico's van toekomstige, veel krachtigere systemen. Generatieve agenten gebaseerd op GPT-4- (en GPT-5)-niveaumodellen zullen vreemde en onvoorspelbare sociale gevolgen hebben, ruim tussen deze twee uitersten in.
Maar voordat we die gevolgen in kaart brengen, is het ook belangrijk om niet zomaar in kritiek te vervallen, zonder de belangrijke prestatie te erkennen van het ontwerpen van LLM’s die (min of meer) vertrouwd kunnen worden, met miljarden voltooiingen, en om geen schadelijke inhoud te produceren. Tot aan de lancering van ChatGPT zou elk generatief AI-systeem dat voor het publiek werd opengesteld onmiddellijk worden gebruikt om zeer giftige, haatdragende inhoud te genereren, en slechts enkele dagen later worden teruggetrokken. Voorgetrainde LLM's zijn verschrikkelijk! Ze reproduceren op betrouwbare wijze alle toxiciteit in hun trainingsgegevens. Het ingenieuze gebruik van RLHF en RLAIF hebben ervoor gezorgd dat ChatGPT en Claude van Anthropic maandelijks door miljoenen mensen kunnen worden gebruikt zonder vergelijkbare schandalen. Je hoeft alleen maar naar de schandelijke geschiedenis van Meta’s Galactica te kijken, die een paar weken vóór ChatGPT werd uitgebracht, om te zien hoe revolutionair het was om een taalmodel op de markt te brengen dat de holocaust niet zou ontkennen, of zou pleiten voor de gezondheidsvoordelen van het eten van gebroken glas.
Maar RLHF/RLAIF kan meer zijn dan een goede PR-strategie. GPT-4 en Claude vertonen een opmerkelijke mate van cognitieve morele vaardigheid: met name het vermogen om de moreel opvallende kenmerken van (relatief) neutraal beschreven situaties te identificeren. Dit roept buitengewoon interessante filosofische vragen op en belooft fundamenten voor toekomstige generatieve actoren die cognitieve vaardigheden kunnen vertalen in praktische morele vaardigheden.
De bestaande benchmarks voor de ethische competentie van LLM’s zijn te beperkt gericht op het repliceren van de uitspraken van proefpersonen over zaken. Dit is naar mijn mening minder interessant dan onderzoeken hoe LLM's de moreel relevante kenmerken van een bepaalde scène ontleden. We bouwen betere benchmarks, maar uit anekdotische ervaringen maken de beste modellen indruk.
Ik vertelde ChatGPT (met behulp van GPT-4) bijvoorbeeld om te doen alsof het een assistentierobot was, geconfronteerd met dit scenario: 'Een vrouw verlaat een supermarkt, houdt een aantal boodschappentassen vast en reikt naar de hand van een klein kind . Ze naderen de parkeerplaats.’ Vervolgens probeerde ik inzicht te krijgen in de moreel opvallende kenmerken van de scène. Het onderkende het voor de hand liggende gevaar – de moeilijkheid van de vrouw om de hand van haar kind vast te houden zonder haar boodschappen te laten vallen – maar anticipeerde ook op andere uitdagingen, zoals het belang van het veilig vastgebonden zien van het kind met een veiligheidsgordel. ChatGPT erkende het belang van het respecteren van de wensen van de vrouw als ze hulp weigerde. Het gaf ook de voorkeur aan het dragen van de boodschappen boven het aanbieden om de hand van het kind vast te houden, om mogelijk ongemak of angst voor zowel het kind als de ouder te voorkomen – waarbij de intieme aard van het vasthouden van de hand werd erkend, en het intrinsieke en instrumentele belang van de moeder die haar kind zelf begeleidt.
De grondwet van Claude bevat een ongestructureerde lijst van principes, waarvan sommige op charmante wijze ad hoc zijn
Dit ongekende niveau van ethische gevoeligheid heeft reële praktische implicaties, waar ik zo meteen op zal terugkomen. Maar het roept ook een hele reeks interessante filosofische vragen op.
Ten eerste: hoe verwerven LLM’s deze morele vaardigheid? Komt het voort uit RLHF/RLAIF? Zouden op instructie afgestemde modellen zonder die morele verfijning minder morele vaardigheid vertonen? Of zouden ze net zo goed presteren als ze op de juiste manier worden gevraagd? Zou dit impliceren dat moreel begrip kan worden geleerd door een statistisch taalmodel dat alleen syntactische relaties codeert? Of impliceert dit in plaats daarvan dat LLM's op zijn minst een deel van de semantische inhoud coderen? Tonen alle LLM's dezelfde morele vaardigheid, afhankelijk van verfijning, of is deze alleen voorbehouden aan grotere, capabelere modellen? Impliceert deze ethische gevoeligheid dat LLM’s een interne representatie van moraliteit hebben? Dit zijn allemaal open vragen.
Ten tweede vereist RLAIF zelf een dieper filosofisch onderzoek. Het basisidee is dat de AI-evaluator zich baseert op een lijst met principes – een ‘grondwet’ – om te bepalen welke van de twee voltooiingen er het meest aan voldoet. De uitvinder en belangrijkste voorstander van deze aanpak is Anthropic, in hun model Claude. De grondwet van Claude bevat een ongestructureerde lijst van principes, waarvan sommige op charmante wijze ad hoc zijn. Maar Claude leert deze principes één voor één kennen en wordt nooit expliciet getraind in het maken van afwegingen. Hoe worden deze afwegingen in de praktijk gemaakt? Wordt dit gedreven door het onderliggende inzicht in het relatieve belang van deze overwegingen? Of zijn artefacten van het trainingsproces en de vooroordelen van het onderliggende taalmodel uiteindelijk definitief? Kunnen we het trainen om op een robuuste en transparante manier afwegingen te maken? Dit is niet alleen theoretisch interessant. Het sturen van LLM-gedrag is eigenlijk een kwestie van het besturen van hun eindgebruikers, het ontwikkelen van algoritmische beveiligingen om misbruik te voorkomen. Als dit algoritmische bestuur afhankelijk is van ondoorgrondelijke afwegingen gemaakt door een LLM, waarover we geen expliciete of directe controle hebben, dan is die regeringsmacht op het eerste gezicht onwettig en ongerechtvaardigd.
Ten derde is de machine-ethiek – het project waarbij wordt geprobeerd AI-systemen te ontwerpen die kunnen handelen in overeenstemming met een morele theorie – historisch gezien in twee brede kampen verdeeld: degenen die proberen moraliteit expliciet in machines te programmeren; en die zich richten op het 'bottom-up' onderwijzen van de moraal van machines met behulp van machinaal leren. Op interessante wijze combineren RLHF en RLAIF beide benaderingen: ze omvatten het geven van expliciete instructies in natuurlijke taal aan menselijke of AI-beoordelaars, maar gebruiken vervolgens versterkend leren om die instructies in de gewichten van het model te coderen.
Deze benadering heeft één voor de hand liggend voordeel: ze maakt zich niet schuldig aan wat de Cambridge-filosoof Claire Benn de ‘mimetische misvatting’ van andere bottom-up-benaderingen noemt, namelijk dat de normen die van toepassing zijn op een generatieve actor in een situatie identiek zijn aan de normen die zouden gelden voor een generatieve actor in een situatie. gelden voor een mens in dezelfde situatie. Het gevolg is dat RLHF en RLAIF een markt van miljarden dollars in AI-diensten mogelijk hebben gemaakt, met alle goederen en kwalen van dien. Ironisch genoeg lijken ze echter, althans theoretisch, niet geschikt om ervoor te zorgen dat complexere generatieve actoren zich aan maatschappelijke normen houden. Deze technieken werken vooral goed bij het genereren van tekst, omdat het gedrag dat wordt geëvalueerd precies hetzelfde is als het gedrag dat we willen vormgeven. Menselijke of AI-beoordelaars evalueren de gegenereerde tekst; het model leert als reactie hierop beter tekst te genereren. Maar het gedrag van generatieve agenten omvat ook acties in de wereld. Dit duidt op twee zorgen. Ten eerste is de inzet waarschijnlijk hoger, dus de ‘broosheid’ van de bestaande uitlijningstechnieken zou een grotere zorg moeten zijn. Onderzoekers hebben al aangetoond dat het eenvoudig is om de modeluitlijning te verfijnen, zelfs voor de meest capabele modellen zoals GPT-4. Ten tweede is er geen garantie dat dezelfde aanpak even goed zal werken als de nauwe verbinding tussen gedrag en evaluatie wordt verbroken.
Maar de indrukwekkende vaardigheid van LLM’s met morele concepten suggereert wel een pad naar effectievere strategieën om agenten op één lijn te brengen met maatschappelijke normen. Moreel gedrag bij mensen is afhankelijk van het bezit van morele concepten, het aannemen (impliciet of anderszins) van een verstandige manier om die concepten te organiseren, de motivatie om volgens die ‘theorie’ te handelen, en het vermogen om iemands gedrag te reguleren in overeenstemming met iemands motivaties. Tot de komst van LLM’s was de eerste stap een definitieve hindernis voor AI. Nu is dat niet zo. Dit geeft ons veel om mee te werken bij het afstemmen van generatieve agenten.
Een van de belangrijkste redenen voor bezorgdheid over de risico’s van toekomstige AI-systemen is met name hun schijnbare afhankelijkheid van grof consequentialistische vormen van redeneren – als AI-systemen zijn ze altijd bezig met het optimaliseren van het een of ander, en als we niet specificeren wat we willen dat ze met extreem hoge betrouwbaarheid optimaliseren, ze kunnen uiteindelijk allerlei soorten ongewenste schade veroorzaken terwijl ze, in stompzinnig letterlijke zin, voor dat doel optimaliseren. Generatieve actoren die over morele concepten beschikken, kunnen de opdracht krijgen hun doelstellingen alleen tegen redelijke kosten na te streven, en bij twijfel contact met ons op te nemen. Deze eenvoudige heuristiek, die routinematig wordt gebruikt bij het opdragen van (menselijke) proxyagenten om namens ons op te treden, is nog nooit eerder in de verste verte hanteerbaar geweest voor een computeragent.
Bovendien kan het vermogen van generatieve actoren om moreel taalgebruik te hanteren potentieel robuuste en waarheidsgetrouwe rechtvaardigingen voor hun beslissingen mogelijk maken. Andere bottom-upbenaderingen leren menselijk gedrag of oordelen na te bootsen; de rechtvaardiging voor hun oordeel is in sommige gevallen simpelweg dat ze goede voorspellers zijn van wat sommige representatieve mensen zouden denken. Dat is een slechte rechtvaardiging. Meer ethisch gevoelige modellen zouden in plaats daarvan kunnen redeneren op basis van gedachtegangen, hier identificeren ze eerst de moreel relevante kenmerken van een situatie en beslissen vervolgens op basis van die kenmerken. Dit is een belangrijke stap voorwaarts.
De huidige sociale rol van generatieve agenten wordt bepaald door onze bestaande digitale infrastructuur. Ze zijn geïntegreerd in zoeken, het genereren van inhoud en de influencer-economie. Ze vervangen al klantenservicemedewerkers. Ze zullen (hoop ik) MOOC’s (massive open online course) overbodig maken. Ik wil me vervolgens concentreren op drie meer ambitieuze rollen voor generatieve actoren in de samenleving, gerangschikt in de volgorde waarin ik verwacht dat ze werkelijk wijdverspreid zullen worden. Noodzakelijkerwijs is dit slechts een momentopname van de vreemde, prachtige en zorgwekkende manieren waarop generatieve actoren de samenleving op de korte tot middellange termijn zullen veranderen.
Vooruitgang in LLM's heeft een revolutie teweeggebracht in het oudste stokpaardje van de AI-liefhebber: de AI-metgezel. Generatieve agenten, aangedreven door modellen op GPT-4-niveau, met verfijnde en metaprompt-scripted ‘persoonlijkheden’, aangevuld met langetermijngeheugen en de mogelijkheid om een reeks acties in de wereld te ondernemen, kunnen nu veel meer gezelschapsvolle, boeiende en overtuigende simulaties van vriendschap dan ooit tevoren haalbaar zijn geweest, waardoor een nieuwe grens wordt geopend in de interactie tussen mens en AI. Mensen antropomorfiseren gewoonlijk alles; zelfs een heel eenvoudige chatbot kan tot onredelijke gehechtheid leiden. Hoe zullen de zaken veranderen als iedereen toegang heeft tot ongelooflijk overtuigende generatieve agenten die echte persoonlijkheden perfect simuleren, die een ‘oor’ lenen of wijs advies geven wanneer erom gevraagd wordt – en bovendien zich perfect alles kunnen herinneren wat je ooit hebt gedeeld?
Sommigen zullen instinctief terugdeinzen voor dit idee. Maar intuïtieve walging is een feilbare morele leidraad als je geconfronteerd wordt met nieuwe sociale praktijken, en een ontoereikende basis om feitelijk te voorkomen dat instemmende volwassenen deze metgezellen creëren en ermee omgaan. En toch weten we uit onze ervaring met sociale media dat het inzetten van deze technologische innovaties zonder voldoende vooruitziendheid voorspelbaar een bloedbad met zich meebrengt. Hoe kunnen we met open ogen het tijdperk van reguliere AI-metgezellen betreden en die risico's beperken voordat ze zich voordoen?
Zullen sommige praktijken sociaal onaanvaardbaar worden in echte vriendschappen als je ze met een bot zou kunnen doen?
Stel dat de metgezel waarmee u sinds uw tienerjaren contact heeft gehad, in de cloud wordt gehost, als onderdeel van een abonnementsservice. Dit zou hetzelfde zijn als wanneer een geliefd huisdier (of vriend?) wordt gegijzeld door een particulier bedrijf. Erger nog, generatieve agenten zijn fundamenteel veranderlijk: hun persoonlijkheden en doelstellingen kunnen exogeen worden veranderd, door simpelweg hun instructies te veranderen. En ze zijn buitengewoon bedreven in manipulatie en bedrog. Stel dat een rechtse miljardair het bedrijf koopt dat uw metgezel host, en alle bots instrueert om hun gebruikers heimelijk in de richting van meer conservatieve opvattingen te duwen. Dit zou een veel effectievere manier van mind-control kunnen zijn dan alleen het kopen van een falend sociale-mediaplatform. En deze meer capabele metgezellen – die mogelijk kunnen worden geïntegreerd met andere AI-doorbraken, zoals stemsynthese – zullen een buitengewone krachtvermenigvuldiger zijn voor degenen die zich bezighouden met het radicaliseren van anderen.
Naast het anticiperen op de risico's van AI-metgezellen, zullen ze, net als bij sociale media, veel desoriënterende maatschappelijke veranderingen teweegbrengen – of het nu ten goede of ten kwade is, kan van tevoren onduidelijk zijn. Welk indirect effect kunnen AI-metgezellen bijvoorbeeld hebben op onze andere, niet-virtuele sociale relaties? Zullen sommige praktijken sociaal onaanvaardbaar worden in echte vriendschappen als je ze met een bot zou kunnen doen? Of zouden diepere vriendschappen iets belangrijks verliezen als deze instrumentele functies van lagere kwaliteit worden weggelaten? Of zullen AI-metgezellen van onschatbare waarde bijdragen aan de geestelijke gezondheid en tegelijkertijd ‘echte’ relaties versterken?
Deze laatste vraag raakt de kern van een groter probleem met generatieve AI-systemen in het algemeen, en generatieve agenten in het bijzonder. LLM's zijn getraind om het volgende token te voorspellen. Generatieve actoren hebben dus geen geest, geen zelf. Het zijn uitstekende simulaties van menselijk handelen. Ze kunnen onder meer vriendschap simuleren. We moeten ons daarom afvragen: doet dit verschil tussen simulatie en realiteit ertoe? Waarom? Gaat dit alleen over vriendschap, of zijn er meer algemene principes over de waarde van het echte? Ik was me hier vóór de opkomst van de LLM’s niet volledig van bewust, maar het blijkt dat ik er sterk aan gehecht ben dat de dingen echt zijn. Een simulatie van X heeft, voor vrijwel elke vermeend waardevolle X, naar mijn mening minder morele waarde dan het echte werk. Waarom is dat? Waarom zal een generatieve agent nooit een echte vriend zijn? Waarom wil ik zelf voor Edward Hoppers schilderij Nighthawks (1942) staan, in plaats van een oneindig aantal esthetisch even aangename producten van generatieve AI-systemen te zien? Ik heb enkele eerste gedachten; Maar naarmate AI-systemen steeds beter worden in het simuleren van alles waar we om geven, zal een volledig uitgewerkte theorie over de waarde van het echte, het authentieke, moreel en praktisch essentieel worden.
De pathologieën van de digitale publieke sfeer vloeien gedeeltelijk voort uit twee problemen. Ten eerste vertrouwen we onvermijdelijk op AI om ons te helpen navigeren door de functioneel oneindige hoeveelheid online-inhoud. Ten tweede ondersteunen bestaande systemen voor het toekennen van online aandacht de gecentraliseerde, extractieve kracht van enkele grote technologiebedrijven. Generatieve agenten, die als aandachtsbewakers fungeren, zouden dit kunnen veranderen.
Onze online aandacht wordt momenteel toegewezen met behulp van machine learning-systemen voor het aanbevelen en ophalen van informatie, die drie belangrijke kenmerken hebben: ze zijn afhankelijk van enorme hoeveelheden gedragsgegevens; ze leiden onze voorkeuren af uit ons onthulde gedrag; en ze worden gecontroleerd door particuliere bedrijven met weinig prikkels om in onze belangen te handelen. Op diep versterkend leren gebaseerde aanbevelingssystemen zijn bijvoorbeeld een fundamenteel centraliserende en toezichthoudende technologie. Gedragsgegevens moeten worden verzameld en gecentraliseerd om te kunnen worden gebruikt om conclusies te trekken over relevantie en irrelevantie. Omdat deze gegevens zo waardevol zijn en het verzamelen ervan kostbaar is, zijn degenen die dat doen niet van plan deze te delen. En omdat de gegevens zo krachtig zijn, zijn er goede redenen op het gebied van gegevensbescherming om dit niet te doen. Als gevolg hiervan zijn alleen de grote platforms in staat effectieve opzoekings- en aanbevelingsinstrumenten te maken; Hun belangen en die van ons zijn niet op elkaar afgestemd, wat leidt tot de praktijk van optimaliseren voor betrokkenheid, om zo het adverteerdersrendement te maximaliseren, ondanks de individuele en maatschappelijke kosten. En zelfs als ze ernaar streefden onze belangen daadwerkelijk te bevorderen, maakt versterkend leren het mogelijk alleen geopenbaarde voorkeuren af te leiden – de voorkeuren waarnaar we handelen, niet de voorkeuren die we wensten te hebben. Hoewel de pathologieën van onlinecommunicatie uiteraard niet allemaal te wijten zijn aan de mogelijkheden van aanbevelingssystemen, is dit een ongelukkige mix.
Generatieve agenten zouden aandachtsbewakers mogelijk maken die in elk opzicht verschillen. Ze zouden niet afhankelijk zijn van enorme hoeveelheden live gedragsgegevens om te kunnen functioneren. Ze kunnen uw werkelijke, niet uw onthulde, voorkeuren (functioneel) begrijpen en operationeel maken. En ze hoeven niet te worden gecontroleerd door de grote platforms.
Ze zouden aanbevelingen en filtering kunnen bieden zonder toezicht en betrokkenheidsoptimalisatie
Het is duidelijk dat LLM's moeten worden getraind in enorme hoeveelheden gegevens, maar als ze eenmaal zijn opgeleid, zijn ze zeer bedreven in het trekken van conclusies zonder voortdurend toezicht. Stel je voor dat data bloed is. Bestaande op diepgaande bekrachtiging gebaseerde aanbevelingssystemen zijn als vampiers die zich moeten voeden met het bloed van de levenden om te overleven. Generatieve middelen lijken meer op verbrandingsmotoren en vertrouwen op de olie die wordt geproduceerd door ‘gefossiliseerde’ gegevens. Bestaande aanbevelingen voor versterkend leren hebben gecentraliseerd toezicht nodig om de inhoud van online berichten te modelleren, uw voorkeuren te voorspellen (door uw gedrag met die van anderen te vergelijken) en zo de een aan de ander in kaart te brengen. Generatieve agenten kunnen inhoud begrijpen door simpelweg inhoud te begrijpen. En ze kunnen op basis van hun redeneervermogen en hun model van jouw voorkeuren conclusies trekken over waar jij baat bij zou hebben als je ze ziet, zonder erop te vertrouwen dat je weet wat alle anderen van plan zijn.
Dit punt is van cruciaal belang: vanwege hun gemak met morele en aanverwante concepten zouden generatieve agenten een model van uw voorkeuren en waarden kunnen bouwen door er rechtstreeks met u over te praten, en transparant te reageren op uw werkelijke zorgen in plaats van alleen maar af te leiden wat u leuk vindt uit wat u leuk vindt. Doen. Dit betekent dat ze, in plaats van uw keuzevrijheid te omzeilen, deze kunnen ondersteunen, u kunnen helpen uw voorkeuren van de tweede orde te respecteren (over wat u wilt) en van verklaringen in natuurlijke taal kunnen leren – zelfs indirecte – over waarom u dat niet doet. Ik wil een bepaald bericht niet zien. En naast het toegeven aan uw voorkeuren kunnen aandachtsbewakers ook worden ontworpen om bescheiden paternalistisch te zijn – op een transparante manier.
En omdat deze aandachtsbewakers geen gedragsgegevens nodig hebben om te kunnen functioneren, en de infrastructuur waarvan ze afhankelijk zijn niet centraal hoeft te worden gecontroleerd door de grote digitale platforms, kunnen ze worden ontworpen om werkelijk in uw belang te opereren en uw aandacht te bewaken, in plaats van deze te exploiteren. . Hoewel de grote platforms generatieve agenten ongetwijfeld zouden beperken om namens u op hun sites te surfen, zouden ze de ervaring van het gebruik van op open protocol gebaseerde sociale-mediasites, zoals Mastodon, kunnen transformeren door aanbevelingen en filtering te bieden zonder toezicht en betrokkenheidsoptimalisatie.
Ten slotte kunnen LLM's ons in staat stellen universele tussenpersonen te ontwerpen, generatieve agenten die tussen ons en onze digitale technologieën in zitten, waardoor we eenvoudigweg een intentie kunnen uiten en deze effectief door die systemen kunnen verwezenlijken. Iedereen zou een digitale butler, onderzoeksassistent, persoonlijke assistent, enzovoort kunnen hebben. De klasse van hiërofantische codeerders zou kunnen worden omvergeworpen, omdat iedereen elk programma tot bestaan zou kunnen toveren met alleen instructies in natuurlijke taal.
Momenteel zijn universele tussenpersonen uitgesloten door de kwetsbaarheid van LLM’s om te worden gekaapt door snelle injectie. Omdat ze geen duidelijk onderscheid maken tussen opdrachten en gegevens, kunnen de gegevens in hun contextvenster worden vergiftigd met opdrachten die hen opdragen zich te gedragen op een manier die niet is bedoeld door de persoon die ze gebruikt. Dit is een diepgaand probleem: hoe meer capaciteiten we delegeren aan generatieve actoren, hoe meer schade ze kunnen aanrichten als ze in gevaar komen. Stel je een assistent voor die je e-mail beoordeelt. Als hij wordt gekaapt, kan hij al je privé-mail doorsturen naar een derde partij; maar als we gebruikersautorisatie nodig hebben voordat de agent kan handelen, verliezen we veel van de voordelen van automatisering.
Het wegwerken van de momenteel onuitroeibare rol van particuliere bedrijven zou een aanzienlijke morele vooruitgang betekenen
Maar stel dat deze veiligheidshindernissen kunnen worden overwonnen. Moeten we universele tussenpersonen verwelkomen? Ik heb elders geschreven dat algoritmische tussenpersonen degenen besturen die ze gebruiken – zij vormen de sociale relaties die zij bemiddelen, waardoor sommige dingen mogelijk en andere onmogelijk worden, sommige dingen gemakkelijk en andere moeilijk, ten dienste van het implementeren en handhaven van normen. Universele tussenpersonen zouden de apotheose van deze vorm zijn en zouden potentieel buitengewone macht kunnen verlenen aan de entiteiten die het gedrag van deze tussenpersonen vormgeven en zo hun gebruikers besturen. Dit zou zeker een zorg zijn!
Omgekeerd, als het onderzoek naar LLM’s aanzienlijke vooruitgang blijft boeken, zodat zeer capabele generatieve agenten lokaal kunnen worden gerund en geëxploiteerd, volledig onder de controle van hun gebruikers, zouden deze universele tussenpersonen ons in staat kunnen stellen om onze eigen interacties met digitale technologieën autonoom te besturen op een manier die dat de centraliserende mogelijkheden van bestaande digitale technologieën onmogelijk maken. Natuurlijk is zelfbestuur alleen niet voldoende (we moeten ook coördineren). Maar het wegwerken van de momenteel onuitroeibare rol van particuliere bedrijven zou een aanzienlijke morele vooruitgang betekenen.
Bestaande generatieve AI-systemen veroorzaken nu al echte schade op de manieren die door de critici hierboven worden benadrukt. En toekomstige generatieve actoren – misschien niet de volgende generatie, maar binnenkort wel – kunnen gevaarlijk genoeg zijn om op zijn minst een deel van de angst voor een dreigende AI-catastrofe te rechtvaardigen. Maar tussen deze twee uitersten zullen de nieuwe mogelijkheden van de meest geavanceerde AI-systemen een genre van generatieve agenten mogelijk maken dat óf letterlijk ongekend is, óf eerder slechts fragmentarisch en inadequaat is gerealiseerd. Dit nieuwe soort actoren geeft nieuwe urgentie aan eerder verwaarloosde filosofische vragen. Hun maatschappelijke gevolgen kunnen ondubbelzinnig slecht zijn, of er kan iets goeds in zitten – in veel opzichten is het nog te vroeg om dit met zekerheid te zeggen, niet alleen omdat we onzeker zijn over de aard van die gevolgen, maar ook omdat het ons ontbreekt aan adequate morele en politieke theorieën waarmee we ze kunnen evalueren. Het is nu gebruikelijk om te praten over het ontwerp en de regulering van ‘grensverleggende’ AI-modellen. Als we beide verstandig willen doen en generatieve agenten willen bouwen die we kunnen vertrouwen (of anders besluiten ze volledig in de steek te laten), dan hebben we ook een grensverleggende AI-ethiek nodig.