Het Is Het Begin
AlphaFold3 van Google DeepMind en andere deep learning-algoritmen kunnen nu de vormen van interacterende complexen van eiwitten, DNA, RNA en andere moleculen voorspellen, waardoor de biologische landschappen van cellen beter worden vastgelegd.
Vrij naar Adam Nickel voor Quanta Magazine
Inleiding
Eiwitten zijn de moleculaire machines die elke cel en elk organisme in stand houden, en weten hoe ze eruit zien, is van cruciaal belang om te ontwarren hoe ze normaal functioneren en niet goed functioneren bij ziekte. Nu hebben onderzoekers een grote stap gezet in de richting van dat doel met de ontwikkeling van nieuwe machine learning-algoritmen die de gevouwen vormen van niet alleen eiwitten, maar ook van andere biomoleculen met ongekende nauwkeurigheid kunnen voorspellen.
In een vandaag in Nature gepubliceerd artikel kondigden Google DeepMind en zijn spin-offbedrijf Isomorphic Labs de nieuwste versie (opent een nieuw tabblad) aan van hun AlphaFold-programma, AlphaFold3, dat de structuren van eiwitten, DNA, RNA, liganden en andere biomoleculen kan voorspellen, hetzij alleen of in verschillende vormen samengebonden. De bevindingen volgen op een soortgelijke update (opent een nieuw tabblad) van een ander deep learning-algoritme voor het voorspellen van structuren, genaamd RoseTTAFold All-Atom, dat in maart in Science werd gepubliceerd.
Hoewel de vorige versies van deze algoritmen eiwitstructuren konden voorspellen — op zichzelf al een opmerkelijke prestatie — gingen ze niet ver genoeg om de mysteries van biologische processen te ontrafelen, omdat eiwitten zelden alleen handelen. "Elke keer dat ik een AlphaFold2-lezing gaf, kon ik bijna raden wat de vragen zouden zijn", aldus John Jumper, die het AlphaFold-team bij Google DeepMind leidt. "Iemand zou zijn hand opsteken en zeggen: 'Ja, maar mijn eiwit interageert met DNA. Kunt u mij vertellen hoe?’” Jumper zou moeten toegeven dat AlphaFold2 het antwoord niet wist.
Maar AlphaFold3 misschien wel. Samen met andere opkomende deep learning-algoritmen gaat het verder dan eiwitten naar een uitdagender en relevanter biologisch landschap dat de enorme diversiteit aan moleculen omvat die in cellen interacteren.
“Nu krijg je alle complexe interacties die ertoe doen in de biologie,” zei Brenda Rubenstein (opent een nieuw tabblad), een universitair hoofddocent scheikunde en natuurkunde aan de Brown University die niet bij een van beide onderzoeken betrokken was. “Je begint meer van het grotere plaatje te krijgen.”
Het begrijpen van die interacties is “fundamenteel voor biologische functies,” zei Paul Adams (opent een nieuw tabblad), een moleculair biofysicus bij Lawrence Berkeley National Laboratory die ook niet bij een van beide onderzoeken betrokken was. “Beide groepen hebben aanzienlijke vooruitgang geboekt in het aanpakken van [dit].”
Beide algoritmen hebben beperkingen, maar ze hebben het potentieel om te evolueren naar nog krachtigere voorspellingstools. In de komende maanden zullen wetenschappers ze gaan testen en daarbij zullen ze onthullen hoe nuttig deze algoritmen kunnen zijn.
Nieuwe AI-systemen kunnen niet alleen de vormen en structuren van eiwitten voorspellen, maar ook de complexen die ze vormen met DNA, RNA en andere biomoleculen.
AI-vooruitgang in biologie
Deep learning is een variant van machinaal leren die losjes is geïnspireerd op het menselijk brein. Deze computeralgoritmen zijn gebouwd met behulp van complexe netwerken van informatieknooppunten (neuronen genoemd) die gelaagde verbindingen met elkaar vormen. Onderzoekers voorzien het deep learning-netwerk van trainingsgegevens, die het algoritme gebruikt om de relatieve sterktes van verbindingen tussen neuronen aan te passen om outputs te produceren die steeds dichter bij trainingsvoorbeelden komen. In het geval van kunstmatige-intelligentiesystemen voor eiwitten leidt dit proces ertoe dat het netwerk betere voorspellingen doet over de vormen van eiwitten op basis van hun aminozuursequentiegegevens.
AlphaFold2, uitgebracht in 2021, was een doorbraak voor deep learning in biologie. Het ontsloot een immense wereld van voorheen onbekende eiwitstructuren en is al een nuttig hulpmiddel geworden voor onderzoekers die alles willen begrijpen, van cellulaire structuren (opent een nieuw tabblad) tot tuberculose (opent een nieuw tabblad). Het heeft ook de ontwikkeling van aanvullende biologische deep learning-tools geïnspireerd. Het meest opvallende is dat de biochemicus David Baker (opent een nieuw tabblad) en zijn team aan de Universiteit van Washington in 2021 een concurrerend algoritme ontwikkelden genaamd RoseTTAFold (opent een nieuw tabblad), dat net als AlphaFold2 eiwitstructuren voorspelt op basis van sequentiegegevens.
Portret van John Jumper
John Jumper, die in 2017 bij Google DeepMind kwam, leidde het team dat AlphaFold3 produceerde, dat de structuren van biomoleculaire complexen kan voorspellen. "Ik kan niet wachten om te zien wat [onderzoekers] met AlphaFold3 gaan doen", zei hij.
Sindsdien zijn beide algoritmen bijgewerkt met nieuwe functies. RoseTTAFold Diffusion zou kunnen worden gebruikt om nieuwe eiwitten te ontwerpen die niet in de natuur voorkomen. AlphaFold Multimer zou kunnen kijken naar de interactie van meerdere eiwitten. "Maar wat we onbeantwoord lieten", zei Jumper, "was: Hoe communiceren eiwitten met de rest van de cel?"
Het succes van de eerste iteraties van eiwitvoorspellende deep learning-algoritmen berustte op de beschikbaarheid van goede trainingsgegevens: ongeveer 140.000 gevalideerde eiwitstructuren die gedurende 50 jaar waren gedeponeerd in de Protein Data Bank (opent een nieuw tabblad). Biologen hebben ook steeds vaker de structuren van kleine moleculen, DNA, RNA en hun combinaties gedeponeerd. Bij deze uitbreiding van AlphaFold's algoritme om meer biomoleculen op te nemen, was "de grootste onbekende", zei Jumper, of er genoeg gegevens zouden zijn om het algoritme in staat te stellen complexen van eiwitten met deze andere moleculen nauwkeurig te voorspellen.
Blijkbaar was dat zo. Eind 2023 brachten Baker en vervolgens Jumper de voorlopige versies van hun nieuwe AI-tools uit en sindsdien hebben ze hun algoritmen onderworpen aan peer review.
Beide AI-systemen pakken dezelfde vraag aan, maar de onderliggende architecturen van hun deep learning-methoden verschillen, aldus Mohammed AlQuraishi (opent een nieuw tabblad), een systeembioloog aan de Columbia University die niet bij een van beide systemen betrokken is. Jumpers team gebruikte een proces genaamd diffusie — de technologie die de meeste niet-tekstgebaseerde generatieve AI-systemen aandrijft, zoals Midjourney en DALL·E, die kunst genereren op basis van tekstprompts, aldus AlQuraishi. In plaats van de moleculaire structuur direct te voorspellen en deze vervolgens te verbeteren, produceert dit type model eerst een wazig beeld en verfijnt het dit op iteratieve wijze.
Portret van David Baker.
De biochemicus David Baker heeft de ontwikkeling van RoseTTAFold, een toonaangevend AI-systeem voor proteïnevoorspelling, geleid. Hij bracht een update uit die biomoleculaire complexen modelleert, slechts een paar maanden voordat Google DeepMind die van hen uitbracht.
Vanuit een technisch standpunt is er geen grote sprong van RoseTTAFold naar RoseTTAFold All-Atom, aldus AlQuraishi. Baker heeft de onderliggende architectuur van RoseTTAFold niet enorm veranderd, maar heeft deze wel bijgewerkt met bekende regels voor biochemische interacties. Het algoritme gebruikt geen diffusie om biomoleculaire structuren te voorspellen. Bakers AI voor het ontwerpen van eiwitten doet dat echter wel. De nieuwste versie van dit programma, bekend als RoseTTAFold Diffusion All-Atom, kan naast eiwitten ook nieuwe biomoleculen ontwerpen.
"Het soort dividend dat kan voortvloeien uit het kunnen toepassen van generatieve AI-technologieën op biomoleculen, wordt slechts gedeeltelijk gerealiseerd met eiwitontwerp", aldus AlQuraishi. "Als we het net zo goed kunnen doen met kleine moleculen, zou dat geweldig zijn."
De concurrentie inschatten
AlphaFold3 lijkt naast elkaar nauwkeuriger te zijn dan RoseTTAFold All-Atom. Bijvoorbeeld, in hun analyse in Nature ontdekte het Google-team dat hun tool ongeveer 76% nauwkeurig is in het voorspellen van structuren van eiwitten die interacteren met kleine moleculen die liganden worden genoemd, vergeleken met ongeveer 42% nauwkeurigheid voor RoseTTAFold All-Atom en 52% voor de beste alternatieve tools die er zijn.
De structuurvoorspellingsprestaties van AlphaFold3 zijn "zeer indrukwekkend", zei Baker, "en beter dan die van RoseTTAFold All-Atom."
Die testcijfers zijn echter gebaseerd op een beperkte dataset die niet erg uitdagend is, zei AlQuraishi. Hij verwacht niet dat alle eiwitcomplexvoorspellingen zo hoog zullen scoren. En de nieuwe AI-tools zijn zeker nog niet krachtig genoeg om op zichzelf een robuust medicijnontdekkingsprogramma te ondersteunen, aangezien onderzoekers daarvoor complexe biomoleculaire interacties moeten begrijpen. Toch "is het absoluut veelbelovend", zei hij, en aanzienlijk beter dan wat er eerder bestond.
Adams is het daarmee eens. "Als iemand gaat beweren dat ze dit morgen kunnen gebruiken om nauwkeurig medicijnen te ontwikkelen, geloof ik dat niet", zei hij. "Beide methoden zijn nog steeds beperkt in hun nauwkeurigheid, [maar] beide zijn dramatische verbeteringen ten opzichte van wat mogelijk was."
AlphaFold3 kan de vormen van biomoleculaire complexen voorspellen, zoals dit spike-eiwit (opent een nieuw tabblad) van een verkoudheidsvirus. De voorspelde structuren van twee eiwitten worden gevisualiseerd in blauw en groen, terwijl kleine moleculen (liganden) die aan de eiwitten zijn gebonden, worden weergegeven in geel. De bekende experimentele structuur van het eiwit is omlijnd in grijs.
Ze zullen vooral nuttig zijn voor het maken van ruwe voorspellingen die vervolgens computationeel of experimenteel kunnen worden getest. De biochemicus Frank Uhlmann (opent een nieuw tabblad) kreeg de kans om AlphaFold3 vooraf te testen nadat hij een Google-medewerker tegenkwam in een gang van het Francis Crick Institute in Londen, waar hij werkt. Hij besloot een eiwit-DNA-interactie op te zoeken die "echt raadselachtig voor ons was", zei hij. AlphaFold3 spuugde een voorspelling uit die ze nu experimenteel testen in het lab. "We hebben al een aantal nieuwe ideeën die echt zouden kunnen werken," zei Uhlmann. "Het is een geweldig hulpmiddel voor ontdekkingen."
Toch is er nog veel te verbeteren. Wanneer RoseTTAFold All-Atom de structuren van complexen van eiwitten en kleine moleculen voorspelt, plaatst het de moleculen soms in de juiste holte in een eiwit, maar niet in de juiste oriëntatie. AlphaFold3 voorspelt soms onjuist de chiraliteit van een molecuul — de duidelijke "linkshandige" of "rechtshandige" geometrische oriëntatie van zijn structuur. Soms zal het hallucineren of onnauwkeurige structuren creëren.
En beide algoritmen produceren nog steeds statische beelden van eiwitten en hun complexen. In een cel zijn eiwitten dynamisch en kunnen ze veranderen afhankelijk van hun omgeving: ze bewegen rond, roteren en doorlopen verschillende conformaties. Het zal een uitdaging zijn om dit aan te pakken, zei Adams, voornamelijk vanwege een gebrek aan trainingsgegevens. "Het zou geweldig zijn om gezamenlijke inspanningen te leveren om experimentele gegevens te verzamelen die zijn ontworpen om deze uitdagingen te informeren", zei hij.
Een belangrijke verandering in het nieuwe product van Google is dat het niet open source zal zijn. Toen het team AlphaFold2 uitbracht, publiceerden ze de onderliggende code, waarmee biologen het algoritme in hun eigen labs konden reproduceren en ermee konden spelen. Maar de code van AlphaFold3 zal niet openbaar beschikbaar zijn.
"Ze lijken de methode wel gedetailleerd te beschrijven. Maar voorlopig kan niemand het gebruiken zoals ze dat deden met [AlphaFold2],” zei AlQuraishi. Dat is “een grote stap terug. We zullen natuurlijk proberen het te reproduceren.”
Google heeft echter aangekondigd dat ze stappen ondernemen om het product toegankelijk te maken door een nieuwe AlphaFold-server aan te bieden aan biologen die AlphaFold3 gebruiken. Het voorspellen van biomoleculaire structuren kost een hoop computerkracht: zelfs bij een laboratoriuminstituut als Francis Crick, dat hoogwaardige computerclusters host, duurt het ongeveer een week om een resultaat uit te spugen, zei Uhlmann. De krachtigere servers van Google kunnen daarentegen in 10 minuten een voorspelling doen, zei hij, en wetenschappers over de hele wereld zullen ze kunnen gebruiken. "Het gaat het onderzoek naar proteïnevoorspelling volledig democratiseren", zei Uhlmann.
De ware impact van deze tools zal pas over maanden of jaren bekend zijn, aangezien biologen ze gaan testen en gebruiken in onderzoek. En ze zullen zich blijven ontwikkelen. Wat de volgende stap is voor deep learning in de moleculaire biologie is "de ladder van biologische complexiteit beklimmen", zei Baker, zelfs verder dan de biomolecuulcomplexen die voorspeld zijn door AlphaFold3 en RoseTTAFold All-Atom. Maar als de geschiedenis van proteïnestructuur-AI de toekomst kan voorspellen, dan zullen deze deep learning-modellen van de volgende generatie wetenschappers blijven helpen de complexe interacties te onthullen die het leven mogelijk maken.
"Er is nog zoveel meer te begrijpen", zei Jumper. "Het is het begin."