Letztes Jahr veröffentlichte DeepMind von Alphabet eine Open-Source-Datenbank mit den 3D-Strukturen von Hunderttausenden von Proteinen, einschließlich aller 20.000 bekannten Proteine im menschlichen Körper. Jetzt ist diese AlphaFold-Datenbank mit Proteinstrukturen auf 200 Millionen angewachsen, darunter fast jedes der Wissenschaft bekannte Protein.
Proteine sind lebenswichtige Bausteine von Zellen, die unzählige lebenswichtige biologische Prozesse ausführen. Sie bestehen aus Ketten von Aminosäuren, die sich zu komplexen dreidimensionalen Formen falten, die ihre Funktion bestimmen. Die Kartierung der Strukturen von Proteinen ist wichtig, um zu verstehen, was sie tun, wie sie funktionieren und wie etwas schief gehen kann, was der Schlüssel zur Erforschung von allem ist, von neuen Medikamenten und Behandlungen bis hin zur Verbesserung des Pflanzen- und Tierschutzes.
Aber die genaue Struktur eines Proteins aus den Aminosäuren, aus denen es besteht, herauszufinden, ist immer noch schwierig. Um dies herauszufinden, ist oft viel Rechenleistung und menschliche Zeit erforderlich, eine Situation, die als „Proteinfaltungsproblem“ bekannt geworden ist. Infolgedessen sind die Fortschritte seit Jahrzehnten relativ langsam.
Das heißt, bis Alphabet seine mächtige künstliche DeepMind-Intelligenz auf dieses Problem anwendet. Ursprünglich auf 100.000 bekannte Proteinstrukturen trainiert, hat das System die Fähigkeit entwickelt, die Strukturen von Millionen anderer Proteine jeweils in Minuten oder Sekunden statt in Monaten oder Jahren sicher vorherzusagen.
Im Juli 2021 wurde die erste AlphaFold-Proteinstrukturdatenbank für Wissenschaftler zur Untersuchung freigegeben. Es enthielt ursprünglich mehr als 350.000 Proteinstrukturen, darunter etwa 98,5 % menschlicher Proteine sowie solche, die in Drosophila, Maus, Hefe und E. coli gefunden wurden. Später wurde es auf etwa eine Million Proteinstrukturen von 10.000 Tieren, Pflanzen, Bakterien, Pilzen und anderen Organismen erweitert. Seitdem haben mehr als eine halbe Million Wissenschaftler aus der ganzen Welt auf die Datenbank zugegriffen, um ihre Forschung zu unterstützen.
Jetzt hat DeepMind ein massives Update der Datenbank veröffentlicht, die nun etwa 214 Millionen Strukturen von einer Million Arten enthält. Dies deckt fast jedes Protein ab, das der wissenschaftlichen Gemeinschaft derzeit bekannt ist, und bietet einen enormen Schub für die Erforschung von Krankheitsbehandlungen, Impfstoffen, nachhaltiger Entwicklung, Antibiotikaresistenz und sogar Plastikverschmutzung.
„AlphaFold hat Entdeckungen im großen Maßstab beschleunigt und ermöglicht, darunter das Aufbrechen der Struktur des Kernporenkomplexes“, sagte Eric Topol, Direktor des Scripps Research Translational Institute. „Und da neu hinzugefügte Strukturen fast die gesamte Proteinwelt erhellen, können wir erwarten jeden Tag müssen mehr biologische Rätsel gelöst werden.“
Die gesamte Proteinstrukturdatenbank besteht aus über 25 TB an Daten, die von Google Cloud Public Datasets heruntergeladen werden können.