Naukowcy zajmujący się sztuczną inteligencją z Meta twierdzą, że opracowali największy dotychczas tego rodzaju model fałdowania białek, który jest w stanie przewidzieć strukturę ponad 600 milionów białek.
drużyna skrzynia Model oparty na adaptorze ESM-2 zawierającym 15 miliardów wariantów i bazie danych do przewidywania jego struktury białkowej, nazwany Atlas Metagenomiczny ESM, Wtorek. Ta baza danych zawiera izoformy białek, których naukowcy jeszcze nie zaobserwowali.
Białka są złożonymi cząsteczkami biologicznymi zawierającymi do 20 rodzajów aminokwasów i pełnią w żywych organizmach wszelkiego rodzaju funkcje biologiczne. Co najważniejsze, są one złożone w złożone struktury 3D, a ich kształt jest niezbędny do ich funkcjonowania; Wiedza o tym, jak to wygląda, pomaga naukowcom zrozumieć, jak to działa, a dzięki temu odkrywać sposoby naśladowania, zmiany lub przeciwdziałania temu zachowaniu.
Niestety nie można po prostu wziąć składu aminokwasowego i od razu pracować nad ostateczną strukturą. Możesz przeprowadzić symulacje lub eksperymentować, aby się tego dowiedzieć, ale to zajmuje dużo czasu. W dzisiejszych czasach możesz dostarczyć odpowiednio wyszkolone oprogramowanie do uczenia maszynowego do chemicznej struktury białka, a model szybko i dokładnie, względnie mówiąc, przewidzi strukturę.
W rzeczywistości DeepMind pokazał wiele dzięki swojemu modelowi AlphaFold, który: wygraj – wygraj CASP International Biennial Protein Folding Competition w 2020 roku. Dzięki wejściowemu łańcuchowi aminokwasów AlphaFold i inne oprogramowanie do uczenia maszynowego może wygenerować odpowiednią strukturę 3D.
Od tego czasu naukowcy z londyńskiego DeepMind ulepszyli swój system, aby: duma Struktura ponad 200 milionów białek jest znana nauce. Najnowszy system ESM Meta poszedł jeszcze dalej, przewidując setki milionów po przeszkoleniu na milionach sekwencji białkowych.
Wstępny artykuł zespołu Meta – Lin i in. – wyjaśniający konstrukcję ESM-2 można znaleźć tutaj. Co ciekawe, według Badacze, system jest w rzeczywistości dużym modelem lingwistycznym, który ma „nauczyć się wzorców ewolucyjnych i generować dokładne, kompleksowe prognozy strukturalne bezpośrednio z sekwencji białek”. Na przykład AlphaFold nie jest językiem modelowym i wykorzystuje inne podejście.
Jak zauważa Boffin w swoim artykule, te duże modele językowe mogą być używane znacznie więcej niż tylko do czynienia z ludzkimi językami: „Nowoczesne modele językowe z dziesiątkami do setek miliardów parametrów rozwijają możliwości, takie jak tłumaczenie języka o niskim poziomie przyciągania, logiczne rozumowanie i matematyka Rozwiązywanie problemów Wszystko bez wyraźnego nadzoru.
„Te obserwacje wskazują na możliwość równoległej formy pojawiania się modeli językowych wyszkolonych na sekwencjach białek”.
Rezultatem jest ESM-2, który chociaż nauczono model lingwistyczny, aby przewidywać fizyczny kształt białka na podstawie ciągu tekstowego reprezentującego aminokwasy.
ESM-2 jest największym tego rodzaju modelem, najwyraźniej przewidującym struktury szybciej niż podobne systemy; Według Meta jest to do 60 razy szybsze niż najnowsze, poprzednie systemy, takie jak AlphaFold czy Rosetta, co według Meta może zająć więcej niż dziesięć minut.
Model był w stanie stworzyć Atlas Metagenomiczny ESM i przewidział ponad 600 milionów struktur z MGnify90 Baza danych białek w zaledwie dwa tygodnie na 2000 procesorach graficznych. Na pojedynczym procesorze graficznym Nvidia V100 symulacja białka składającego się z 384 aminokwasów zajmuje zaledwie 14,2 sekundy. Z artykułu badawczego wynika, że Meta stwierdziła, że jej system w większości, ale nie całkowicie, dorównuje AlphaFold pod względem dokładności, chociaż jego szybkość jest kluczowa, umożliwiając przewidywanie większej liczby białek.
„Korzystając z najnowocześniejszych narzędzi obliczeniowych, przewidywanie struktur setek milionów łańcuchów białkowych w praktycznych ramach czasowych może zająć lata, nawet przy wykorzystaniu zasobów dużej instytucji badawczej. Aby przewidywać na poziomie metagenomiki, przełom w szybkości przewidywania ma kluczowe znaczenie” – powiedział właściciel Facebooka.
Meta ma nadzieję, że ESM-2 i ESM Metagenomic Atlas przyczynią się do rozwoju nauki, pomagając naukowcom w badaniu historii ewolucji lub radzeniu sobie z chorobami i zmianami klimatycznymi. „Aby jeszcze bardziej poszerzyć tę pracę, badamy, w jaki sposób modele językowe mogą być wykorzystywane do projektowania nowych białek i rozwiązywania problemów związanych ze zdrowiem, chorobami i środowiskiem” – podsumował Pease. ®