La più recente IA di Meta determina le pieghe proteiche corrette 60 volte più velocemente

lse sulla Terra non esisterebbe come la conosciamo, se non per le molecole proteiche che consentono processi critici dalla fotosintesi e dalla degradazione enzimatica alla vista e al nostro sistema immunitario. E come la maggior parte delle sfaccettature del mondo naturale, l’umanità ha appena iniziato a scoprire le moltitudini di tipi di proteine ​​effettivamente esistenti. Ma piuttosto perlustrare le parti più inospitali del pianeta alla ricerca di nuovi microrganismi che potrebbero avere un nuovo sapore di molecola organica, i ricercatori Meta hanno sviluppato un database metagenomico primo nel suo genere, l’ESM Metagenomic Atlas, che potrebbe accelerare le proteine ​​esistenti -pieghevoli prestazioni AI di 60 volte.

Metagenomica è solo casualmente chiamato. È una disciplina scientifica relativamente nuova, ma molto reale, che studia “la struttura e la funzione di intere sequenze nucleotidiche isolate e analizzate da tutti gli organismi (tipicamente microbi) in un campione di massa”. Spesso utilizzate per identificare le comunità batteriche che vivono sulla nostra pelle o nel suolo, queste tecniche sono simili in funzione alla gascromatografia, in cui si cerca di identificare ciò che è presente in un dato sistema di campionamento.

Database simili sono stati lanciati dal NCBIil Istituto Europeo di Bioinformaticae Istituto congiunto del genomae hanno già catalogato miliardi di forme proteiche appena scoperte. Ciò che Meta sta portando in tavola è “un nuovo approccio di ripiegamento delle proteine ​​che sfrutta modelli linguistici di grandi dimensioni per creare la prima visione completa delle strutture delle proteine ​​in un database di metagenomica su scala di centinaia di milioni di proteine”, secondo un TK liberazione dalla società. Il problema è che, mentre i progressi della genomica hanno rivelato le sequenze per le sequenze di nuove proteine, il solo sapere quali sono quelle sequenze in realtà non ci dice come si adattano insieme in una molecola funzionante e cercare di capirlo sperimentalmente richiede da pochi mesi ad alcuni anni. Per molecola. Nessuno ha tempo per quello.

“L’Atlante metagenomico ESM consentirà agli scienziati di cercare e analizzare le strutture delle proteine ​​​​metagenomiche su una scala di centinaia di milioni di proteine”, ha scritto il team di ricerca Meta. TK. “Questo può aiutare i ricercatori a identificare strutture che non sono state caratterizzate prima, cercare relazioni evolutive lontane e scoprire nuove proteine ​​che possono essere utili in medicina e altre applicazioni”.

Come le lingue, le proteine ​​sono costituite dai loro atomi costituenti (pensiero, parole) che possono essere tutti schiacciati insieme a piacimento ma che formeranno una molecola funzionale (cioè un pensiero coerente) solo se assemblati in un ordine specifico (una frase molecolare). Il sistema di Meta accelera drasticamente le nostre capacità di scoprire la sintassi e la grammatica della chimica organica, tuttavia l’analogia non è perfetta. “Una sequenza proteica descrive la struttura chimica di una molecola, che si piega in una forma tridimensionale complessa secondo le leggi della fisica”, ha spiegato il team. “Le sequenze proteiche contengono modelli statistici che trasmettono informazioni sulla struttura ripiegata della proteina”.

In particolare, l’intelligenza artificiale di modellazione su scala evolutiva di Meta tratta le sequenze geniche come un Mad Libs for O-Chem utilizzando un apprendimento auto-supervisionato chiamato modellazione del linguaggio mascherato. “Abbiamo addestrato un modello linguistico sulle sequenze di milioni di proteine ​​naturali”, ha scritto il team di ricerca. “Con questo approccio, il modello deve riempire correttamente gli spazi vuoti in un passaggio di testo, ad esempio ‘A __ o non a __, cioè il __________.’ Abbiamo addestrato un modello linguistico per riempire gli spazi vuoti in una sequenza proteica, come ‘GL_KKE_AHY_G’ attraverso milioni di diverse proteine”.

Il “modello del linguaggio proteico” risultante si chiama ESM-2 e opera su 15 miliardi di parametri, rendendolo il modello più grande del suo genere fino ad oggi. La “nuova capacità di previsione della struttura ci ha permesso di prevedere le sequenze per gli oltre 600 milioni di proteine ​​metagenomiche nell’atlante in sole due settimane su un cluster di circa 2.000 GPU”. Tanto per mesi e anni.

Tutti i prodotti consigliati da Engadget sono selezionati dalla nostra redazione, indipendente dalla nostra casa madre. Alcune delle nostre storie includono link di affiliazione. Se acquisti qualcosa tramite uno di questi link, potremmo guadagnare una commissione di affiliazione. Tutti i prezzi sono corretti al momento della pubblicazione.

Leave a Comment