Dopo il successo ottenuto da DeepMInd, azienda britannica appartenente a Google, nella previsione della struttura 3D di oltre 200 milioni di proteine grazie all’algoritmo AlphaFold, ora tocca a Meta. L’azienda ha annunciato di aver previsto la struttura di oltre 600 milioni di proteine di origine microbica che non sono ancora state caratterizzate. Questo è stato possibile grazie all’algoritmo ESMfold, 60 volte più veloce seppur meno preciso di AlphaFold.
Il risultato può essere ritrovato sul sito bioRxiv, un sito in cui sono raccolti tutti gli articoli scientifici non ancora passati al vaglio della comunità scientifica. I ricercatori hanno usato un modello di intelligenza artificiale già applicato in varie attività linguistiche, essendo questo in grado di prevedere un testo a partire da poche parole. Questo algoritmo è stato addestrato usando sequenze di proteine già note e formate dalla combinazione di 20 amminoacidi, ognuno dei quali è rappresentato da una lettera.
Il sistema ha, così, imparato a completare in modo automatico la sequenza delle proteine come fosse un testo e determinare la struttura 3D della proteina. Nel test sono state usate delle sequenze di DNA recuperate da fonti come suolo, acqua di mare, intestino umano e altri habitat di microrganismi. La maggior parte di queste sequenze proveniva da organismi che non erano stati cresciuti in laboratorio e quindi sostanzialmente sconosciuti agli scienziati.
In appena due settimane sono state previste oltre 617 milioni di strutture proteiche, e oltre un terzo di queste previsioni dovrebbe essere di alta qualità e, quindi, molto affidabile. I risultati e il codice alla base di questo modello di intelligenza artificiale sono accessibili liberamente.