Gli scienziati hanno creato un sistema di intelligenza artificiale in grado di generare enzimi artificiali da zero. Nei test di laboratorio, alcuni di questi enzimi hanno funzionato bene come quelli presenti in natura, anche quando le loro sequenze di aminoacidi divergevano significativamente da qualsiasi proteina naturale conosciuta. L’esperimento dimostra che l’elaborazione del linguaggio, sebbene sia stata sviluppata per leggere e scrivere testi linguistici, può apprendere almeno alcuni dei principi fondamentali della biologia. In particolare, è il laboratorio Salesforce Research che ha sviluppato il programma di intelligenza artificiale, chiamato ProGen, che utilizza la predizione “next-token” per assemblare le sequenze di aminoacidi in proteine artificiali. Gli scienziati hanno dichiarato che la nuova tecnologia potrebbe diventare più potente della tecnologia di progettazione delle proteine premiata con il Nobel, e darà un enorme contributo al campo dell’ingegneria proteica, accelerando lo sviluppo di nuove proteine che possono essere utilizzate per quasi tutto, dai farmaci alla degradazione della plastica.

“I progetti artificiali funzionano molto meglio di quelli ispirati dal processo evolutivo”, ha dichiarato James Fraser, professore di bioingegneria e scienze terapeutiche presso la UCSF School of Pharmacy e autore del lavoro, pubblicato su Nature Biotechnology. “Ora abbiamo la possibilità di indirizzare la generazione di queste proprietà per ottenere effetti specifici. Per esempio, un enzima incredibilmente termostabile o che ama gli ambienti acidi o che non interagisce con altre proteine”.

 

La”ricetta” per creare ProGen

Per creare il modello, gli scienziati hanno “semplicemente” inserito le sequenze di aminoacidi di 280 milioni di proteine diverse, di ogni tipo, nel modello di apprendimento automatico e hanno lasciato che digerisse le informazioni per un paio di settimane. Poi hanno messo a punto il modello inserendo 56.000 sequenze di cinque famiglie di lisozimi (enzimi) e alcune informazioni contestuali sulle proteine. Il modello ha generato rapidamente un milione di sequenze e il team di ricerca ne ha selezionate 100 da testare, in base alla loro somiglianza con le sequenze delle proteine naturali e al grado di parallelismo della “grammatica” e della “semantica” degli amminoacidi delle proteine dell’intelligenza artificiale. Da questo primo lotto di 100 proteine, che sono state esaminate in vitro da Tierra Biosciences, il team ha creato cinque proteine artificiali da testare nelle cellule e ha confrontato la loro attività con quella di un enzima presente nell’albume delle uova di gallina, noto come lisozima dell’albume (HEWL). Lisozimi simili si trovano nelle lacrime, nella saliva e nel latte umano, nel quale fungono da protezione da batteri e funghi.

Risultati

Due degli enzimi artificiali sono stati in grado di demolire le pareti cellulari dei batteri con un’attività paragonabile a quella dell’HEWL, ma le loro sequenze erano identiche tra loro solo per il 18% circa.
Il team ha scoperto che gli enzimi generati dall’IA mostravano attività anche quando solo il 31,4% della loro sequenza assomigliava a qualsiasi proteina naturale conosciuta. L’intelligenza artificiale è stata persino in grado di imparare la forma degli enzimi, semplicemente studiando i dati di sequenza. Misurate con la cristallografia a raggi X, le strutture atomiche delle proteine artificiali apparivano proprio come si era ipotizzato, sebbene le sequenze non fossero mai state viste prima dall’AI. Salesforce Research ha sviluppato ProGen nel 2020, basandosi su un tipo di programmazione in linguaggio naturale che i suoi ricercatori avevano originariamente sviluppato per generare testi in lingua inglese. Dal loro lavoro precedente sapevano che il sistema di intelligenza artificiale era in grado di apprendere da solo la grammatica e il significato delle parole, oltre ad altre regole di base che rendono la scrittura ben composta.

“Quando si addestrano modelli basati su sequenze con molti dati, sono davvero potenti nell’apprendere la struttura e le regole”, ha dichiarato Nikhil Naik, direttore della ricerca sull’IA presso Salesforce Research e autore senior dell’articolo.  Con le proteine, le scelte di progettazione erano quasi illimitate. I lisozimi sono piccoli come proteine, con un massimo di circa 300 aminoacidi. Ma con 20 amminoacidi possibili, c’è un numero enorme (20300) di combinazioni possibili. È un numero superiore a quello di tutti gli esseri umani vissuti nel corso del tempo, moltiplicato per il numero di granelli di sabbia sulla Terra, moltiplicato per il numero di atomi nell’universo.

Date le possibilità illimitate, è notevole che il modello possa generare così facilmente enzimi funzionanti.