Le proteine sono le molecole fondamentali della vita, coinvolte in numerose funzioni biologiche. Le interazioni tra le proteine influenzano processi come la segnalazione cellulare, la crescita, la difesa immunitaria e la malattia. Controllare le interazioni proteina-proteina è quindi di grande interesse per la biologia e la biotecnologia, con applicazioni potenziali nella diagnosi e nella terapia di diverse patologie. Tuttavia, progettare nuovi leganti proteici, cioè molecole in grado di riconoscere e legarsi a specifiche proteine bersaglio, è una sfida complessa e costosa, che richiede tempo e risorse. Gli scienziati hanno pensato di usare l’AI per risolvere il problema: il nuovo approccio è stato sviluppato da un gruppo di ricercatori dell’EPFL (Ecole Polytechnique Fédérale de Lausanne) e ha dimostrato di essere efficace nel progettare nuovi leganti proteici per tre importanti obiettivi di immunoterapia del cancro e per la proteina spike della SARS-CoV-2, il virus responsabile della pandemia COVID-19.

La progettazione delle proteine con l’AI

L’apprendimento automatico si basa su algoritmi matematici che possono riconoscere schemi o relazioni nei dati e adattarsi alle nuove informazioni. Può essere usato per risolvere problemi complessi in diversi ambiti, tra cui la medicina, la biologia, l’ingegneria, la finanza e l’arte. Uno dei problemi complessi che l’apprendimento automatico può aiutare a risolvere è la progettazione delle proteine consiste nel creare nuove molecole proteiche con una struttura e una funzione desiderate. Questo processo può essere utile per scopi biomedici, come la creazione di farmaci, vaccini, sensori o materiali biocompatibili. Tuttavia, la progettazione delle proteine è difficile perché sono molecole complesse e dinamiche, che possono assumere diverse forme e interagire con altre molecole in modi diversi. Per progettare una proteina che si leghi ad un’altra specifica, è necessario conoscere la struttura tridimensionale della proteina bersaglio e delle possibili molecole leganti, e prevedere come queste si adatteranno tra loro. Questo richiede una grande quantità di dati e di calcoli. L’apprendimento automatico può facilitare la progettazione delle proteine perché può analizzare i dati disponibili sulle strutture e le interazioni delle proteine e generare modelli predittivi che possono suggerire nuove molecole leganti. Inoltre, l’apprendimento automatico può apprendere dai risultati sperimentali e migliorare i modelli in base al feedback.

Come i ricercatori dell’EPFL hanno usato l’apprendimento automatico per progettare nuovi leganti proteici

I ricercatori dell’EPFL hanno sviluppato un approccio che è riuscito a realizzare nuovi leganti proteici che si attaccano perfettamente a bersagli chiave, tra cui la proteina spike della SARS-CoV-2. L’approccio si chiama MaSIF (Molecular Surface Interaction Fingerprinting) ed è basato su due passaggi principali:

  • Il primo passo è generare le “impronte digitali” della superficie delle proteine, cioè dei vettori numerici che descrivono le caratteristiche chimiche e geometriche delle regioni di legame delle proteine. Queste impronte digitali sono generate da una rete neurale profonda, un tipo di algoritmo di apprendimento automatico che può apprendere dai dati complessi e astratti. La rete neurale profonda è stata allenata con milioni di dati sulle strutture e le interazioni delle proteine disponibili nelle banche dati pubbliche.
  • Il secondo passo è stato identificare le superfici complementari per i siti target delle proteine chiave provenienti da un database di frammenti proteici. Questi frammenti sono piccole porzioni di proteine che possono essere usate come mattoncini per costruire nuove molecole leganti. Per identificare i frammenti più adatti, i ricercatori hanno usato un algoritmo di apprendimento automatico che confronta le impronte digitali dei frammenti con quelle dei siti target e seleziona quelli che hanno la maggiore affinità.

I ricercatori hanno poi innestato digitalmente i frammenti selezionati su impalcature proteiche più grandi e hanno scelto i leganti risultanti che si prevedeva interagissero meglio con i loro bersagli. Infine, hanno sintetizzato e testato in laboratorio i leganti selezionati, confermando le previsioni del calcolo.

Quali sono i risultati e le implicazioni del lavoro dei ricercatori dell’EPFL?

Ricercatori dell’EPFL hanno dimostrato che il loro approccio basato sull’apprendimento automatico è in grado di progettare nuovi leganti proteici per tre importanti obiettivi di immunoterapia del cancro: il recettore del fattore di crescita epidermico (EGFR), il recettore del fattore di crescita endoteliale vascolare (VEGFR) e il recettore del fattore di necrosi tumorale (TNFR). Questi recettori sono coinvolti nella crescita e nella sopravvivenza delle cellule tumorali e sono quindi dei potenziali bersagli per la terapia. Inoltre, i leganti progettati hanno mostrato un’eccellente affinità per i loro bersagli e una bassa cross-reattività con altre proteine, il che significa che sono specifici e selettivi. Visto che hanno applicato il loro approccio anche per creare quattro leganti per la proteina spike si potrebbe pensare allo sviluppo di nuovi farmaci o vaccini contro il COVID-19. Il lavoro dell’EPFL ha sviluppato un approccio rapido, efficiente e versatile che può essere applicato a diversi obiettivi proteici di interesse biomedico. Il metodo è anche accessibile perché si basa su dati pubblici e su algoritmi di apprendimento automatico disponibili online. Questo significa che altri ricercatori possono usare e migliorare il loro metodo, contribuendo al progresso della scienza e della società.