Intelligenza artificiale – Grazie a un algoritmo di intelligenza artificiale è stato possibile ricreare nel dettaglio l’architettura di tutte le 20mila diverse proteine umane codificate. Lo studio su Nature
Siamo fatti (anche) di proteine. Oggi arriva una mappa completa e con un livello di dettaglio finora mai raggiunto di tutte le proteine di cui è composto il nostro organismo e che formano il cosiddetto proteoma umano. Quest’ampia mappa, ottenuta mediante l’algoritmo di intelligenza artificiale AlphaFold, sarà resa disponibile e accessibile a tutta la comunità scientifica. Il lavoro è frutto di una collaborazione fra l’European molecular biology laboratory (Embl) e l’azienda Deepmind di Google, che ha sviluppato l’algoritmo di machine learning. Gli scienziati hanno determinato con un’accuratezza senza precedenti l’architettura di tutte le 20mila diverse proteine umane codificate – ovvero prodotte – da altrettanti geni. Lo studio e il software sono pubblicati su Nature e il vasto database è condiviso pubblicamente in modo che anche gli altri scienziati possano utilizzare questo strumento. Con tante potenziali future applicazioni in ambito biotech e non solo.
Cambiare punto di vista sulle proteine
Le proteine sono un po’ come mattoncini che costituiscono gli organismi viventi e sono alla base di numerose funzioni vitali. A loro volta queste sono formate da 20 amminoacidi (elementi ancora più piccoli, le loro unità costitutive) che possono disporsi in numerosissimi modi, creando sequenze e forme tridimensionali ben precise. Finora gli scienziati studiavano la struttura delle proteine con tecniche sperimentali, con vari ostacoli pratici. Predire la struttura di queste proteine in modo accurato inoltre era finora
impossibile. Si potevano soltanto analizzare, con gli strumenti bioinformatici a disposizione, singoli domìni, ovvero parti limitate dell’architettura. Con gli esperimenti in laboratorio, dunque, e dopo decenni di studi erano stati in grado di scandagliare soltanto (non che sia poco) il 17% degli amminoacidi che compongono tutte le proteine del proteoma umano.
Con l’algoritmo AlphaFold la novità sta nel fatto che i ricercatori sono riusciti a riprodurre la struttura delle proteine dall’inizio alla fine della matassa, senza saltare nemmeno un amminoacido, includendo tutti i punti dell’articolata catena che si dispone in 3D. “Se prima avevamo una conoscenza dettagliata di qualche decina di migliaia di proteine – spiega a Wired Marco Marcia, biologo strutturale e Group Leader all’Embl di Grenoble -, adesso potremo mettere a fuoco i dettagli di tutte le proteine esistenti. È come aver completato la mappatura di tutte le città del mondo e potersi orientare con precisione in ogni singolo quartiere, dal primo amminoacido all’ultimo”.
Un grande balzo in avanti
Oggi lo stacco dai risultati precedenti è netto. Dal 17% arriviamo infatti a una conoscenza approfondita della struttura e della disposizione ben del 58% degli amminoacidi che compongono tutte le proteine. Le predizioni dell’algoritmo sono state poi confrontate e confermate con le prove e gli studi di laboratorio sulle proteine già studiate. Di questi amminoacidi ora sappiamo la posizione precisa all’interno della proteina e conosciamo le interazioni con gli altri amminoacidi, come se avessimo un’immagine 3D dettagliata. La percentuale sale al 98,5% del proteoma umano se consideriamo la predizione completa realizzata con l’algoritmo di AlphaFold, di tutte le strutture, anche quelle ottenute con un livello di dettaglio leggermente minore. “Restano dei limiti – aggiunge Marcia – perché una parte rilevante della proteina non ha una struttura e una disposizione fissa, ma è maggiormente flessibile, e anche per questo non si determina con precisione la loro posizione. In futuro sarà importante caratterizzare ancora meglio queste regioni della proteina”.
Verso il futuro
Attualmente il database di AlphaFold contiene informazioni sulla struttura di 380mila proteine, incluse le 20mila che
compongono il proteoma umano. Ma si arriverà presto a conoscerne milioni, anche di altri organismi e anche di origine sintetica. “Questa mappa completa, resa accessibile a tutti – rimarca il biologo – potrà servire per numerose applicazioni tecnologiche, in vari settori, dalla medicina all’ambiente, dall’ingegneria alle scienza dei materiali”. Si potranno cercare nuovi farmaci e nuovi materiali e metodi per ridurre l’inquinamento. “Pensiamo agli studi su nuove proteine sintetiche per trattare e degradare la plastica – racconta Marcia – oppure ad analisi della struttura di proteine di nuovi patogeni, come il coronavirus, che serviranno per individuare nuovi bersagli terapeutici”.