I modelli di linguaggio chimico non hanno bisogno di capire la chimica
Uno studio dimostra che i modelli di trasformatori utilizzati in chimica apprendono solo correlazioni statistiche
Annunci
I modelli linguistici vengono ora utilizzati anche nelle scienze naturali. In chimica sono impiegati, ad esempio, per prevedere nuovi composti biologicamente attivi. I modelli linguistici chimici (CLM) devono essere ampiamente addestrati. Tuttavia, durante l'addestramento non acquisiscono necessariamente la conoscenza delle relazioni biochimiche. Piuttosto, traggono conclusioni basate su somiglianze e correlazioni statistiche, come dimostra un recente studio dell'Università di Bonn. I risultati sono stati pubblicati sulla rivista Patterns.

Rappresentazione schematica di un modello di trasformazione per la previsione di nuovi composti a partire dai dati di sequenza delle proteine.
J. P. Roth und J. Bajorath
I grandi modelli linguistici sono spesso sorprendentemente bravi in ciò che fanno, che si tratti di dimostrare teoremi matematici, comporre musica o redigere slogan pubblicitari. Ma come arrivano ai loro risultati? Capiscono davvero cosa costituisce una sinfonia o una buona battuta? Non è così facile rispondere a questa domanda. "Tutti i modelli linguistici sono una scatola nera", sottolinea il Prof. Dr. Jürgen Bajorath. "È difficile guardare dentro la loro testa, metaforicamente parlando".
Tuttavia, Jürgen Bajorath, scienziato cheminformatico presso l'Istituto Lamarr per l'apprendimento automatico e l'intelligenza artificiale dell'Università di Bonn, ha cercato di fare proprio questo. In particolare, lui e il suo team si sono concentrati su una forma speciale di algoritmo di IA: il trasformatore CLM. Questo modello funziona in modo simile a ChatGPT, Google Gemini e Grok di Elon Musk, che vengono addestrati utilizzando grandi quantità di testo, consentendo loro di generare frasi in modo indipendente. I CLM, invece, si basano di solito su una quantità di dati nettamente inferiore. Acquisiscono la loro conoscenza da rappresentazioni e relazioni molecolari, ad esempio le cosiddette stringhe SMILES. Si tratta di stringhe di caratteri che rappresentano le molecole e la loro struttura come una sequenza di lettere e simboli.
Manipolazione sistematica dei dati di addestramento
Nella ricerca farmaceutica, gli scienziati cercano spesso di identificare sostanze in grado di inibire determinati enzimi o di bloccare i recettori. I CLM possono essere utilizzati per prevedere molecole attive sulla base delle sequenze di aminoacidi delle proteine bersaglio. "Abbiamo usato la progettazione molecolare basata sulla sequenza come sistema di prova per capire meglio come i trasformatori arrivano alle loro previsioni", spiega Jannik Roth, dottorando che lavora con Bajorath. "Dopo la fase di addestramento, se si introduce un nuovo enzima in un modello del genere, questo può produrre un composto in grado di inibirlo. Ma questo significa che l'intelligenza artificiale ha appreso i principi biochimici alla base di tale inibizione?".
I CLM vengono addestrati utilizzando coppie di sequenze aminoacidiche di proteine target e i rispettivi composti attivi noti. Per rispondere alla loro domanda di ricerca, gli scienziati hanno manipolato sistematicamente i dati di addestramento. "Ad esempio, inizialmente abbiamo alimentato il modello solo con specifiche famiglie di enzimi e relativi inibitori", spiega Bajorath. "Quando poi abbiamo utilizzato un nuovo enzima della stessa famiglia a scopo di test, l'algoritmo ha effettivamente suggerito un inibitore plausibile". Tuttavia, la situazione era diversa quando i ricercatori hanno utilizzato nel test un enzima di un'altra famiglia, cioè uno che svolge una funzione diversa nell'organismo. In questo caso, il CLM non è riuscito a prevedere correttamente i composti attivi.
Regola statistica
"Questo suggerisce che il modello non ha appreso i principi chimici generalmente applicabili, cioè come funziona chimicamente l'inibizione degli enzimi", spiega lo scienziato. I suggerimenti si basano invece esclusivamente su correlazioni statistiche, cioè su schemi presenti nei dati. Ad esempio, se il nuovo enzima assomiglia a una sequenza di allenamento, probabilmente sarà attivo un inibitore simile. In altre parole, enzimi simili tendono a interagire con composti simili. Questa regola empirica basata sulla somiglianza statisticamente rilevabile non è necessariamente una cosa negativa", sottolinea Bajorath, che dirige l'area "AI in Life Sciences and Health" presso il Lamarr Institute. "Dopo tutto, può anche aiutare a identificare nuove applicazioni per sostanze attive esistenti".
Tuttavia, i modelli utilizzati nello studio mancavano di conoscenze biochimiche nella stima delle somiglianze. Essi consideravano gli enzimi (o i recettori e altre proteine) simili se corrispondevano al 50-60% della loro sequenza aminoacidica, e di conseguenza suggerivano inibitori simili. I ricercatori potevano randomizzare e rimescolare le sequenze a piacimento, purché venisse mantenuto un numero sufficiente di amminoacidi originali. Tuttavia, spesso solo parti molto specifiche di un enzima sono necessarie per svolgere il proprio compito. Una singola modifica di un amminoacido in una regione di questo tipo può rendere l'enzima disfunzionale. Altre aree sono più importanti per l'integrità strutturale e meno rilevanti per funzioni specifiche. "Durante l'addestramento, i modelli non hanno imparato a distinguere tra parti di sequenza importanti e non importanti dal punto di vista funzionale", sottolinea Bajorath.
I modelli ripetono semplicemente ciò che hanno letto in precedenza
I risultati dello studio dimostrano quindi che i CLM trasformatori addestrati per la progettazione di composti basati sulla sequenza non hanno una comprensione chimica più profonda, almeno per questo sistema di prova. In altre parole, si limitano a ricapitolare, con piccole variazioni, ciò che hanno già letto in un contesto simile. "Questo non significa che non siano adatti alla ricerca sui farmaci", sottolinea Bajorath, che è anche membro dell'Area di Ricerca Transdisciplinare (TRA) "Modellazione" dell'Università di Bonn. "È possibile che suggeriscano farmaci che bloccano effettivamente alcuni recettori o inibiscono enzimi". Tuttavia, non è certo perché capiscano così bene la chimica, ma perché riconoscono le somiglianze nelle rappresentazioni molecolari basate sul testo e le correlazioni statistiche che ci rimangono nascoste. Questo non scredita i loro risultati. Tuttavia, non dovrebbero nemmeno essere interpretati in modo eccessivo".
Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Inglese può essere trovato qui.