L'IA reconstruit des molécules à partir de fragments qui ont explosé
Les chercheurs ont formé un réseau neuronal capable d'utiliser la quantité de mouvement des ions pour travailler à rebours et prédire la géométrie d'une molécule avant l'explosion
Annonces
Des chercheurs du SLAC National Accelerator Laboratory aux États-Unis, de l'European XFEL et d'institutions collaboratrices ont récemment mis au point un modèle génératif d'IA capable de recréer des structures moléculaires à partir du mouvement des ions de la molécule après qu'ils ont été détruits par des rayons X, une technique appelée imagerie de l'explosion de Coulomb. Les données de l'instrument Small Quantum Systems (SQS) de l'European XFEL ont été cruciales pour démontrer l'applicabilité de cette nouvelle méthode.
La recherche, publiée dans Nature Communications, constitue une étape importante vers la prise d'instantanés de molécules au cours de réactions chimiques, une avancée qui pourrait avoir des répercussions importantes en médecine et dans l'industrie. Le modèle d'apprentissage automatique a prédit avec précision les géométries d'une série de molécules différentes composées de moins de dix atomes, ouvrant ainsi la voie à l'application de la technique à des molécules plus grosses. "Nous étions très enthousiastes", a déclaré Xiang Li, scientifique associé à la Linac Coherent Light Source (LCLS) du SLAC et auteur principal de l'étude. "Il s'agit du premier modèle d'IA construit pour la reconstruction de la structure moléculaire à partir de l'imagerie des explosions de Coulomb. Rebecca Boll, scientifique à l'instrument SQS et co-auteur de l'article, a ajouté : "Reconstituer une molécule explosée dans l'espace réel à partir des moments enregistrés est très difficile. L'intelligence artificielle peut nous aider à y parvenir."
Une nouvelle façon de voir les molécules
À l'heure actuelle, les possibilités d'imagerie des molécules isolées en phase gazeuse sont limitées. En microscopie électronique, par exemple, les sujets doivent être fixés en place, ce qui rend impossible l'imagerie des molécules flottantes. Et pour que les techniques basées sur la diffraction fonctionnent, l'échantillon de molécules doit être suffisamment dense pour générer un signal fort dans le détecteur. L'image obtenue est techniquement une moyenne de nombreuses molécules, ce qui empêche les chercheurs d'étudier des détails visibles uniquement lors de l'imagerie de molécules isolées.
Dans l'article, les chercheurs se sont plutôt concentrés sur l'imagerie par explosion de Coulomb. Dans cette technique, une impulsion de rayons X frappe une molécule unique dans une chambre à vide, arrachant les électrons de la molécule. Il en résulte des ions positifs qui se repoussent les uns les autres de manière explosive et se heurtent à un détecteur. Le détecteur capte leur élan, qui peut être utilisé pour reconstruire la structure de la molécule. "Cette technique permet d'isoler des détails mineurs qui sont importants d'un point de vue chimique", a déclaré James Cryan, directeur adjoint intérimaire du LCLS pour la science, la recherche et le développement, et coauteur de l'article.
"Nous avons déjà utilisé avec succès l'imagerie des explosions de Coulomb au SQS", a déclaré Michael Meyer, coauteur de l'article et scientifique principal de l'instrument européen XFEL. "Mais souvent, il n'a pas été possible jusqu'à présent de reconstruire la géométrie moléculaire en raison de contraintes informatiques. Alors que l'impulsion de rayons X élimine rapidement les électrons, les ions restants n'explosent pas instantanément. Pendant ce bref délai, les atomes peuvent se déplacer légèrement, ce qui rend difficile la reconstruction de la structure originale en utilisant la loi de Coulomb pour les forces électrostatiques. "Ce ne sera pas exact, car l'utilisation simple de cette loi ne fonctionne que si le processus de charge est instantané", explique Li.
Pour compliquer encore les choses, chaque atome supplémentaire dans la molécule ajoute un niveau de complexité exponentiel. "Il est très difficile de travailler à rebours pour retrouver la structure d'origine", a déclaré Phay Ho, physicien au laboratoire national d'Argonne (États-Unis) et coauteur de l'étude. "C'est un peu comme si l'on cassait un verre et que l'on essayait de le reconstituer à partir de la façon dont les morceaux se sont envolés. De nombreux problèmes de physique et de chimie modernes impliquent la reconstruction de structures cachées à partir de mesures indirectes. Ce travail démontre comment l'IA peut aider à résoudre de tels problèmes inverses".
L'apprentissage automatique pour les structures moléculaires
L'équipe de recherche a entrepris de construire un modèle d'apprentissage automatique capable de surmonter cette contrainte informatique. Elle a développé et entraîné le modèle à l'installation de données scientifiques partagées (Shared Science Data Facility, S3DF) du SLAC. Les modèles d'IA générative sont bien adaptés à cette tâche parce qu'ils "pensent" différemment d'une simulation informatique standard. Au lieu de travailler à partir d'une série d'équations, ils apprennent en trouvant des modèles dans les données d'entraînement. Ils utilisent ensuite ces modèles pour faire des prédictions statistiques.
Pour recueillir des données d'entraînement, l'équipe s'est tournée vers une simulation construite par Ho. Cette simulation analyse les structures moléculaires et calcule l'élan de leurs ions à la suite d'une explosion de Coulomb. Après avoir fonctionné pendant plus d'un mois, la simulation à forte intensité de calcul, qui utilise à la fois des équations de mécanique quantique et de physique classique, a produit un ensemble de données de 76 000 échantillons moléculaires.
Dans un premier temps, les chercheurs ont entraîné l'IA sur ce seul ensemble de données, qui est petit par rapport aux normes d'entraînement de l'IA, et ils ont constaté que le modèle prédisait des structures inexactes à partir des données de l'explosion. Ils ont donc refait l'entraînement en ajoutant un autre ensemble de données dérivé uniquement de la physique classique. Le deuxième ensemble était moins précis, mais environ 100 fois plus grand que le premier.
Cette formation en deux étapes a permis de prédire des structures précises.
Les chercheurs ont testé le modèle d'IA en lui demandant de prédire des structures moléculaires dans une partie des données de simulation qu'il n'avait pas vues lors de la formation. Le modèle, que l'équipe a baptisé MOLEXA (abréviation de "molecular structure reconstruction from Coulomb explosion imaging"), a pris les moments des ions et a calculé les structures les plus probables. "Nous avons constaté que ce processus d'entraînement en deux étapes supprimait l'erreur de prédiction par un facteur de deux", a déclaré Li.
L'équipe a ensuite testé MOLEXA avec des ensembles de données expérimentales enregistrées au SQS. Les molécules testées comprenaient l'eau, le tétrafluorométhane et l'éthanol. Ils ont introduit les moments ioniques expérimentaux dans le modèle, reconstruit les structures moléculaires, puis comparé les reconstructions aux structures connues répertoriées par le National Institute of Standards and Technology.
Ils ont constaté que les prédictions correspondaient largement aux structures établies. Dans l'ensemble, les liaisons se trouvaient au bon endroit, avec seulement de légères variations dans leurs angles. Les erreurs de position étaient généralement inférieures à la moitié de la longueur d'une liaison chimique typique. "La plupart du temps, le modèle fait mieux que cela", a ajouté M. Li. "Ce n'est qu'un point de départ pour de futures recherches, qui permettront non seulement d'améliorer la précision du modèle, mais aussi d'étendre son applicabilité à des systèmes moléculaires plus importants."
Extension à des molécules et à des réactions chimiques plus importantes
"Les expériences telles que l'imagerie des explosions de Coulomb génèrent souvent une quantité écrasante de données difficiles à interpréter", explique Serguei Molodtsov, directeur scientifique à European XFEL. "En utilisant l'intelligence artificielle pour analyser ces données, nous pouvons élargir le champ des expériences réalisables dans notre installation, ce qui permet à nos utilisateurs d'explorer des études auparavant jugées trop complexes." Dans leurs travaux futurs, les chercheurs prévoient d'augmenter le nombre d'atomes que le modèle d'apprentissage automatique peut reconstituer et d'appliquer le modèle à des expériences résolues dans le temps au LCLS et au XFEL européen. Cela aidera les chercheurs à reconstruire des instantanés de molécules en mouvement, créant ainsi des films moléculaires semblables à des folioscopes et permettant de comprendre comment se déroulent les réactions chimiques.
L'équipe teste également la capacité du modèle à reconstruire les molécules à partir de données incomplètes. La plupart du temps, le détecteur manque un ion produit lors de l'explosion de Coulomb. Li veut savoir, par exemple, si l'IA peut encore reconstituer une molécule d'éthanol à partir de données incomplètes : L'IA peut-elle encore reconstruire une molécule d'éthanol si un ou plusieurs de ses ions hydrogène ne sont pas enregistrés dans le détecteur ?
Si ces problèmes sont résolus, la technique pourrait être davantage appliquée à la recherche en biologie et en chimie. Les protéines, par exemple, peuvent être constituées de milliers d'atomes. "C'est vraiment l'objectif", a déclaré M. Li. "Nous serons en mesure d'étudier des systèmes plus pertinents sur le plan biologique ou industriel.
L'équipe comprenait également des chercheurs de l'Institut PULSE de Stanford, de l'Université de Stanford, de l'Université d'État du Kansas, de l'Institut Max Planck de physique nucléaire (Allemagne), de l'Institut Fritz Haber (Allemagne) et de l'Université de la Sorbonne (France).
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.
Publication originale
Xiang Li, Till Jahnke, Rebecca Boll, Jiaqi Han, Minkai Xu, Michael Meyer, Maria Novella Piancastelli, Daniel Rolles, Artem Rudenko, Florian Trinter, Thomas J. A. Wolf, Jana B. Thayer, James P. Cryan, Stefano Ermon, Phay J. Ho; "Generative modeling enables molecular structure retrieval from Coulomb explosion imaging"; Nature Communications, 2026-3-3