GPT-3 pour la recherche chimique

Des chercheurs développent un modèle linguistique rapide et convivial pour les tâches chimiques

08.02.2024

GPT-3, le modèle de langage à la base du célèbre système d'IA ChatGPT, peut également être utilisé en chimie pour résoudre diverses tâches scientifiques. C'est ce qu'a démontré une équipe de chercheurs de l'École polytechnique fédérale de Lausanne (EPFL), de l'université Friedrich Schiller d'Iéna et de l'Institut Helmholtz pour les polymères dans les applications énergétiques (HIPOLE) d'Iéna. Comme l'indique la revue "Nature Machine Intelligence", ils ont contourné le problème posé par le fait que la chimie ne dispose souvent pas des grands ensembles de données nécessaires à l'entraînement d'une IA.

Des questions et des réponses sélectionnées au lieu de grands ensembles de données

"L'un des exemples que nous avons utilisés est celui des interrupteurs photosensibles", explique Kevin Jablonka, auteur principal de l'étude. "Il s'agit de molécules qui changent de structure lorsqu'elles sont exposées à une lumière d'une certaine longueur d'onde. Ce type de molécule existe également dans le corps humain : Dans nos cellules rétiniennes se trouve la rhodopsine, une molécule qui réagit à la lumière et agit donc comme un interrupteur chimique convertissant les signaux optiques en impulsions nerveuses", ajoute-t-il. "Par conséquent, la question de savoir si et comment une molécule encore inconnue peut être commutée par la lumière est tout à fait pertinente, par exemple lorsqu'il s'agit de développer des capteurs", résume-t-il. "Nous nous sommes également demandé si une molécule pouvait être dissoute dans l'eau", ajoute M. Jablonka, "car la solubilité dans l'eau est un facteur important pour que les agents pharmaceutiques puissent exercer l'effet désiré dans l'organisme".

Pour entraîner son modèle GPT à répondre à ces questions et à d'autres, le groupe a dû résoudre un problème fondamental : "GPT-3 ne connaît pas la majeure partie de la littérature chimique", explique Jablonka. "Par conséquent, les réponses que nous obtenons de ce modèle se limitent généralement à ce que l'on peut trouver dans Wikipédia.

Au lieu de cela, poursuit M. Jablonka, le groupe a spécifiquement amélioré GPT-3 avec un ensemble de données comportant relativement peu de questions et de réponses. Nous avons donc alimenté le modèle avec des questions - par exemple, sur les molécules photosensibles commutables, mais aussi sur la solubilité de certaines molécules dans l'eau et d'autres aspects chimiques - pour lesquelles nous avons également fourni la réponse connue correspondante pour nos "exemples d'enseignement"", explique-t-il. De cette manière, lui et son équipe ont créé un modèle de langage capable de fournir des informations correctes sur diverses questions chimiques.

Rapide, précis et facile à utiliser

Le modèle a ensuite été testé. "La question scientifique concernant une molécule pouvant être commutée par la lumière pourrait ressembler à ceci", explique M. Jablonka : "Quelle est la longueur d'onde de transition pi-pi* de CN1C(/N=N/ C2=CC=CC=C2)=C(C)C=C1C ?" Comme le modèle est basé sur du texte, les formules structurelles ne peuvent pas être spécifiées, explique-t-il. "Mais notre GPT fonctionne bien avec les codes SMILES pour les molécules, comme dans l'exemple ci-dessus. "Il reconnaît également d'autres notations, y compris les noms chimiques qui suivent la nomenclature IUPAC, comme on peut s'en souvenir en cours de chimie", poursuit M. Jablonka.

Lors des tests, le modèle a résolu divers problèmes chimiques, surpassant souvent des modèles similaires développés par la communauté scientifique et entraînés à l'aide de vastes ensembles de données. "Cependant, le point crucial est que notre GPT est aussi facile à utiliser qu'une recherche documentaire, ce qui fonctionne pour de nombreuses questions chimiques - telles que les propriétés comme la solubilité, mais aussi les propriétés thermodynamiques et photochimiques comme l'enthalpie de la solution ou l'interaction avec la lumière - et, bien sûr, la réactivité chimique", ajoute le professeur Berend Smit de l'EPFL à Lausanne.

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails

Découvrez les derniers développements de la technologie des batteries !