Un nouveau système d'IA extrait des données numériques de textes académiques, libérant ainsi les chercheurs de tâches routinières
Le cadre Quinex structure automatiquement les données quantitatives et est conçu pour aider à gérer le flot croissant de données
Annonces
Les chiffres sont le langage de la science. Pourtant, dans les articles de recherche, ils sont souvent noyés dans le texte et difficiles à analyser. Des chercheurs de Jülich ont mis au point un système d'intelligence artificielle qui identifie automatiquement ces chiffres, les classe et les convertit en données structurées. Le cadre Quinex élimine ainsi la nécessité d'un travail manuel fastidieux.
Que ce soit dans le domaine de l'énergie, du climat ou de la recherche sur les matériaux, les articles scientifiques regorgent de chiffres ou, plus précisément, de données quantitatives : rendements, températures, coûts, émissions. Ces données sont souvent cruciales pour améliorer les modèles ou identifier les tendances. Parallèlement, le nombre de publications scientifiques augmente rapidement. Pour de nombreuses questions de recherche, il est aujourd'hui pratiquement impossible d'évaluer manuellement toutes les publications pertinentes - le temps et les ressources nécessaires seraient énormes.
Le cadre Quinex ("Quantitative Information Extraction"), développé par des chercheurs de Jülich, est basé sur des modèles de langage et automatise ce processus : L'intelligence artificielle identifie les valeurs numériques, les affecte aux unités appropriées et reconnaît ce qui a été mesuré, quand, où et comment. Ainsi, une phrase telle que "Des niveaux d'efficacité de 63 à 71 % sont supposés pour 2025" est transformée en un ensemble de données structuré contenant toutes les informations contextuelles pertinentes, depuis l'année et la méthode de mesure jusqu'à la source.
Une IA ouverte et efficace
Contrairement à de nombreuses solutions d'IA propriétaires, Quinex est entièrement basé sur des modèles de langage ouverts, relativement petits et donc efficaces. Ceux-ci ont été spécifiquement entraînés pour reconnaître et classer les informations quantitatives dans les textes scientifiques. Comparé à des systèmes similaires, Quinex fournit des résultats plus précis, capture les informations contextuelles de manière plus nuancée et prend également en compte les caractéristiques implicites.
Malgré sa taille compacte, Quinex atteint une précision de reconnaissance (F1) d'environ 98 % pour les nombres et les unités associées, et d'environ 87 et 82 % pour la classification des propriétés et entités quantifiées. Ces taux de précision élevés ont été obtenus grâce à des ensembles de données d'entraînement spécialement créés et à des améliorations méthodologiques.
"Nous voulions développer un outil puissant, mais aussi transparent et économe en ressources", explique Jann Weinand, chef du département des scénarios intégrés à Jülich System Analysis. "Quinex rend l'intelligence artificielle plus accessible pour l'analyse des données dans le domaine scientifique.
Essai pratique réussi
Pour tester l'aptitude pratique de Quinex, le système a été appliqué à des milliers de résumés scientifiques provenant de divers domaines. Il a extrait avec succès des données sur les coûts de production d'électricité pour diverses technologies énergétiques, sur l'absorption maximale d'oxygène chez l'homme, sur la magnitude et la localisation des tremblements de terre et sur les bandes interdites des matériaux photovoltaïques.
Les valeurs dérivées automatiquement correspondent étroitement aux données de référence respectives. Cela démontre que Quinex est bien adapté à l'analyse de grands volumes de littérature académique dans un large éventail de domaines de recherche et qu'il permet d'en déduire des tendances fiables.
De nouvelles perspectives pour la recherche
"Les modèles linguistiques ouvrent de nouvelles perspectives pour la science et aident à maintenir une vue d'ensemble de domaines de recherche entiers", explique l'auteur principal Jan Göpfert. "Ils permettent des recherches bibliographiques automatisées, la création de bases de données de recherche uniformément structurées et des analyses de tendances qui révèlent les développements scientifiques et technologiques à un stade précoce.
"Notre objectif est de soulager les chercheurs du travail de routine", déclare le Dr Patrick Kuckertz, chef du groupe de gestion des données de recherche. "Quinex est conçu pour les aider à parvenir plus rapidement à des conclusions et à gérer le flot croissant de données dans le domaine de la science.
Limites et améliorations futures
Quinex n'est pas totalement exempt d'erreurs, mais la transparence fait partie de sa conception. "Le système reconnaît les nombres et les unités de manière très fiable", explique Jan Göpfert. Comme ils sont tirés directement du texte, ils ne peuvent pas être "hallucinés". Cependant, des erreurs d'interprétation se produisent parfois, par exemple lorsque des références importantes sont disséminées dans le texte".
Quinex reste donc un outil qui soutient les personnes mais ne les remplace pas. "Nous recommandons d'utiliser Quinex lorsqu'il informe et soulage les chercheurs, mais la responsabilité de l'interprétation des résultats leur incombe toujours", précise M. Göpfert. Chaque numéro reconnu peut être retracé jusqu'à sa source et, dans la mesure du possible, est mis en évidence dans le texte original.
L'équipe travaille à la poursuite du développement de Quinex avec d'autres ensembles de données et modèles spécifiques à un domaine, afin de le rendre encore plus efficace et suffisamment flexible pour s'adapter aux diverses exigences de la recherche.
Bienvenue à la collaboration ouverte
Le Forschungszentrum Jülich met Quinex à disposition en tant que projet open-source.
L'objectif est de donner aux chercheurs du monde entier la possibilité de tester, d'étendre et d'adapter le système à leurs propres domaines - de la recherche énergétique à la chimie et à la biomédecine.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.