Novo sistema de IA extrai dados numéricos de textos académicos, libertando os investigadores de tarefas rotineiras

O quadro Quinex estrutura automaticamente dados quantitativos e foi concebido para ajudar a gerir o crescente fluxo de dados

21.04.2026
AI-generated image

Imagem simbólica

Os números são a linguagem da ciência - no entanto, nos artigos de investigação, estão muitas vezes enterrados no texto e são difíceis de analisar. Os investigadores de Jülich desenvolveram um sistema de IA que identifica automaticamente estes números, categoriza-os e converte-os em dados estruturados. A estrutura Quinex elimina assim a necessidade de um trabalho manual moroso.

Quer se trate de investigação no domínio da energia, do clima ou dos materiais, os documentos científicos estão repletos de números ou, mais precisamente, de dados quantitativos: eficiências, temperaturas, custos, emissões. Estes dados são muitas vezes cruciais para melhorar os modelos ou identificar tendências. Ao mesmo tempo, o número de publicações científicas está a crescer rapidamente. Para muitas questões de investigação, é atualmente praticamente impossível avaliar manualmente todas as publicações relevantes - o tempo e os recursos necessários seriam enormes.

A estrutura Quinex ("Quantitative Information Extraction"), desenvolvida por investigadores de Jülich, baseia-se em modelos linguísticos e automatiza este processo: A inteligência artificial identifica os valores numéricos, atribui-lhes unidades adequadas e reconhece o que foi medido, quando, onde e como. Assim, uma frase como "Para 2025, pressupõem-se níveis de eficiência de 63 a 71%" é transformada num conjunto de dados estruturado que contém todas as informações contextuais relevantes - desde o ano e o método de medição até à fonte.

IA aberta e eficiente

Ao contrário de muitas soluções de IA proprietárias, o Quinex baseia-se inteiramente em modelos linguísticos abertos, relativamente pequenos e, por conseguinte, eficientes. Estes foram especificamente treinados para reconhecer e classificar informações quantitativas em textos científicos. Em comparação com sistemas semelhantes, o Quinex fornece resultados mais precisos, capta informações contextuais de uma forma mais matizada e também tem em conta caraterísticas implícitas.

Apesar do seu tamanho compacto, o Quinex atinge uma precisão de reconhecimento (F1) de cerca de 98% para números e unidades associadas, e de aproximadamente 87 e 82% para a classificação de propriedades e entidades quantificadas. Estas elevadas taxas de precisão foram alcançadas através de conjuntos de dados de treino especialmente criados e de melhorias metodológicas.

"Queríamos desenvolver uma ferramenta que fosse poderosa, mas também transparente e eficiente em termos de recursos", explica o Dr. Jann Weinand, diretor do Departamento de Cenários Integrados da Jülich System Analysis. "O Quinex torna a inteligência artificial mais acessível para a análise de dados na ciência."

Teste prático bem-sucedido

Para testar a adequação prática do Quinex, o sistema foi aplicado a milhares de resumos científicos de vários domínios. Extraiu com êxito dados sobre os custos de produção de eletricidade para várias tecnologias energéticas, sobre a absorção máxima de oxigénio em seres humanos, sobre a magnitude e localização de terramotos e sobre os intervalos de banda dos materiais fotovoltaicos.

Os valores obtidos automaticamente corresponderam de perto aos respectivos dados de referência. Isto demonstra que o Quinex é adequado para analisar grandes volumes de literatura académica numa vasta gama de campos de investigação e daí retirar tendências fiáveis.

Novas perspectivas para a investigação

"Os modelos linguísticos abrem novas perspectivas para a ciência e ajudam a manter uma visão geral de campos de investigação inteiros", afirma o autor principal Jan Göpfert. "Permitem pesquisas bibliográficas automatizadas, a criação de bases de dados de investigação uniformemente estruturadas e análises de tendências que revelam desenvolvimentos na ciência e na tecnologia numa fase inicial."

"O nosso objetivo é aliviar os investigadores do trabalho de rotina", diz o Dr. Patrick Kuckertz, chefe do Grupo de Gestão de Dados de Investigação. "O Quinex foi concebido para os ajudar a chegar mais rapidamente a conclusões e a gerir o fluxo crescente de dados na ciência."

Limitações e melhorias futuras

O Quinex também não está totalmente isento de erros, mas a transparência faz parte da sua conceção. "O sistema reconhece os números e as unidades de forma muito fiável", afirma Jan Göpfert. Uma vez que são retirados diretamente do texto, não podem ser "alucinados". No entanto, por vezes ocorrem erros de interpretação, por exemplo, quando referências importantes estão dispersas pelo texto."

Assim, o Quinex continua a ser uma ferramenta que apoia as pessoas, mas não as substitui. "Recomendamos a utilização do Quinex quando este informa e alivia os investigadores - mas a responsabilidade pela interpretação dos resultados continua a ser deles", diz Göpfert. Cada número reconhecido pode ser rastreado até à sua fonte e, sempre que possível, é destacado no texto original.

A equipa está a trabalhar para continuar a desenvolver o Quinex com conjuntos de dados e modelos adicionais específicos do domínio, tornando-o ainda mais eficiente e suficientemente flexível para se adaptar a vários requisitos de investigação.

Colaboração aberta bem-vinda

O Forschungszentrum Jülich está a disponibilizar o Quinex como um projeto de código aberto.

O objetivo é dar aos investigadores de todo o mundo a oportunidade de testar, expandir e adaptar o sistema aos seus próprios campos - desde a investigação energética à química e biomedicina.

Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Inglês pode ser encontrado aqui.

Publicação original

Outras notícias do departamento ciência

Notícias mais lidas

Mais notícias de nossos outros portais