Mundo Positivo » Pesquisadores criam método para detectar alucinações de IA

Pesquisadores da Universidade de Oxford, Reino Unido, divulgaram o desenvolvimento de um método para detectar alucinações de IA e de grandes modelos de linguagem, especialmente para os casos de respostas “confabuladas” — quando há geração de informações incorretas e arbitrárias. Segundo a equipe, o método pode identificar a probabilidade de um comando produzir uma confabulação e alertar as pessoas sobre a confiabilidade dos dados gerados pelas IAs.

Os resultados do sistema desenvolvido pelo time de pesquisados de Oxford foram divulgados nesta quarta-feira (19) na revista científica Nature.

O problema das alucinações de IA

As alucinações de IA são um problema crítico na geração de conteúdo com grandes modelos de linguagem (LLMs), pois minam a confiança nas respostas geradas e podem induzir as pessoas em erro.

–
Podcast Canaltech: de segunda a sexta-feira, você escuta as principais manchetes e comentários sobre os acontecimentos tecnológicos no Brasil e no mundo. Links aqui: https://canaltech.com.br/podcast/
–

Os casos de confabulação são especialmente preocupantes quando produzem respostas convincentes, mas falsas, como decorrência de erros na base de dados utilizada no treinamento do modelo ou por falhas sistemáticas de raciocínio.

“Responder de forma pouco confiável ou sem as informações necessárias impede a adoção das IAs em diversas áreas, com problemas que incluem a fabricação de precedentes legais, ou fatos falsos em artigos de notícias e até mesmo representando um risco à vida humana em domínios médicos como a radiologia”, justificam os pesquisadores no artigo.

Método para detectar alucinações

O método desenvolvido na Universidade de Oxford utiliza ferramentas probabilísticas para medir a “entropia semântica” das respostas geradas pelos modelos. Essa entropia semântica calcula uma estimativa das incertezas no nível do significado, ao contrário de métodos anteriores que mediam apenas variações lexicais ou sintáticas.

A técnica envolve a amostragem de várias respostas possíveis para uma pergunta e o agrupamento dessas respostas em clusters de significados semelhantes, com uso de LLMs e ferramentas de inferência de linguagem natural (NLI). Se uma resposta tem o mesmo significado que outra, as duas são agrupadas em um mesmo cluster semântico.

Método analisa a “entropia semântica” das respostas geradas pelos modelos de linguagem (Imagem:Kjpargeter/Freepik)

Porém, quando um modelo de linguagem possui pouca informação de base para fornecer uma resposta complexa, ele tende a gerar uma porcentagem mais alta de respostas — e clusters — que podem ter significados diferentes, mesmo que usem um conjunto de palavras semelhantes.

Nesse caso, há uma taxa maior de “entropia semântica”, o que indica maior probabilidade de geração de respostas incoerentes ou infundadas.

“Para detectar confabulações, usamos ferramentas probabilísticas para definir e depois medir a entropia semântica dos conteúdos gerados por um LLM — uma entropia que é calculada sobre o significado das frases. Alta entropia corresponde a alta incerteza, portanto, a entropia semântica é uma forma de estimar incertezas semânticas”, explica o texto dos pesquisadores.

Resultados do método

Os resultados apresentados no artigo mostram que a detecção de confabulações por meio da entropia semântica é eficaz em diversos modelos de linguagem e domínios.

A metodologia foi avaliada em conjuntos de dados variados, como TriviaQA (perguntas de curiosidades), SQuAD (perguntas de conhecimento geral), BioASQ (ciências biológicas) e NQ-Open (perguntas abertas baseadas em consultas do Google), além de identificar alucinações em problemas matemáticos e na geração de biografias.

Os testes foram realizados com o Llama 2 (da Meta), o Mistral Instructor (da empresa francesa Mistral) e o Falcon (do Instituto de Inovação Tecnológica de Dubai). Soluções populares como o ChatGPT (da OpenAI) e o Gemini (do Google) não fizeram parte da pesquisa.

A abordagem da Universidade de Oxford destaca-se ainda por ser não supervisionada, ou seja, não requer exemplos rotulados de confabulações para treinar o sistema. Isso torna o método mais adaptável a novas situações e menos dependente de padrões específicos de alucinações de IA.

A equipe ressalta que a metodologia pode ser utilizada para solucionar um dos grandes problemas dos modelos de inteligência artificial. “Mostramos que a entropia semântica pode ser usada para prever muitas respostas incorretas e melhorar a precisão, recusando-se a responder às perguntas sobre as quais o modelo não tem certeza”, explica o time de pesquisadores.

A expectativa é que o método ajude a aumentar a assertividade e a confiabilidade nos resultados obtidos através das IAs.

Trending no Canaltech:

Fonte: Canaltech