Um estudo da universidade de Purdue, nos EUA, decidiu testar a eficácia do ChatGPT para responder a centenas de perguntas sobre engenharia de software. O resultado não foi muito animador para a IA, com 52% das respostas incorretas.
- As 5 grandes ameaças da IA segundo Bill Gates
- Zoom avisa que vai treinar IA com dados de usuários e gera polêmica
A intenção da pesquisa era comparar as respostas do ChatGPT com as do Stack Overflow, uma plataforma popular entre desenvolvedores e engenheiros de software para a consulta de dúvidas. Os pesquisadores Samia Kabir, David Udo-Imeh, Bonan Kou e Tianyi Zhang enviaram 517 perguntas populares do Stack Overflow e compararam as respostas do chatbot da OpenAI.
O ChatGPT teve 259 respostas incorretas, ou seja, 52% do total. Além disso, 77% dos textos foram considrados genéricos, porém a plataforma conseguiu atender a todos os aspectos da pergunta em 65% dos casos.
–
Feedly: assine nosso feed RSS e não perca nenhum conteúdo do Canaltech em seu agregador de notícias favorito.
–
Em outra etapa da pesquisa, o estudo convocou 12 pessoas com diferentes níveis de aprendizado sobre engenharia de software para analisarem as respostas. As respostas do Stack Overflow foram consideradas mais precisas, mas teve uma surpresa: as pessoas não conseguiram identificar as respostas erradas em quase 40% dos casos.
De acordo com os autores, isso aconteceu devido aos “insights humanos, compreensíveis e bem-articulados do ChatGPT”. Ou seja, o “jogo de cintura” do ChatGPT para criar uma resposta fez com que as pessoas não percebessem (ou ignorassem) os erros.
Isso significa que o ChatGPT não é confiável?
Não necessariamente. A pesquisa tinha o objetivo de descobrir a precisão de respostas específicas para a área de engenharia de software — isso não significa que a ferramenta atinja o mesmo nível para respostas em outras áreas do conhecimento.
Além disso, é importante reforçar que o ChatGPT utiliza informações obtidas até 2021 no modelo GPT-3.5, disponibilizado na versão gratuita da plataforma. Para conferir ferramentas que pesquisem em tempo real, você pode recorrer ao Bard, do Google, ou à IA do Bing.
O estudo completo está disponível axiv.org (PDF em inglês).
Trending no Canaltech:
- Vacina contra Alzheimer é eficaz em testes com animais
- Disney+ quer acabar com compartilhamento de senhas
- Governo esclarece isenção em compras internacionais e mantém apenas ICMS de 17%
- Xiaomi Mix Fold 3 ganha data de lançamento e design oficial é revelado
- Netflix divulga primeiro trailer de B.O., a “versão brasileira” de Brooklyn 99
- 8 modelos de planilhas prontas para controle de gastos mensais
Fonte: Canaltech