Resultados de um conjunto de experimentos mostraram que indivíduos que aprendem sobre um tema a partir de resumos produzidos por grandes modelos de linguagem desenvolvem um conhecimento mais superficial em comparação com aqueles que aprendem por meio de buscas tradicionais na web. As pessoas que aprenderam com modelos de linguagem sentiram-se menos envolvidas na elaboração de seus conselhos e produziram orientações mais enxutas e menos originais do que aquelas baseadas em aprendizado via pesquisa na internet. A pesquisa foi publicada na PNAS Nexus.
Grandes modelos de linguagem (large language models, ou LLMs) são sistemas de inteligência artificial projetados para interpretar e gerar linguagem humana a partir do aprendizado de padrões estatísticos em enormes coleções de textos. Eles geralmente se baseiam em arquiteturas de aprendizado profundo, que permitem processar contexto e relações entre palavras ao longo de trechos extensos. Os modelos de linguagem mais populares atualmente incluem os desenvolvidos pela OpenAI (série GPT, usada no ChatGPT), Google (Gemini), Anthropic (Claude) e Meta (LLaMA).
O desenvolvimento dos grandes modelos de linguagem avançou rapidamente na última década devido ao aumento do poder computacional, à disponibilidade de grandes conjuntos de dados e a melhorias nos algoritmos de treinamento. Os primeiros modelos se concentravam principalmente em previsões simples de texto, enquanto os modelos modernos são capazes de realizar raciocínio complexo, sumarização, tradução e diálogo. O treinamento costuma envolver duas etapas principais: um pré-treinamento em larga escala com textos gerais e um ajuste fino em tarefas mais específicas ou com feedback humano.
Esses modelos são amplamente utilizados em aplicações como chatbots, assistentes virtuais, mecanismos de busca e atendimento automatizado ao cliente. Na educação e na pesquisa, auxiliam na escrita, programação, revisões de literatura e exploração de dados. Nos negócios e na indústria, são usados para análise de documentos, geração de conteúdo de marketing e apoio à tomada de decisões. Apesar de sua utilidade, os grandes modelos de linguagem às vezes produzem erros, vieses ou informações enganosas, pois não compreendem o mundo de fato, mas dependem de padrões aprendidos a partir dos materiais usados em seu treinamento.
As autoras do estudo, Shiri Melumad e Jin Ho Yun, observam que muitas pessoas utilizam resumos gerados por LLMs como ferramentas de aprendizagem. No entanto, ao aprender por meio desses resumos, os usuários deixam de fazer o esforço de reunir e sintetizar diferentes fontes de informação por conta própria. As autoras levantaram a hipótese de que essa redução de esforço na construção do conhecimento a partir de resumos de LLMs pode suprimir a profundidade do aprendizado em comparação com a aprendizagem por meio de buscas tradicionais na web, resultando em um conhecimento mais superficial. Por sua vez, esse aprendizado mais raso levaria a menor investimento na formulação de conselhos, bem como a conteúdos de aconselhamento mais escassos e menos originais, que seriam percebidos como menos informativos e persuasivos.
Para testar esse modelo, as autoras conduziram uma série de experimentos. O primeiro envolveu 1.104 participantes recrutados pela plataforma Prolific. Eles foram instruídos a imaginar que um amigo estava buscando conselhos sobre como plantar uma horta. Um grupo precisou aprender sobre o tema por meio de buscas no Google, enquanto o outro aprendeu com o ChatGPT. Em seguida, todos deveriam oferecer conselhos.
O segundo experimento contou com 1.979 participantes, também recrutados via Prolific. Foi semelhante ao primeiro, mas os participantes ficaram limitados a digitar apenas uma consulta. Essa consulta não gerava uma busca ou resposta típica. Em vez disso, todos recebiam os mesmos resultados, apresentados ou como uma série de sites vinculados ou como um resumo no estilo de sugestões do ChatGPT.
O terceiro experimento foi semelhante ao primeiro, mas os dois grupos utilizaram, respectivamente, a busca do Google ou o recurso “AI Overview” do próprio Google (e não o ChatGPT). Nesse caso, os participantes deveriam dar conselhos sobre como levar um estilo de vida mais saudável, mantendo constante a plataforma utilizada. No quarto experimento, outros participantes avaliaram diferentes características dos conselhos produzidos no terceiro estudo.
Os resultados desses experimentos mostraram que os participantes que utilizaram resumos de LLMs passaram menos tempo aprendendo e relataram ter aprendido menos coisas novas. Eles investiram menos reflexão e gastaram menos tempo escrevendo seus conselhos e, como resultado, sentiram menor senso de autoria ou pertencimento em relação ao que produziram. No conjunto, esses achados sustentam a ideia de que aprender a partir de resumos de LLMs leva a um aprendizado mais superficial e a menor investimento na aquisição e no uso do conhecimento.
Já os participantes que aprenderam por meio de buscas na web e leitura de sites produziram conselhos mais ricos e com conteúdo mais original. Seus textos eram mais longos, mais diferentes entre si e semanticamente mais únicos.
“Propomos a teoria de que, ao reduzir a necessidade de descobrir e sintetizar informações a partir de fontes originais — etapas essenciais para um aprendizado profundo —, os resumos de LLMs podem levar os usuários a desenvolver um conhecimento mais superficial em comparação com o aprendizado por meio de links da web. Quando posteriormente formulam conselhos sobre o tema, isso se manifesta em orientações mais escassas, menos originais e menos propensas a serem adotadas pelos destinatários. Os resultados de sete experimentos sustentam essas previsões, mostrando que essas diferenças surgem mesmo quando os resumos de LLMs são complementados por links da web em tempo real, por exemplo. Assim, aprender a partir de sínteses de LLMs (em comparação com links da web) pode, em alguns casos, limitar o desenvolvimento de um conhecimento mais profundo e original”, concluíram as autoras.
O estudo contribui para a compreensão científica de como as pessoas aprendem ao utilizar grandes modelos de linguagem. No entanto, é importante notar que os experimentos iniciais envolveram cenários hipotéticos (dar conselhos a um amigo), embora estudos posteriores tenham confirmado que os resultados se mantêm mesmo quando os temas são de alta relevância pessoal para os participantes.
Além disso, os experimentos envolveram participantes remunerados, provavelmente motivados principalmente pela recompensa pela participação, que não dependia da qualidade dos conselhos produzidos. Os resultados podem diferir em situações reais de aprendizagem, nas quais as pessoas se sentem responsáveis pelas consequências do aprendizado e têm um interesse pessoal na qualidade dos conselhos que oferecem.
O artigo, “Experimental evidence of the effects of large language models versus web search on depth of learning”, foi assinado por Shiri Melumad e Jin Ho Yun.



