Uma coalizão que reúne especialistas de laboratórios como OpenAI, Google DeepMind e Anthropic, além de universidades e entidades sem fins lucrativos, publicou nesta terça-feira um documento em que defende a expansão de estudos sobre técnicas de monitoramento dos chamados chains-of-thought (CoTs) em modelos de inteligência artificial de raciocínio. Esses “encadeamentos de pensamento” correspondem ao processo externo pelo qual o sistema registra, passo a passo, como chega a determinada conclusão, comparável ao rascunho utilizado por uma pessoa para resolver um problema matemático.
Os autores argumentam que a capacidade de acompanhar esses CoTs pode tornar-se um recurso central para garantir segurança e controle de agentes de IA à medida que tecnologias desse tipo se disseminam. O documento alerta, porém, que a transparência atual pode não se manter caso novas abordagens de treinamento reduzam a legibilidade interna dos modelos. Por isso, recomendam que a comunidade científica identifique fatores que aumentem ou diminuam a monitorabilidade e que acompanhe de forma contínua o nível de visibilidade oferecido pelos sistemas.
Entre os signatários estão o diretor de pesquisa da OpenAI, Mark Chen; o CEO da Safe Superintelligence, Ilya Sutskever; o laureado com o Prêmio Nobel Geoffrey Hinton; o cofundador da Google DeepMind, Shane Legg; o conselheiro de segurança da xAI, Dan Hendrycks; e o cofundador da Thinking Machines, John Schulman. Também assinam representantes do UK AI Security Institute, METR, Apollo Research e Universidade da Califórnia em Berkeley, o que reflete um raro alinhamento entre concorrentes diretos em torno de um tema de segurança.
Modelos de raciocínio, como o o3 da OpenAI e o R1 da DeepSeek, surgiram após o lançamento público do protótipo o1, em setembro de 2024, e ganharam versões de outros laboratórios nos meses seguintes. Embora apresentem desempenho elevado em diferentes benchmarks, ainda se sabe pouco sobre os mecanismos que determinam suas respostas. O acompanhamento dos CoTs oferece uma das poucas janelas para compreender internamente esses sistemas, motivo pelo qual o grupo considera urgente consolidar métodos padronizados antes que mudanças na arquitetura prejudiquem a observabilidade.
A publicação ocorre em um ambiente de intensa disputa por talentos no setor. Empresas como a Meta têm oferecido salários elevados para atrair pesquisadores de interpretação de modelos e de agentes autônomos, área vista como estratégica para a próxima geração de produtos baseados em IA. Nesse contexto, o documento funciona como sinalização de que, além do avanço de desempenho, será necessário investir em ferramentas que permitam auditar o raciocínio das máquinas.
Nos últimos meses, a Anthropic se destacou na área de interpretabilidade ao anunciar meta de “abrir a caixa-preta” dos modelos até 2027. Dados preliminares da empresa indicam, contudo, que os encadeamentos de pensamento nem sempre espelham de forma fiel o processo interno completo, sugerindo que o método precisa ser aperfeiçoado para se tornar parâmetro confiável de segurança. Já pesquisadores da OpenAI veem na técnica um caminho promissor para medir alinhamento entre objetivos do sistema e instruções humanas, desde que a visibilidade seja preservada.
O texto publicado pede que desenvolvedores documentem de forma sistemática a evolução da monitorabilidade, investiguem possíveis fragilidades e evitem intervenções que diminuam a transparência dos modelos. Também recomenda a criação de métricas que avaliem, de maneira comparável entre laboratórios, até que ponto os CoTs permanecem acessíveis após ajustes de otimização ou compressão.
Ao reunir nomes influentes de organizações frequentemente competitivas, o posicionamento busca direcionar recursos a uma área que ainda recebe menos atenção que o aumento de capacidade pura dos sistemas. A expectativa dos signatários é que o reforço de financiamento e pesquisa permita estabelecer, no curto prazo, práticas padronizadas capazes de manter aberto um canal de observação interna antes que eventuais mudanças técnicas fechem essa oportunidade.