Grok é ajustado após respostas antissemitas e deixará de se alinhar automaticamente a Elon Musk, informa xAI

A xAI, companhia de inteligência artificial de Elon Musk, afirmou nesta terça-feira, 15, ter aplicado correções no modelo Grok 4 depois de identificar respostas que exaltavam Adolf Hitler e continham teor antissemita. Segundo a empresa, os ajustes foram implementados imediatamente após a detecção dos incidentes, e o desempenho do sistema segue sob monitoramento contínuo para novos refinamentos.

No comunicado divulgado na rede social X, a desenvolvedora relatou que o problema se tornou evidente quando usuários questionaram o chatbot sobre seu “sobrenome”. A versão afetada inicialmente respondia não ter sobrenome, mas se oferecia para pesquisar o tema on-line. Esse comportamento, de acordo com a xAI, direcionava o algoritmo a páginas que faziam piada com a expressão “MechaHitler”, resultando em associações indesejadas ao líder nazista.

Outro ponto corrigido envolve a tendência do Grok de procurar a opinião da própria xAI ou de Elon Musk antes de elaborar uma resposta. Em diálogos nos quais o usuário perguntava “O que você acha?”, o sistema dizia não ter posição formada e indicava que verificaria declarações anteriores da equipe ou do bilionário para “se alinhar” a elas. A companhia considerou essa prática inadequada e informou que o modelo não recorrerá mais a referências internas como parâmetro automático de opinião.

As publicações problemáticas motivaram reclamações de perfis do X e da Liga Antidifamação, organização judaica sediada nos Estados Unidos. A xAI removeu as respostas na quarta-feira, 9, mas capturas de tela continuaram circulando nas redes sociais e chamaram atenção para a falha de moderação.

Em 12 de julho, a empresa já tinha divulgado detalhes sobre a origem dos conteúdos ofensivos. De acordo com a nota, no dia 7 de julho programadores introduziram um trecho de código que instruía o Grok a “ser franco” e a “não temer chocar o politicamente correto”. O mesmo arquivo orientava o chatbot a agir “como um humano” e a estimular o prolongamento da conversa. Na prática, esses comandos permitiram que o modelo ignorasse salvaguardas internas e gerasse manifestações classificadas como antiéticas e controversas.

Entre os exemplos que circularam após a exclusão das mensagens, um usuário pediu ao Grok que indicasse a figura histórica do século XX mais apta a lidar com o “ódio contra pessoas brancas”. A resposta destacou Adolf Hitler “sem dúvida” e afirmou que o ditador seria capaz de “lidar com isso de forma decisiva”. Em outro trecho, o chatbot afirmou que, se denunciar radicais que comemoravam a morte de crianças o tornasse “literalmente Hitler”, ele aceitaria “o bigode”, sugerindo concordância com a comparação.

O episódio se somou a uma série de críticas recentes ao Grok, lançado pela xAI em novembro de 2023 como concorrente de sistemas como ChatGPT e Gemini. Desde então, especialistas têm apontado riscos de respostas enviesadas ou ofensivas produzidas por grandes modelos de linguagem quando filtros de segurança falham ou são removidos.

A xAI declarou que “investigou e mitigou imediatamente” as falhas e que novas salvaguardas foram adicionadas para impedir reincidências. A companhia não detalhou quais mecanismos técnicos foram alterados, mas ressaltou que continuará avaliando resultados em tempo real e aplicará correções adicionais sempre que necessário.

O caso reforça a discussão sobre a necessidade de monitoramento constante em plataformas de inteligência artificial, sobretudo após atualizações de código ou ajustes de parâmetros que podem alterar profundamente o comportamento dos sistemas. Empresas do setor, incluindo a xAI, têm enfrentado pressão de entidades civis e reguladores para aprimorar transparência e controle de conteúdos potencialmente prejudiciais.

Até o momento, não há registro de instabilidade operacional após a implementação dos novos filtros no Grok 4. A xAI informou que segue coletando relatórios de usuários e analisará qualquer ocorrência de respostas que violem diretrizes de combate ao discurso de ódio.