Modelos de IA de OpenAI e Google conquistam pontuação de ouro na Olimpíada Internacional de Matemática
São Francisco, julho de 2025 – Modelos de inteligência artificial desenvolvidos por OpenAI e Google DeepMind obtiveram, de forma independente, pontuações equivalentes a medalha de ouro na edição de 2025 da Olimpíada Internacional de Matemática (IMO), uma das competições escolares mais tradicionais e exigentes do mundo. O desempenho coloca as duas empresas no mesmo patamar em um indicador valorizado por pesquisadores com histórico em matemática competitiva, público cobiçado pelos laboratórios de IA.
Em 2024, a DeepMind já havia alcançado uma medalha de prata utilizando um sistema “formal”, que exigia a tradução manual dos problemas para um formato legível por máquina. Neste ano, tanto a OpenAI quanto o Google recorreram a sistemas “informais”, capazes de receber os enunciados originais em linguagem natural, produzir demonstrações completas e entregar as respostas diretamente em texto convencional, sem intervenção humana na conversão dos dados.
Segundo as empresas, os resultados superam a maioria dos estudantes de ensino médio participantes da IMO e ultrapassam a pontuação do sistema formal do Google de 2024. As corporações destacam o avanço no raciocínio automatizado em domínios não totalmente verificáveis, área em que modelos costumam enfrentar desafios maiores do que em tarefas com solução objetiva, como códigos ou cálculos diretos.
Disputa pela divulgação
A divulgação dos resultados gerou atrito. No sábado, a OpenAI anunciou publicamente seu desempenho de nível ouro logo após a cerimônia de premiação dos estudantes, realizada na noite de sexta-feira. Executivos e pesquisadores da DeepMind reagiram em redes sociais, acusando a concorrente de anunciar antes de uma avaliação oficial do comitê da IMO e de descumprir um acordo informal para aguardar a validação dos organizadores.
O Google afirma ter trabalhado em conjunto com o comitê internacional desde 2024 para preparar a prova destinada a sistemas de IA. A empresa só tornou seus números públicos na segunda-feira, após receber confirmação formal dos organizadores de que a correção se alinhava às diretrizes oficiais de pontuação.
Já a OpenAI relata que recusou convite anterior para a prova formal, pois estava focada em modelos de linguagem natural. Quando soube do resultado de medalha de ouro em avaliação própria, conduzida por três ex-medalhistas da IMO contratados de forma independente, a companhia consultou a organização e recebeu orientação para aguardar o término da cerimônia presencial antes de qualquer anúncio. A IMO não se pronunciou sobre a divergência.
Avaliação técnica
Tanto o Google quanto a OpenAI destacam que o desempenho se deu sem necessidade de “tradução formal”, considerada um passo adicional que limita a aplicabilidade prática. Os sistemas leram os problemas originais, elaboraram provas em linguagem natural e atingiram índice de acerto suficiente para a medalha de ouro, reservada somente a uma fração dos competidores humanos.
Pesquisadores ligados aos projetos apontam que o avanço decorre de melhorias em arquitetura de modelos, treinamento em grandes corpus de demonstrações matemáticas e técnicas de verificação interna de consistência. Ainda assim, reconhecem que tarefas com múltiplas respostas corretas ou julgamentos subjetivos continuam mais difíceis para a tecnologia atual.
Impacto no setor de IA
O resultado reforça a percepção de equilíbrio entre as duas organizações, fator relevante na disputa por talento qualificado. Apesar da liderança histórica da OpenAI, especialmente após o lançamento do GPT-4, a conquista simultânea sugere redução da diferença técnica. O mercado aguarda o lançamento do GPT-5, previsto para os próximos meses, enquanto o Google segue investindo em aprimoramentos de seus modelos Gemini.
Além do simbolismo competitivo, a conquista demonstra que sistemas de IA estão se aproximando de níveis de raciocínio matemático comparáveis aos melhores estudantes do ensino médio. Países de todo o mundo enviam seus representantes mais preparados para a IMO, e apenas uma pequena parcela atinge pontuação de ouro. O fato de algoritmos treinados em linguagem natural alcançarem esse patamar indica progressos rápidos, embora ainda restritos a problemas bem definidos.
Para especialistas, a próxima etapa será aplicar a capacidade de prova formal e geração de argumentos a áreas menos estruturadas, como pesquisa científica complexa ou recomendações de design, onde a resposta ideal não é única nem plenamente verificável. Até lá, resultados em avaliações tradicionais, como a IMO, continuarão servindo de termômetro do avanço dos laboratórios e de argumento de peso na batalha por reputação no setor de inteligência artificial.

