K Prize premia engenheiro brasileiro e expõe limites atuais da IA na programação

O Instituto Laude anunciou, às 17h PST de quarta-feira, o primeiro vencedor do K Prize, um concurso internacional que avalia a capacidade de modelos de inteligência artificial resolverem problemas reais de programação. O brasileiro Eduardo Rocha de Andrade, especialista em prompt engineering, conquistou o prémio de 50 000 dólares com uma taxa de respostas corretas de apenas 7,5 %, resultado que evidencia a dificuldade imposta pelo novo teste.

Primeiro resultado surpreende organizadores

Criado pelo cofundador da Databricks e da Perplexity, Andy Konwinski, o K Prize foi desenhado para ser mais exigente do que os benchmarks existentes. As submissões para a primeira ronda encerraram em 12 de março, e o conjunto de questões foi composto exclusivamente por issues do GitHub abertas após essa data, evitando que os modelos fossem treinados previamente sobre o material avaliado.

Konwinski comemorou a dificuldade comprovada do desafio, indicando que “benchmarks precisam ser duros para terem relevância”. O executivo sublinhou que a prova é executada offline e com recursos computacionais limitados, o que favorece modelos mais pequenos e de código aberto. Além do prémio inicial, o organizador prometeu um incentivo de 1 milhão de dólares ao primeiro sistema open-source que ultrapassar 90 % de acertos.

Comparação com o SWE-Bench e reação da comunidade

A nova competição inspira-se no conhecido SWE-Bench, mas procura eliminar qualquer hipótese de contaminação de dados. Enquanto o SWE-Bench apresenta 75 % de acerto no teste mais simples e 34 % no mais complexo, o K Prize mostrou, na estreia, um máximo de somente 7,5 %. Konwinski afirma que o contraste pode resultar da limpeza do conjunto de dados ou da maior complexidade dos problemas recolhidos.

Investigadores como Sayash Kapoor, da Universidade de Princeton, veem iniciativas semelhantes como essenciais para aferir o verdadeiro estado da tecnologia. Segundo o investigador, sem novos testes é impossível distinguir se modelos estão a beneficiar de dados já conhecidos ou de intervenções humanas indiretas.

Próximos passos do desafio

O K Prize decorrerá em várias fases, com novas rondas previstas “a cada poucos meses”. Konwinski espera que a comunidade se adapte às regras e melhore gradualmente os resultados, mas sustenta que o fraco desempenho inicial serve de alerta: “Se a IA ainda não supera 10 % num teste livre de contaminação, há um desfasamento claro entre a perceção pública e a realidade técnica”.