O cientista brasileiro Rafael Valle, 40, iniciou em 7 de maio suas atividades no novo laboratório de inteligência artificial da Meta, criado sob comando de Mark Zuckerberg para desenvolver sistemas considerados “superinteligentes”. O grupo, que reúne cerca de 50 especialistas vindos de empresas como OpenAI, Nvidia e Google, trabalha na construção de modelos multimodais capazes de processar texto, áudio e imagem de forma integrada, superando, em tese, o desempenho humano em diferentes tarefas.
Valle chega ao projeto após uma década na Nvidia, onde ajudou a consolidar tecnologias de síntese de voz em tempo real. Ele é coautor de arquiteturas de TTS (text-to-speech) que permitem gerar fala em poucos segundos, recurso considerado essencial para assistentes virtuais que precisam responder sem atrasos perceptíveis. A experiência na criação de soluções de áudio foi um dos fatores que motivaram sua contratação, parte de um investimento bilionário da Meta para acelerar pesquisas em inteligência artificial de última geração.
De formação inicial em música e regência pela Universidade Federal do Rio de Janeiro, Valle migrou para a área de tecnologia após ler, em meados dos anos 2000, um livro introdutório sobre aplicações de IA em reconhecimento facial e veículos autônomos. Fez mestrado em Stuttgart, Alemanha, e concluiu doutorado na Universidade de Berkeley, Estados Unidos, em 2012, quando investigou métodos de detecção de vozes clonadas. À época, buscava identificar elementos imperceptíveis ao ouvido humano, mas reconhecíveis por algoritmos, que diferenciassem gravações autênticas de conteúdos sintéticos.
Segundo o pesquisador, a tarefa de distinguir vozes geradas por máquina tornou-se inviável à medida que os modelos evoluíram. Hoje, um áudio de três segundos fornece informações suficientes para copiar timbre, ritmo e entonação de praticamente qualquer locutor. Valle avalia que a única solução prática para evitar fraudes seria a adoção obrigatória de selos de autenticação em arquivos de áudio, estratégia já testada por grandes empresas do setor.
Aos 40 anos, o brasileiro sustenta que a comunidade do Vale do Silício lida, na prática, com sistemas que superam capacidades humanas em nichos específicos. Cita como exemplo o AlphaFold2, da DeepMind, usado na identificação de estruturas de proteínas e reconhecido pelo Nobel de Química, resultado que seria inviável no mesmo prazo por métodos convencionais. Para ele, a compreensão popular sobre a “inteligência” das máquinas permanece limitada, pois o funcionamento interno desses modelos diverge do raciocínio humano.
Na nova função, Valle trabalhará em pesquisas de longo prazo para aproximar a Meta de uma IA geral, mas também em produtos voltados ao público de mais de 2 bilhões de usuários da companhia. Ele vê vantagem na mudança em relação à Nvidia, empresa focada majoritariamente no fornecimento de tecnologia a outros negócios. “A possibilidade de lançar ferramentas diretamente ao consumidor dá escala imediata às inovações”, justifica.
Entre as motivações adicionais está a oportunidade de colaborar com Daniel Gross e, indiretamente, com Ilya Sutskever, reconhecido por sua atuação no desenvolvimento do ChatGPT. Sutskever deixou a OpenAI após divergências internas e fundou a startup Safe Superintelligence, cuja missão também é avançar rumo a sistemas de nível geral.
Antes de deixar a Nvidia, Valle concluiu o projeto Fugatto, descrito como um modelo de áudio generalista capaz de gerar fala, ruídos, sons de animais, instrumentos musicais e até composições inexistentes no mundo real. A ideia surgiu há três anos como um presente simbólico para o filho, hoje com três meses. No artigo de divulgação, o time exemplificou a versatilidade do algoritmo com a criação de um “latido de saxofone”, resultado obtido após treinamento unicamente em dados sonoros, abordagem análoga à que permitiu ao GPT prever a próxima palavra em textos.
Nessa trajetória, o pesquisador acompanhou a evolução das redes neurais profundas desde 2014, quando se tornou funcionário da Nvidia e participou dos primeiros estudos que apontavam a importância de grandes conjuntos de dados on-line para treinar modelos mais precisos. Além da síntese de voz, suas contribuições aprimoraram ferramentas de tradução automática de chamadas telefônicas, proporcionando fluidez e timbres naturais em diálogos bilíngues.
Sobre a rotina no centro de pesquisa da Meta, Valle afirma que ainda se definem métodos de trabalho e prioridades, mas o objetivo permanece claro: criar uma inteligência artificial capaz de aprender, raciocinar e interagir de maneira semelhante ou superior à humana em diversas modalidades. O projeto recebe suporte financeiro expressivo, conforme Zuckerberg declarou publicamente ao anunciar a atração de talentos de todo o setor para acelerar o desenvolvimento.
Para o brasileiro, a sociedade tende a aproveitar benefícios concretos desses avanços mesmo sem entender integralmente seus mecanismos, fenômeno comparável às teorias de Albert Einstein, comprovadas empiricamente anos após a proposição. Enquanto isso, ele defende a implementação de mecanismos de verificação de conteúdo como medida imediata para mitigar riscos relacionados à geração de áudio sintético.