Google lança VaultGemma, modelo de IA privado que mantém desempenho de ponta

Google Research e Google DeepMind apresentaram o VaultGemma, um modelo de linguagem com 1 milhão de milhões de parâmetros criado desde o início para garantir privacidade diferencial sem comprometer a qualidade das respostas. Segundo os investigadores, trata-se do LLM mais avançado até agora a empregar esta técnica, que adiciona ruído matematicamente controlado aos dados de treino e impede a recuperação de informação sensível.

Novo patamar para privacidade em LLMs

A adoção de privacidade diferencial em modelos de grande porte costuma exigir concessões entre desempenho, estabilidade e custo computacional. Para eliminar esse obstáculo, a equipa desenvolveu novas leis de escala que consideram o aumento de ruído e a necessidade de lotes de treino maiores. Essas fórmulas permitiram treinar o VaultGemma com eficiência, atingindo resultados em testes como MMLU e Big-Bench semelhantes aos de modelos não privados com a mesma dimensão.

O modelo segue a arquitetura Gemma 2, do tipo decoder-only, com 26 camadas e mecanismo Multi-Query Attention. O comprimento de sequência foi limitado a 1 024 tokens, decisão que reduz o impacto computacional adicional da privacidade diferencial. Durante o desenvolvimento, foram adotadas estratégias para mitigar o consumo de recursos associado a lotes com milhões de exemplos, abrindo caminho para implementações em ambientes com infraestrutura mais modesta.

Em avaliações internas, o VaultGemma demonstrou capacidade de raciocínio e resposta a perguntas comparável às versões anteriores da família Gemma que não usam proteção de dados. Esses resultados indicam que é possível incorporar privacidade robusta sem sacrificar utilidade — requisito fundamental para setores regulados, como saúde e finanças, onde o acesso a informação confidencial é inevitável.

Disponível em código aberto

Num movimento pouco habitual para modelos avançados da empresa, o Google disponibilizou os pesos e o código do VaultGemma em repositórios no Hugging Face e no Kaggle. A decisão visa democratizar o desenvolvimento de IA privada e acelerar a criação de aplicações seguras em todo o ecossistema. Os investigadores acreditam que as leis de escala elaboradas para este projeto podem ser extrapoladas para modelos muito maiores, com biliões de parâmetros, mantendo o mesmo nível de proteção.

Google lança VaultGemma, modelo de IA privado que mantém desempenho de ponta - Imagem do artigo original

Além de minimizar o risco de fuga de dados, a incapacidade do VaultGemma em memorizar exemplos individuais pode reduzir vieses e a propagação de desinformação. O Google já explora colaborações com grandes prestadores de cuidados de saúde para usar a tecnologia em análises clínicas sem expor ficheiros de pacientes, ilustrando o potencial imediato da abordagem.

Com o lançamento do VaultGemma, a empresa dá um passo à frente no debate sobre privacidade em inteligência artificial e fornece uma base técnica que pode servir de referência para futuras regulamentações e padrões industriais.

Eu sou apaixonado por escrever e pesquisar assuntos fascinantes. Com uma mente curiosa e inquieta, busco constantemente explorar novas ideias e descobrir insights inspiradores.