A Mistral, companhia francesa especializada em inteligência artificial, apresentou nesta terça-feira o Voxtral, primeira família de modelos de áudio de código aberto da empresa. A iniciativa posiciona a startup na disputa por sistemas de voz ao oferecer uma alternativa aberta às soluções proprietárias que hoje dominam o mercado.
Segundo a desenvolvedora, o Voxtral foi projetado para uso corporativo e é capaz de executar tarefas de transcrição, interpretação e execução de comandos em tempo real. A proposta é eliminar o dilema enfrentado por equipes técnicas que precisam escolher entre ferramentas abertas, porém menos precisas, e opções fechadas, normalmente mais eficientes, mas com custo elevado e menor flexibilidade de implementação.
Características técnicas
O Voxtral transcreve até 30 minutos de áudio contínuo e, graças à integração com o modelo de linguagem Mistral Small 3.1, compreende gravações de até 40 minutos. Esse recurso permite que desenvolvedores criem aplicações que resumem conteúdos, respondam perguntas sobre o arquivo de voz ou acionem chamadas de API e outras funções com base em comandos falados.
A plataforma é multilíngue desde o lançamento. Estão contemplados inglês, espanhol, francês, português, hindi, alemão, holandês e italiano, o que amplia o campo de uso em serviços globais de atendimento, análise de reuniões ou automação de processos.
Três versões disponíveis
A linha estreia com dois modelos principais e um derivado:
• Voxtral Small (24 bilhões de parâmetros) – Voltado a implantações em larga escala, disputa espaço com soluções como ElevenLabs Scribe, GPT-4o-mini e Gemini 2.5 Flash.
• Voxtral Mini (3 bilhões de parâmetros) – Indicado para uso local ou em dispositivos de borda, onde a capacidade de processamento é limitada.
• Voxtral Mini Transcribe – Versão enxuta da arquitetura de 3 bilhões de parâmetros, otimizada exclusivamente para transcrição. De acordo com a empresa, entrega desempenho superior ao OpenAI Whisper por menos da metade do preço.
Modelo de distribuição e custo
Os pesos dos modelos são disponibilizados em repositório no Hugging Face, permitindo que equipes de desenvolvimento avaliem a tecnologia sem custo inicial. Também é possível testá-la diretamente no Le Chat, chatbot mantido pela Mistral.
Para produção, o preço parte de US$ 0,001 por minuto de áudio processado. A companhia afirma que a cobrança representa menos de 50% do valor praticado por concorrentes de desempenho equivalente, argumento que visa atrair startups e grandes organizações que lidam com grandes volumes de gravações.
Contexto e próximos passos
O lançamento do Voxtral ocorre aproximadamente um mês após a apresentação do Magistral, conjunto de modelos de raciocínio passo a passo dirigido à resolução de problemas com maior confiabilidade. Com a estratégia de liberar pesos e documentação, a Mistral reforça a posição de defensora de soluções open source em inteligência artificial.
No início de junho, a imprensa internacional noticiou que a empresa negocia a captação de até US$ 1 bilhão em novos recursos junto a investidores liderados pelo fundo MGX, de Abu Dhabi. Caso o aporte seja confirmado, o capital poderá sustentar a expansão de linhas como Voxtral e Magistral, além de financiar pesquisa em arquiteturas de próxima geração.
Com a chegada do Voxtral, o mercado passa a contar com uma alternativa de baixo custo, de código aberto e prontamente adaptável às necessidades de cada projeto. Com isso, a Mistral busca reduzir a dependência de ecossistemas fechados e ampliar a adoção de inteligência artificial de voz em ambientes corporativos diversos.