Ai2 lança MolmoAct 7B e leva raciocínio espacial 3D à robótica

A Allen Institute for AI (Ai2) apresentou o MolmoAct 7B, um modelo de inteligência artificial concebido para transferir o raciocínio visual de ponta do domínio digital para aplicações físicas. A solução coloca à disposição dos robots um mecanismo capaz de “ver” o ambiente, compreender relações entre espaço, movimento e tempo e, em seguida, planear cada deslocação com maior precisão e segurança. O lançamento decorre de Seattle, sede da instituição, e marca a estreia de uma nova classe de modelo, batizada de Action Reasoning Model (ARM).

Estrutura de raciocínio em três camadas

Em vez de converter descrições em linguagem natural diretamente em comandos motores, o MolmoAct gera tokens de raciocínio visual que transformam imagens 2D em planos espaciais 3D. O processo ocorre em três etapas:

1. Perceção com noção de profundidade — o sistema fundamenta a sua compreensão num enquadramento tridimensional do ambiente, combinando dados de profundidade e contexto espacial.

2. Planeamento por waypoints — define uma trajetória de trabalho passo a passo, ainda no espaço das imagens, ligando pontos de interesse que o robot deve atingir.

3. Decodificação de ações — converte o plano visual em comandos de controlo específicos para cada tipo de robot.

Essa divisão permite que instruções como “Separa esse monte de lixo” deixem de ser tratadas como um único passo opaco. Em vez disso, o algoritmo fragmenta a ordem em subtarefas explícitas: reconhecer o cenário, agrupar objetos por categoria, agarrar cada item individualmente e repetir o ciclo.

Dados abertos e treino eficiente

O MolmoAct 7B foi treinado com cerca de 12 000 episódios gravados a partir de robots a executarem tarefas em cozinhas, quartos e salas de estar. Cada demonstração foi convertida numa sequência de decisões, revelando como pedidos complexos se mapeiam em ações concretas. De acordo com a Ai2, o pré-treino consumiu 18 milhões de amostras, utilizando 256 placas NVIDIA H100 durante 24 horas; o aperfeiçoamento final correu em 64 GPUs por mais dois dias. A escala contrasta com modelos proprietários que exigem centenas de milhões de exemplos e tempo de computação significativamente maior.

Apesar do volume reduzido de dados, o MolmoAct alcançou 71,9 % de sucesso no benchmark SimPLER, superando soluções comerciais mais extensas. Para Ali Farhadi, diretor-executivo da Ai2, o resultado prova que “dados de alta qualidade e arquitetura cuidadosa podem superar abordagens que dependem apenas de quantidade e poder de processamento”.

Transparência e controlo em tempo real

Um dos pontos centrais do projeto é a interpretabilidade. Antes de executar qualquer movimento, o modelo apresenta a trajetória prevista sobre o fluxo de câmara, permitindo que operadores verifiquem e ajustem o percurso em tempo real. Alterações podem ser introduzidas por comandos de voz ou por esboços simples num ecrã tátil, conferindo granularidade de controlo e reforçando a segurança em ambientes como habitações, hospitais ou armazéns.

Ai2 lança MolmoAct 7B e leva raciocínio espacial 3D à robótica - Imagem do artigo original

Segundo a equipa de desenvolvimento, a transparência reduz riscos de atuações imprevistas típicas de redes end-to-end e facilita a integração com normas de segurança industrial. O objetivo é aproximar o comportamento robótico da forma como humanos planificam e executam ações físicas, favorecendo colaboração e confiança.

Licenciamento aberto para acelerar pesquisas

Fiel à missão da Ai2, todo o ecossistema do MolmoAct foi disponibilizado em código aberto. Investigadores e empresas podem aceder a pipelines de treino, conjuntos de dados, checkpoints do modelo e métricas de avaliação através do repositório da organização na plataforma Hugging Face. A postura pretende incentivar reprodução de resultados, extensão de funcionalidades e adoção em diferentes tipos de hardware robótico.

Além do pacote principal, a Ai2 libertou o conjunto pós-treino com os mesmos 12 000 episódios que alimentaram a etapa de ajuste fino. A expectativa é que comunidades académicas e industriais contribuam com novas demonstrações, ampliando a capacidade de generalização do modelo para cenários ainda pouco explorados.

Potencial impacto na próxima geração de robots

Com planeamento visual em 3D, passos transparentes e dados acessíveis, o MolmoAct ambiciona servir de base para robots mais adaptativos em contextos quotidianos. Tarefas domésticas, logística interna, assistência hospitalar e manutenção industrial figuram entre os primeiros domínios previstos. A arquitetura modular favorece a transferência do conhecimento entre diferentes plataformas, desde braços robóticos fixos até veículos autónomos de serviço.

A Ai2 sinaliza que o trabalho continuará em duas frentes: testes em ambientes simulados para ampliar a diversidade de situações e validação em campo com parceiros industriais. A meta é demonstrar capacidade de colaboração segura e eficácia em condições variáveis, aproximando o desempenho das máquinas ao método humano de raciocinar sobre espaço, tempo e sequência de ações.

Com o MolmoAct 7B, a Allen Institute for AI propõe uma mudança de paradigma: modelos de IA incorporados que privilegiam raciocínio, abertura e interpretabilidade em vez de soluções fechadas e opacas. A disponibilização gratuita do código e dos dados coloca a comunidade em posição de participar na evolução desse conceito e, em última análise, de acelerar a chegada de robots mais inteligentes, previsíveis e úteis no dia a dia.

Eu sou apaixonado por escrever e pesquisar assuntos fascinantes. Com uma mente curiosa e inquieta, busco constantemente explorar novas ideias e descobrir insights inspiradores.