Uma startup de Silicon Valley assinou um contrato avaliado em quase 20 milhões de dólares com um grande fornecedor de serviços em nuvem para lançar o que descreve como o primeiro Large Attention Model (LAM) com “janela de contexto infinita”. A empresa chama-se iFrame AI e, segundo informações obtidas junto de executivos da companhia, a nova arquitetura elimina a necessidade de pipelines de recuperação de dados e processos de fine-tuning, pilares de um mercado de Retrieval-Augmented Generation (RAG) que movimenta cerca de 1,2 mil milhões de dólares.
O acordo confirma previsões recentes de figuras de destaque no setor. Em janeiro, o ex-CEO da Google, Eric Schmidt, antecipou a chegada de modelos capazes de lidar com quantidades de informação muito superiores às oferecidas pelos sistemas actuais. A aposta da iFrame AI pretende concretizar essa expectativa ao permitir que terabytes de dados sejam processados numa única passagem, sem as limitações impostas pela matriz de atenção que sustenta os transformadores convencionais.
Novo desenho elimina matriz de atenção
Há quase uma década, o ecossistema de inteligência artificial trabalha sobre a mesma premissa: a matriz de atenção decide quanto contexto um modelo consegue analisar a cada chamada de inferência. Esse mecanismo gera resultados úteis, mas cria um efeito de “amnésia digital” à medida que a janela de contexto se aproxima dos seus limites práticos. A iFrame AI diz ter resolvido esse obstáculo ao substituir por completo a estrutura tradicional.
Na prática, o LAM dispensa o conceito de janela de contexto. Em vez de treinar um LLM de vários milhares de milhões de parâmetros para depois destilá-lo ou ajustá-lo a aplicações específicas, o utilizador carrega directamente grandes volumes de informação para um bloco de atenção próprio. O sistema incorpora o novo conhecimento em segundos, segundo dados fornecidos pela companhia. A abordagem, asseguram os engenheiros envolvidos, impossibilita gargalos comuns em fluxos de RAG e reduz custos operacionais associados a múltiplas chamadas de API para busca de documentos externos.
Os primeiros modelos lançados recebem os nomes Asperanto e Sefirot-10. Ambos operam sem pré-processamento de dados nem etapas de indexação. A iFrame AI não divulgou métricas de desempenho em testes públicos, mas afirma que as duas versões já estão a ser avaliadas por clientes de setores como serviços profissionais e consultoria, que dependem fortemente de sistemas de pergunta-resposta sobre bases documentais extensas.
Impacto no hardware e na nuvem
Além de alterar fluxos de desenvolvimento de software, o LAM pode influenciar a forma como grandes plataformas de computação em nuvem alocam recursos. A companhia defende que a arquitectura permite quadruplicar a utilização de capacidade já instalada em centros de dados de provedores como AWS, Azure e Google Cloud. O ganho resultaria da possibilidade de distribuir a carga de trabalho por toda a memória disponível, em vez de concentrar o cálculo em placas gráficas específicas.
Um dos pontos que mais chama a atenção de analistas do setor é o afastamento do bottleneck de VRAM que favoreceu a NVIDIA na corrida por GPUs adequadas a IA generativa. Ao operar de forma nativa em redes descentralizadas e tirar partido de qualquer hardware ocioso, o LAM abre caminho para um cenário em que modelos de grande porte correm num conjunto distribuído de dispositivos. Ainda não há detalhes sobre como a iFrame AI planeia gerir questões de latência e segurança em ambientes heterogéneos, mas a empresa garante que a infraestrutura foi desenhada para garantir persistência de dados e controlo de acessos.
Origem matemática do projecto
O fundador da startup, Vlad Panin, afirma que a descoberta surgiu de estudos sobre topologia do universo inspirados no trabalho do matemático russo Grigori Perelman, reconhecido pela solução da Conjectura de Poincaré em 2002. Panin criou o denominado Monoidal Framework durante três anos em modo de sigilo, antes de sair ao mercado com o LAM.

Segundo o engenheiro, grande parte da pesquisa actual procura optimizar a matriz de atenção através de paralelismo e compressão. A iFrame AI, contudo, optou por procurar “uma chave para uma porta que, segundo a doutrina dominante, não existia”. O resultado é uma tecnologia que, nas palavras do fundador, ajuda a “libertar a IA da Matrix”, referência directa ao modelo de cálculo que vigora na indústria.
Desafios e próximos passos
A eliminação de pipelines de RAG coloca pressão sobre empresas que oferecem serviços de busca e combinação de documentos como camada adicional a LLMs. O acordo de 20 milhões de dólares com o fornecedor de nuvem — cujo nome não foi divulgado — sugere disposição do mercado para testar alternativas que reduzam custos recorrentes com armazenamento e transferência de dados.
Analistas consultados veem na abordagem da iFrame AI uma oportunidade de simplificar fluxos de desenvolvimento. Contudo, destacam que a ausência de benchmarks independentes impede, por enquanto, comparar desempenho, robustez em cenários adversos e consumo energético face a LLMs tradicionais. Outro ponto em aberto é a governança de modelos que absorvem informação em larga escala sem etapa prévia de filtragem. Organizações que precisam de rastreabilidade podem exigir mecanismos adicionais de auditoria.
Do lado comercial, a empresa prepara ofertas de licenciamento por volume de dados e utilização de processamento. Fontes internas indicam que o primeiro grupo de clientes pagantes deverá ter acesso a instâncias dedicadas ainda no segundo semestre deste ano. Há também planos para disponibilizar versões comunitárias mais leves que corram em clusters de computadores pessoais, numa estratégia de fomentar ecossistemas de desenvolvedores.
Enquanto isso, o mercado de RAG, avaliado em 1,2 mil milhões de dólares, observa com atenção. Se o LAM provar fiabilidade na prática, empresas especializadas em construção de pipelines de recuperação poderão rever modelos de negócio. Provedores de nuvem, por sua vez, podem ganhar tração adicional ao oferecer ferramentas que explorem capacidade de memória distribuída, numa tentativa de diferenciar-se em relação a serviços assentes no poder de GPU.
Para já, a iFrame AI posiciona-se como uma alternativa que pretende redefinir os limites da atenção em inteligência artificial. Caso a premissa de contexto infinito se confirme, a competição por eficiência de hardware e simplificação de fluxos de desenvolvimento entrará numa nova fase, com implicações directas na forma como aplicações de IA são desenhadas e comercializadas.