Pesquisa da USP desenvolve sistema de IA para traduzir língua de sinais em texto

Uma equipe da Universidade de São Paulo, em parceria com a Universidade do Porto, apresentou um método de inteligência artificial que converte língua de sinais em texto escrito e pode funcionar em aparelhos de baixo poder de processamento, como smartphones.

O estudo envolve o mestrando Wesley F. Maia, do Instituto de Ciências Matemáticas e de Computação (ICMC-USP, São Carlos), o professor Sergio A. David, da Faculdade de Zootecnia e Engenharia de Alimentos (FZEA-USP, Pirassununga), e o pesquisador António M. Lopes, da Faculdade de Engenharia da Universidade do Porto. Os resultados foram publicados na revista científica Neurocomputing.

Como funciona

O sistema utiliza o MediaPipe para capturar, em tempo real, 59 pontos-chave do corpo de quem sinaliza, gerando um “esqueleto digital” que descreve movimentos de braços, mãos, ombros e face. Ao trabalhar apenas com esses pontos, a abordagem reduz a quantidade de dados processados, eliminando ruídos visuais sem comprometer as informações essenciais dos gestos.

A tradução ocorre em duas etapas, denominadas Sign2Gloss2Text:

  • Sign2Gloss – o modelo analisa a sequência de pontos-chave e a converte em glosas, representação textual simplificada dos sinais.
  • Gloss2Text – um segundo modelo, baseado na arquitetura Bart, transforma as glosas em frases gramaticalmente corretas no idioma de destino.

Desempenho em bases públicas

Os pesquisadores testaram a solução nos conjuntos de dados Phoenix14T (língua de sinais alemã) e How2Sign (língua de sinais americana). No Phoenix14T, o método alcançou resultados similares aos de sistemas mais robustos, mesmo utilizando apenas os pontos-chave. Na base How2Sign, que não possui anotações de glosas, a etapa intermediária mostrou-se essencial para manter a qualidade da tradução.

Próximos passos

O grupo pretende aperfeiçoar a captura de expressões faciais e submeter o modelo à avaliação de intérpretes profissionais e de pessoas surdas, visando ampliar a precisão e a utilidade prática da ferramenta.

O trabalho sugere que a extração de pontos-chave pode viabilizar tradutores de língua de sinais mais leves, acessíveis e adequados a diferentes cenários de comunicação.

Eu sou apaixonado por escrever e pesquisar assuntos fascinantes. Com uma mente curiosa e inquieta, busco constantemente explorar novas ideias e descobrir insights inspiradores.