Explainer

Como funciona a tradução de fala em tempo real — do microfone a 225 idiomas

A tradução de fala em tempo real converte a voz de um falante em áudio traduzido em 225 idiomas por meio de um pipeline de reconhecimento de fala, tradução automática e síntese de voz. Veja como cada etapa funciona.

Última atualização · 27 de maio de 2026 9 min de leitura

A tradução de fala em tempo real parece magia: uma pessoa fala e, momentos depois, centenas de ouvintes escutam as mesmas palavras no seu próprio idioma. Por trás dessa experiência está um pipeline de software que executa três modelos de IA em sequência, completando o trajeto da palavra falada ao áudio traduzido em menos de um segundo.

Este artigo percorre cada etapa desse pipeline — reconhecimento de fala, tradução automática e síntese de voz — e explica como elas se combinam para entregar 225 idiomas a uma audiência ao vivo.

Etapa 1: Fala para texto — capturando o que o falante diz

Como funciona o STT em fluxo contínuo

O pipeline começa no momento em que o falante abre a boca. O navegador captura o áudio do microfone e o envia via WebRTC — o mesmo protocolo usado em chamadas de vídeo — para um LiveKit SFU (Selective Forwarding Unit). O SFU roteia a trilha de áudio para o agente de tradução em execução no servidor.

O agente não espera por uma frase completa. Em vez disso, transmite o áudio em pequenos blocos para o Deepgram Nova-3, um modelo neural de reconhecimento de fala. O Deepgram retorna transcrições parciais que são refinadas conforme mais áudio chega. Uma frase como “bom dia a todos e bem-vindos à conferência” pode chegar como três resultados parciais: “bom dia”, depois “bom dia a todos e”, e então a frase completa. Cada refinamento atualiza a tradução downstream quase em tempo real.

Essa abordagem em fluxo contínuo é o que mantém a latência baixa. O sistema não armazena uma elocução inteira antes de agir — começa o processamento em dezenas de milissegundos após receber o áudio. Quando o falante termina uma frase, o pipeline de tradução já está bastante avançado.

Detecção do idioma do falante

O Deepgram Nova-3 suporta 49 códigos de idioma do falante — variantes de idioma-região como inglês americano (en-US), português brasileiro (pt-BR) e chinês simplificado (zh-CN). O falante seleciona seu idioma ao iniciar a sessão. Isso é importante porque o reconhecimento de fala preciso requer o conhecimento do idioma de entrada. Modelos de “detecção automática” existem, mas adicionam latência e reduzem a precisão para pares de idiomas raros — uma troca inaceitável em um ambiente ao vivo.

Para dicas práticas sobre como obter o áudio mais limpo no pipeline — escolha, posicionamento e acústica do microfone — consulte nosso guia sobre como escolher o microfone certo.

Etapa 2: Tradução automática — convertendo significado entre idiomas

O mecanismo de tradução

Assim que a etapa de fala para texto produz uma transcrição, o texto passa para a tradução automática. O mecanismo depende do plano do falante:

Plano gratuito: Google Cloud NMT (Neural Machine Translation) — rápido e confiável para os principais pares de idiomas. O NMT é um modelo comprovado em produção, treinado com bilhões de frases paralelas, e lida com traduções diretas com baixa latência.
Planos pagos (Starter, Pro, Max): DualModelTranslator — usa o Google Cloud Translation LLM para cerca de 100 idiomas onde modelos de linguagem grandes produzem resultados mais naturais e contextualizados, com fallback para NMT nos pares restantes. A vantagem do LLM é real: ele lida melhor com expressões idiomáticas, mudanças de registro, terminologia específica de domínio e contexto de longo alcance do que abordagens estatísticas. Para pares mais simples — espanhol para português, por exemplo — o NMT é mais rápido e igualmente preciso, então o sistema roteia de acordo.

Suporte a 225 idiomas de saída

O sistema suporta 225 idiomas de saída, divididos em duas camadas:

51 idiomas recebem áudio completo. O texto traduzido é sintetizado em fala via Google Cloud TTS e entregue como um fluxo de áudio ao vivo.
174 idiomas adicionais recebem legendas de texto em tempo real. A tradução é real e traduzida — não transcrita — mas entregue como texto rolante em vez de áudio.

Os idiomas são ativados sob demanda. Quando um ouvinte entra em uma sessão e escolhe seu idioma, o pipeline cria um fluxo de tradução para esse par origem-destino específico. Se ninguém selecionar finlandês, nenhuma tradução para o finlandês é gerada — e nenhuma hora-idioma é consumida. Consulte a lista completa de idiomas suportados para a cobertura de áudio e legendas.

Latência na etapa de tradução

A tradução automática é a etapa mais rápida do pipeline:

NMT: tipicamente 50–150 ms por fragmento de frase
LLM: tipicamente 100–300 ms por fragmento — qualidade superior para texto complexo, marginalmente mais lento

Como a arquitetura em fluxo contínuo alimenta as transcrições parciais na tradução à medida que chegam, o sistema não espera uma frase completa para traduzir. Os resultados parciais são refinados conforme mais contexto se torna disponível, o que significa que o ouvinte recebe um fluxo constante de conteúdo traduzido em vez de uma série de rajadas discretas.

Etapa 3: Texto para fala — dando voz à tradução

Como funciona a síntese TTS

Para os 51 idiomas de áudio, o texto traduzido passa para o Google Cloud TTS. O modelo gera uma forma de onda de áudio com som natural no idioma de destino. Cada idioma possui seu próprio modelo de voz ajustado à fonologia daquele idioma — o ritmo, a entonação e os padrões consoante-vogal que fazem a fala soar natural em vez de robótica.

O áudio sintetizado é publicado como uma nova trilha de áudio no LiveKit SFU. Cada idioma recebe sua própria trilha, independente das demais.

Entrega de áudio aos ouvintes

O mecanismo de entrega é o WebRTC — o mesmo protocolo usado para chamadas de vídeo, otimizado para mídia em tempo real de baixa latência. Cada ouvinte se inscreve na trilha de áudio correspondente ao idioma escolhido. Sem mixagem, sem troca — o ouvinte escuta um fluxo contínuo no seu idioma do início ao fim.

Os ouvintes podem participar por telefone, tablet ou laptop. Para a experiência completa da audiência — como um ouvinte escaneia um QR code, escolhe um idioma e se conecta — veja como funciona a tradução por QR code.

O pipeline completo em números

Etapa do pipeline	Tecnologia	Latência	Custo por hora-idioma
Fala para texto	Deepgram Nova-3 (fluxo contínuo)	200–400 ms	~$0.46
Tradução	Google Cloud NMT / Translation LLM	50–300 ms	~$0.02–0.08
Texto para fala	Google Cloud TTS	100–200 ms	~$0.79
Entrega de áudio	WebRTC via LiveKit SFU	<100 ms	$0 (self-hosted)
Pont a ponto		350 ms–1 s	~$1.27–$1.33

Onde a latência se acumula

A latência de ponta a ponta tem três fontes:

Entrada de rede — o tempo para o áudio viajar do navegador do falante, pelo LiveKit SFU, até o agente de tradução. Isso depende da conexão de internet do falante, mas geralmente fica abaixo de 100 ms em uma conexão estável.
Processamento — STT + tradução + TTS. Essa é a maior parte do atraso: aproximadamente 350–900 ms dependendo do par de idiomas e se o sistema usa tradução NMT ou LLM.
Saída de rede — o tempo para a trilha de áudio traduzida viajar do SFU até o dispositivo de cada ouvinte. Novamente, tipicamente abaixo de 100 ms.

A latência total de ponta a ponta para idiomas de áudio geralmente fica entre 0,5 e 1,0 segundo. Os idiomas com legendas de texto pulam inteiramente a etapa de TTS, então chegam mais rápido — mas sem áudio sintetizado. Para uma comparação mais aprofundada entre tradução baseada em IA e a interpretação humana tradicional, veja tradução em tempo real vs interpretação simultânea.

Por que isso importa para organizadores de eventos

Latência abaixo de um segundo significa que os ouvintes podem acompanhar naturalmente. Eles não ficam esperando constrangidamente a tradução alcançar — escutam a versão traduzida próxima o suficiente do original para que o ritmo da palestra seja preservado. Na prática, a maioria das audiências relata que um atraso consistente de 0,5–1,0 segundo soa como uma pausa natural em vez de um atraso técnico.

225 idiomas significa que nenhum membro da audiência é excluído. Seja o evento servindo uma dúzia de idiomas ou duzentos, o mesmo pipeline cuida de todos sem hardware adicional, pessoal ou tempo de configuração.

O pipeline funciona continuamente por horas sem fadiga — diferente de intérpretes humanos, que se alternam a cada 20 minutos para manter a precisão. Uma conferência de quatro horas traduzida para oito idiomas executa o mesmo pipeline do início ao fim, com qualidade consistente durante todo o tempo.

O custo é orientado pelas trilhas de idioma, não pelo tamanho da audiência. Sejam 5 ou 350 pessoas ouvindo em francês, o custo é de uma hora-idioma por hora. Para um detalhamento completo do modelo de cobrança, veja o modelo de preços por hora-idioma.

Conclusão

A tradução de fala em tempo real é um pipeline de três etapas — reconhecer, traduzir, sintetizar — que converte a voz de um falante nos idiomas de centenas de ouvintes em menos de um segundo. Cada etapa é um modelo de IA comprovado em produção: Deepgram para reconhecimento de fala, Google Cloud para tradução e síntese de voz, WebRTC para entrega. Os componentes não são experimentais. Eles operam em escala em ambientes de produção todos os dias.

A tecnologia está madura o suficiente para conferências, assembleias, salas de aula e transmissões. Não é um experimento de laboratório — está rodando em eventos hoje, entregando 225 idiomas com latência abaixo de um segundo a um custo de aproximadamente $1.30 por hora-idioma.

Quer ver a tradução de fala em tempo real em ação? Inicie uma sessão gratuita — fale em qualquer um dos 49 idiomas, sua audiência escuta em 225. Sem configuração, sem cartão de crédito.