Cómo funciona la traducción de voz en tiempo real — del micrófono a 225 idiomas
La traducción de voz en tiempo real convierte la voz de un hablante en audio traducido en 225 idiomas mediante un proceso de reconocimiento de voz, traducción automática y síntesis de voz. Aquí se explica cómo funciona cada etapa.
La traducción de voz en tiempo real parece magia: una persona habla y, momentos después, cientos de oyentes escuchan las mismas palabras en su propio idioma. Detrás de esa experiencia hay un proceso de software que ejecuta tres modelos de IA en secuencia, completando el recorrido desde la palabra hablada hasta el audio traducido en menos de un segundo.
Este artículo recorre cada etapa de ese proceso — reconocimiento de voz, traducción automática y síntesis de voz — y explica cómo se combinan para ofrecer 225 idiomas a una audiencia en vivo.
Etapa 1: De voz a texto — capturar lo que dice el hablante
Cómo funciona el STT en flujo continuo
El proceso comienza en el instante en que el hablante abre la boca. El navegador captura el audio del micrófono y lo envía a través de WebRTC — el mismo protocolo utilizado en videollamadas — a un LiveKit SFU (Selective Forwarding Unit). El SFU dirige la pista de audio al agente de traducción que se ejecuta en el servidor.
El agente no espera a que se complete una oración. En su lugar, envía el audio en pequeños fragmentos a Deepgram Nova-3, un modelo neuronal de reconocimiento de voz. Deepgram devuelve transcripciones parciales que se refinan a medida que llega más audio. Una oración como “buenos días a todos y bienvenidos a la conferencia” podría llegar como tres resultados parciales: “buenos días”, luego “buenos días a todos y”, y finalmente la oración completa. Cada refinamiento actualiza la traducción en tiempo casi real.
Este enfoque de flujo continuo es lo que mantiene la latencia baja. El sistema no almacena una utterancia completa antes de actuar — comienza a procesar en cuestión de decenas de milisegundos tras recibir el audio. Para cuando el hablante termina una oración, el proceso de traducción ya está bastante avanzado.
Detección del idioma del hablante
Deepgram Nova-3 admite 49 códigos de idioma del hablante — variantes de idioma-región como inglés americano (en-US), portugués brasileño (pt-BR) y chino simplificado (zh-CN). El hablante selecciona su idioma al iniciar la sesión. Esto es importante porque el reconocimiento de voz preciso requiere conocer el idioma de entrada. Existen modelos de “detección automática”, pero añaden latencia y reducen la precisión para pares de idiomas poco frecuentes — un compromiso inaceptable en un contexto en vivo.
Para consejos prácticos sobre cómo lograr el audio más limpio en el proceso — elección de micrófono, colocación y acústica de la sala — consulta nuestra guía sobre cómo elegir el micrófono adecuado.
Etapa 2: Traducción automática — convertir el significado entre idiomas
El motor de traducción
Una vez que la etapa de voz a texto produce una transcripción, el texto pasa a la traducción automática. El motor depende del plan del hablante:
- Plan gratuito: Google Cloud NMT (Neural Machine Translation) — rápido y fiable para los principales pares de idiomas. NMT es un modelo probado en producción, entrenado con miles de millones de oraciones paralelas, y maneja traducciones directas con baja latencia.
- Planes de pago (Starter, Pro, Max): DualModelTranslator — utiliza Google Cloud Translation LLM para aproximadamente 100 idiomas donde los modelos de lenguaje grandes producen resultados más naturales y contextuales, recurriendo a NMT para los pares restantes. La ventaja del LLM es real: maneja mejor las expresiones idiomáticas, los cambios de registro, la terminología especializada y el contexto a largo plazo que los enfoques estadísticos. Para pares más simples — español a portugués, por ejemplo — NMT es más rápido e igualmente preciso, por lo que el sistema enruta en consecuencia.
Gestión de 225 idiomas de salida
El sistema admite 225 idiomas de salida, divididos en dos niveles:
- 51 idiomas reciben audio completo. El texto traducido se sintetiza en voz mediante Google Cloud TTS y se entrega como flujo de audio en vivo.
- 174 idiomas adicionales reciben subtítulos de texto en vivo. La traducción es real y traducida — no transcrita — pero se entrega como texto desplazable en lugar de audio.
Los idiomas se activan bajo demanda. Cuando un oyente se une a una sesión y elige su idioma, el proceso crea un flujo de traducción para ese par origen-destino específico. Si nadie selecciona finés, no se genera traducción al finés — ni se consumen horas-idioma por ello. Consulta la lista completa de idiomas admitidos para la cobertura de audio y subtítulos.
Latencia en la etapa de traducción
La traducción automática es la etapa más rápida del proceso:
- NMT: típicamente 50–150 ms por fragmento de oración
- LLM: típicamente 100–300 ms por fragmento — mayor calidad para texto complejo, marginalmente más lento
Como la arquitectura de flujo continuo alimenta las transcripciones parciales a la traducción a medida que llegan, el sistema no espera una oración completa antes de traducir. Los resultados parciales se refinan a medida que hay más contexto disponible, lo que significa que el oyente recibe un flujo continuo de contenido traducido en lugar de una serie de ráfagas discretas.
Etapa 3: De texto a voz — dar voz a la traducción
Cómo funciona la síntesis TTS
Para los 51 idiomas de audio, el texto traducido pasa a Google Cloud TTS. El modelo genera una forma de onda de audio de sonido natural en el idioma de destino. Cada idioma tiene su propio modelo de voz ajustado a la fonología de ese idioma — el ritmo, la entonación y los patrones consonante-vocal que hacen que el habla suene natural en lugar de robótica.
El audio sintetizado se publica como una nueva pista de audio en el LiveKit SFU. Cada idioma obtiene su propia pista, independiente de las demás.
Entrega de audio a los oyentes
El mecanismo de entrega es WebRTC — el mismo protocolo utilizado para videollamadas, optimizado para medios en tiempo real de baja latencia. Cada oyente se suscribe a la pista de audio correspondiente a su idioma elegido. Sin mezcla, sin conmutación — el oyente escucha un flujo continuo en su idioma de principio a fin.
Los oyentes pueden unirse desde un teléfono, tablet o portátil. Para conocer la experiencia completa de la audiencia — cómo un oyente escanea un código QR, elige un idioma y se conecta — consulta cómo funciona la traducción por código QR.
El proceso completo en cifras
| Etapa del proceso | Tecnología | Latencia | Coste por hora-idioma |
|---|---|---|---|
| Voz a texto | Deepgram Nova-3 (flujo continuo) | 200–400 ms | ~$0.46 |
| Traducción | Google Cloud NMT / Translation LLM | 50–300 ms | ~$0.02–0.08 |
| Texto a voz | Google Cloud TTS | 100–200 ms | ~$0.79 |
| Entrega de audio | WebRTC vía LiveKit SFU | <100 ms | $0 (autoalojado) |
| De extremo a extremo | 350 ms–1 s | ~$1.27–$1.33 |
Dónde se acumula la latencia
La latencia de extremo a extremo tiene tres fuentes:
- Entrada de red — el tiempo que tarda el audio en viajar desde el navegador del hablante, a través del LiveKit SFU, hasta el agente de traducción. Esto depende de la conexión a internet del hablante, pero suele ser inferior a 100 ms en una conexión estable.
- Procesamiento — STT + traducción + TTS. Esta es la mayor parte del retraso: aproximadamente 350–900 ms dependiendo del par de idiomas y de si el sistema utiliza traducción NMT o LLM.
- Salida de red — el tiempo que tarda la pista de audio traducido en viajar desde el SFU hasta el dispositivo de cada oyente. De nuevo, típicamente inferior a 100 ms.
La latencia total de extremo a extremo para idiomas de audio suele situarse entre 0,5 y 1,0 segundos. Los idiomas con subtítulos de texto omiten completamente la etapa TTS, por lo que llegan más rápido — pero sin audio sintetizado. Para una comparación más detallada de la traducción por IA frente a la interpretación humana tradicional, consulta traducción en tiempo real frente a interpretación simultánea.
Por qué esto importa para los organizadores de eventos
Una latencia inferior a un segundo significa que los oyentes pueden seguir el discurso con naturalidad. No esperan incómodamente a que la traducción alcance el ritmo — escuchan la versión traducida lo suficientemente cerca del original como para que se preserve el ritmo de la charla. En la práctica, la mayoría de las audiencias reportan que un retraso constante de 0,5–1,0 segundos se percibe como una pausa natural y no como un retraso técnico.
225 idiomas significa que ningún miembro de la audiencia queda excluido. Ya sea que el evento atienda a una docena de idiomas o a doscientos, el mismo proceso los maneja a todos sin hardware adicional, personal ni tiempo de configuración.
El proceso funciona de forma continua durante horas sin fatiga — a diferencia de los intérpretes humanos, que rotan cada 20 minutos para mantener la precisión. Una conferencia de cuatro horas traducida a ocho idiomas ejecuta el mismo proceso de principio a fin, con calidad constante en todo momento.
El coste se basa en las pistas de idioma, no en el tamaño de la audiencia. Ya sea que 5 o 350 personas escuchen en francés, el coste es una hora-idioma por hora. Para un desglose completo del modelo de facturación, consulta el modelo de precios por hora-idioma.
Conclusión
La traducción de voz en tiempo real es un proceso de tres etapas — reconocer, traducir, sintetizar — que convierte la voz de un hablante en los idiomas de cientos de oyentes en menos de un segundo. Cada etapa es un modelo de IA probado en producción: Deepgram para el reconocimiento de voz, Google Cloud para la traducción y la síntesis de voz, WebRTC para la entrega. Los componentes no son experimentales. Funcionan a escala en entornos de producción cada día.
La tecnología está lo suficientemente madura para conferencias, ayuntamientos abiertos, aulas y transmisiones. No es un experimento de laboratorio — está funcionando en eventos hoy, entregando 225 idiomas con latencia inferior a un segundo a un coste de aproximadamente $1.30 por hora-idioma.
¿Quieres ver la traducción de voz en tiempo real en acción? Inicia una sesión gratuita — habla en cualquiera de 49 idiomas, tu audiencia escucha en 225. Sin configuración, sin tarjeta de crédito.