Un modelo de Inteligencia Artificial (IA) liderado por la compañía Meta es capaz de traducir voz y texto, incluidas traducciones directas de voz a voz, en hasta 101 idiomas distintos en algunos casos. El recurso se pondrá a disposición del público para uso no comercial, según los desarrolladores.
La compañía Meta, propietaria de las aplicaciones de redes sociales con mayor cantidad de usuarios a nivel global, ha concretado un nuevo avance en su intento por jugar fuerte en el terreno de la Inteligencia Artificial (IA): según un estudio publicado hoy por sus científicos en la revista Nature, ha logrado hacer realidad un modelo de IA capaz de traducir de forma instantánea de voz a voz. La herramienta es capaz de trabajar en hasta 101 idiomas diferentes.
El nuevo modelo, denominado SEAMLESSM4T, podría ser el punto de partida para una nueva revolución en las comunicaciones globales, ya que la empresa planea abrir la herramienta al público en general, siempre y cuando su uso sea no comercial. La mayor novedad de este recurso de IA sería la posibilidad de funcionar directamente en la modalidad voz a voz, algo poco habitual en gran parte de los traductores online de uso masivo.
Un gran avance para la comunicación multimedia en numerosos idiomas
Al mismo tiempo, los sistemas de traducción automática tienden a funcionar correctamente para idiomas que están ampliamente representados en Internet, como inglés, chino o español, pero en menor medida para otros idiomas con menos hablantes o menos datos digitales disponibles. Además, la traducción automática se ha limitado principalmente al texto escrito. El nuevo modelo implica un avance clave, al incluir la capacidad de traducir hacia y desde la voz, además del texto, y en una gran cantidad de idiomas diferentes.
Para resolver el problema de los datos disponibles, los especialistas que desarrollaron el nuevo modelo aplicaron un sistema de IA llamado SONAR, que es capaz de encontrar oraciones en línea, tanto escritas como habladas, que poseen significados muy similares, para luego emplear estas oraciones extraídas automáticamente como si fueran traducciones. Este enfoque permitió crear un conjunto de datos de entrenamiento de gran volumen, que fue vital para desarrollar un modelo de traducción robusto y confiable.
Traducción de voz a voz instantánea, pero no aún simultánea
Pero además de ofrecer una mayor cobertura idiomática con respecto a modelos previos, el desarrollo de Meta tiende a generar traducciones de mejor calidad, en aspectos como sonido, claridad y contenido. Vala aclarar igualmente que aunque este modelo representa un importante progreso en la traducción hablada, las traducciones a voz siguen siendo más complejas que generar una traducción escrita: el modelo puede generar texto traducido a 96 idiomas, pero actualmente solo puede producir una traducción hablada en 35 idiomas, aunque la tecnología promete ampliarse en el futuro.
Según indicó a Science Media Centre España la científica española Raquel Fernández, catedrática de Lingüística Computacional y Sistemas de Diálogo en la Universidad de Ámsterdam, en Países Bajos, quien no participó del estudio, “además de las limitaciones en la cantidad de idiomas soportados únicamente con voz, el habla producida automáticamente puede no siempre ser expresiva y natural. Si bien el modelo tiene el potencial de mejorar la comunicación multilingüe en muchos escenarios cotidianos, aún no permite la traducción en tiempo real o simultánea, es decir la traducción de una oración a medida que se produce”, aclaró Fernández.
Referencia
Joint speech and text machine translation for up to 100 languages. SEAMLESS Communication Team. Nature (2025).