Mucho hemos platicado y nos hemos sorprendido  de los avances brutales en Inteligencia Artificial (IA) que nos encontramos en los últimos meses. Ya sean imágenes que ganan concursos de arteretratos digitales o creadores de texto que nos podrían quitar el trabajo, estamos frente a un momento de locura total en la tecnología que, por supuesto, también tiene sus riesgos.

Y así fue que, hablando de softwares que nos dieron ñáñaras, queremos contarles de VALL-E.

Esta nueva IA desarrollada por Microsoft agarró de sorpresa al mundo porque es capaz de imitar la voz de cualquier persona. ¿Lo más impresionante? Solamente necesita 3 segundos de audio para lograrlo.

VALL-E, la IA que imita tu voz

Esta nueva aventura de Microsoft, se llama VALL-E y técnicamente es un software de TTS —text to speech— que, en resumen, es la versión más avanzada de cualquier otro programa del estilo. Es la evolución de la voz de Waze, el traductor de Google o como aquella que se llamaba Loquendo, de los años mozos de YouTube.

Sin embargo, los avances se centran en que, en lugar de tener una voz predeterminada, necesita solo 3 segundos para poder imitar a cualquier persona.

Además, como si eso no fuera suficiente, es capaz de identificar emociones y presentar grabaciones con la entonación correcta.

¿Cómo lo logra? Pues, sin meternos mucho en el enredo técnico, esta IA analiza cómo suena la persona dividiendo el audio en pequeños instantes que llama ‘tokens’. Con eso a la mano, VALL-E obtiene muestras de las ondas de sonido personales y utiliza su entrenamiento para ‘autocompletar’ —con esos mismos patrones— cualquier frase que le pidas.

Ya saben, usa IA para ‘imaginarse’ cómo sonaría la misma voz… pero con cualquier otra frase.

Volviendo al tema y para que se den una idea del tamaño de información con la que trabaja, VALL-E se entrenó con una base de datos de 60 mil horas de audio, con más de 7 mil voces diferentes. La mayoría de ellos, sacados de audiolibros de dominio público, todos gratuitos.

Las pruebas de VALL-E

La presentación de esta IA de Microsoft agarró al mundo de la tecnología por sorpresa. Entre la emoción, sus creadores hicieron un sitio en el que puedes escuchar casi 50 pruebas de audio distintas.

Algunas toman solo 3 segundos de una plática y crean una frase completamente distinta.

Otras veces, toman una sola frase y VALL-E modifica el audio para que la persona diga las cosas con tonos enojados, con sueño, divertidos o con asco. Está impresionante.