Microsoft ha mostrado sus últimas investigaciones en inteligencia artificial de texto a voz con un modelo llamado VALL-E que puede simular la voz de alguien a partir de una muestra de audio de sólo tres segundos, según las fuentes. La voz no sólo se ajusta al timbre, sino también al tono emocional del interlocutor e incluso a la acústica de una habitación. Algún día podría utilizarse para aplicaciones de texto a voz personalizadas o de gama alta, aunque, al igual que los deepfakes, conlleva riesgos de uso indebido.
VALL-E es lo que Microsoft llama un "modelo de lenguaje de códec neural". Se deriva de la red neuronal de compresión impulsada por IA Encodec de Meta, generando audio a partir de la entrada de texto y muestras cortas del hablante objetivo.
En un artículo, los investigadores describen cómo entrenaron a VALL-E con 60.000 horas de habla inglesa de más de 7.000 hablantes en la biblioteca de audio “LibriLight de Meta”. La voz que intenta imitar debe ser muy parecida a la de los datos de entrenamiento. Si es así, utiliza los datos de entrenamiento para deducir cómo sonaría el hablante de destino si pronunciara el texto deseado.
El equipo muestra exactamente cómo funciona esto en la página Github de VALL-E. Para cada frase que quieren que "pronuncie" la IA, tienen una indicación de tres segundos del hablante a imitar, una "verdad de base" del mismo hablante diciendo otra frase para comparar, una síntesis de texto a voz convencional de "línea de base" y la muestra de VALL-E al final.
Los resultados son variados: algunos suenan a máquina y otros son sorprendentemente realistas. El hecho de que conserve el tono emocional de las muestras originales es lo que convence a los que funcionan. También se ajusta fielmente al entorno acústico, de modo que, si el locutor grabó su voz en una sala con eco, la salida de VALL-E también suena como si procediera del mismo lugar.
Para mejorar el modelo, Microsoft planea ampliar sus datos de entrenamiento "para mejorar el rendimiento del modelo en todas las perspectivas de prosodia, estilo de habla y similitud del hablante". También está explorando formas de reducir las palabras poco claras o que se pasan por alto.
Microsoft ha decidido no hacer público el código, posiblemente debido a los riesgos inherentes a la IA que puede poner palabras en boca de alguien. Añadió que seguiría sus "Microsoft AI Principals" en cualquier desarrollo posterior. "Dado que VALL-E puede sintetizar el habla manteniendo la identidad del hablante, puede conllevar riesgos potenciales de uso indebido del modelo, como la falsificación de la identificación de la voz o la suplantación de identidad", escribió la empresa en la sección "Impactos más amplios" de sus conclusiones.