VALL-E de Microsoft puede replicar cualquier voz en tres segundos

Juan Cascón Baños

hace 2 años

Etiquetas: microsoft

VALL-E de Microsoft puede replicar cualquier voz en tres segundos. Microsoft lo apuesta todo a la IA: VALL-E es el hermano de ChatGPT para imitar voces en tres segundos. Microsoft acaba de lanzar una herramienta de inteligencia artificial llamada VALL-E, que puede replicar la voz de cualquier persona con solo una grabación de 3 segundos de una voz específica. La herramienta fue entrenada con 60,000 horas de datos de habla inglesa y tiene la capacidad de replicar las emociones y el tono de un orador, incluso cuando crea una grabación de palabras que el orador original nunca dijo.

Esto es un gran avance en el campo de la generación de habla por IA, ya que los modelos anteriores solo podían reproducir la voz, pero no las emociones o el tono del hablante. Es importante tener en cuenta las implicaciones éticas de esta tecnología, ya que podría abrir la puerta a llamadas de spam realistas que reproduzcan las voces de personas reales que una víctima potencial conozca y también podría suplantar la identidad de políticos y otros personajes públicos, lo que podría dar lugar a la difusión de información falsa en las redes sociales. Hay problemas de seguridad también, como la verificación de identidad de las personas que llaman a los bancos, podría volverse más difícil de detectar si la persona que llama está utilizando una voz VALL-E generada. Así mismo podría afectar a los actores de doblaje, ya que sus servicios podrían dejar de ser necesarios si las voces generadas por IA se vuelven más realistas o tener la voz de una persona muerta.

De momento está en ingles pero esta tecnología promete para cualquier idioma en un futuro.

Las tecnologías de inteligencia artificial se están desarrollando a una velocidad increíble. Después de los modelos de IA que pueden crear imágenes a partir de tus palabras y conversar contigo, ahora Microsoft ha desarrollado VALL-E, una IA que puede imitar cualquier sonido que escuche en tan solo tres segundos. A diferencia de muchas herramientas de inteligencia artificial, VALL-E puede replicar las emociones y el tono de un hablante, incluso cuando crea una grabación de palabras que el hablante original nunca dijo. Aquí están los detalles…

Su nombre es VALL-E, y se trata de un modelo de lenguaje para la síntesis de texto a voz (TTS). Microsoft promete que tan solo necesita tres segundos de grabación de audio para que el sistema sea capaz de imitar la voz de la misma.

Microsoft deja claro en su web que VALL-E no solo se constituye por sí solo como un modelo de síntesis de voz a texto, sino que engloba aplicaciones de síntesis de voz que se pueden combinar con otros modelos ya conocidos en el mercado, como el ya famoso GPT-3. Eso incluye creación de contenido, edición de voz y aplicaciones de síntesis de voz zero-shot.

Los ejemplos que muestra Microsoft son sencillamente espectaculares. En ellos, nos muestra cuál ha sido la entrada de audio que se ha tomado como base, los pasos intermedios y el resultado final de VALL-E. El modelo no solo es capaz de imitar la voz, sino la propia cadencia original del lenguaje y el tono original con el que se ha grabado la entrada de voz.

Microsoft asegura que también es capaz de mantener las emociones en las muestras de voz originales muestreando indicaciones de audio en una base de datos de voces emocionales. Por otro lado, en las etapas previas de entrenamiento, los responsables de VALL-E escalaron los datos de entrenamiento de síntesis de voz a texto a 60.000 horas de habla en inglés, superando en palabras de Microsoft a los otros sistemas TTS zero-shot ya existentes en el mercado.

VALL-E: La herramienta de IA que puede replicar cualquier voz

La visión general de VALL-E. A diferencia del canal anterior (p. ej., fonema → espectrograma de mel → forma de onda), el canal de VALL-E es fonema → código discreto → forma de onda. VALL-E genera los códigos discretos de códec de audio basados en indicaciones de fonemas y códigos acústicos, correspondientes al contenido de destino y la voz del hablante. VALL-E habilita directamente varias aplicaciones de síntesis de voz, como TTS de tiro cero, edición de voz y creación de contenido combinado con otros modelos generativos de IA como GPT-3

Microsoft lanzó recientemente una herramienta de inteligencia artificial conocida como VALL-E que puede replicar las voces de las personas. La herramienta utiliza solo una grabación de 3 segundos de una voz específica como indicación para generar contenido y se entrenó con 60 000 horas de datos de habla en inglés. El modelo de IA es capaz de replicar las emociones y el tono de un hablante, incluso al crear una grabación de palabras que el hablante original nunca dijo.

Este es un avance significativo en el campo del habla generada por IA , ya que los modelos anteriores solo podían replicar la voz, pero no las emociones o el tono del hablante. Un artículo de la Universidad de Cornell usó VALL-E para sintetizar varias voces, y algunos ejemplos del trabajo están disponibles en GitHub. Si bien las muestras de voz compartidas por Microsoft varían en calidad, algunas suenan naturales, mientras que otras son claramente generadas por máquinas y suenan robóticas. Sin embargo, a medida que la tecnología de IA continúa mejorando, es probable que las grabaciones generadas se vuelvan más convincentes.

Sin embargo, existen preocupaciones sobre las implicaciones éticas de esta tecnología. A medida que la inteligencia artificial se vuelva más poderosa, las voces generadas por VALL-E y tecnologías similares se volverán más convincentes, lo que podría abrir la puerta a llamadas de spam realistas que replican las voces de personas reales que una víctima potencial conoce. También se podría suplantar a políticos y otras figuras públicas, lo que podría conducir a la difusión de información falsa en las redes sociales.

Además, hay preocupaciones de seguridad. Algunos bancos usan tecnología de reconocimiento de voz para verificar la identidad de una persona que llama, pero si las voces generadas por IA se vuelven más convincentes, podría ser más difícil detectar si una persona que llama está usando una voz VALL-E. Además, la tecnología también puede afectar a los actores de voz, ya que es posible que sus servicios ya no sean necesarios si las voces generadas por IA se vuelven más realistas.

VALL-E es una impresionante herramienta de IA que tiene el potencial de revolucionar el campo de la síntesis de voz. Sin embargo, también plantea varias preocupaciones éticas y de seguridad. Será importante que empresas como Microsoft desarrollen medidas para regular el uso de VALL-E para garantizar que se utilice para el bien y no con fines maliciosos.

. Leer artículo completo en Frikipandi VALL-E de Microsoft puede replicar cualquier voz en tres segundos.

VALL-E: La herramienta de IA que puede replicar cualquier voz

Entradas recientes para VALL-E de Microsoft puede replicar cualquier voz en tres segundos