OpenAI puede recrear voces humanas, pero aún no lanzará la tecnología

Corina GuzmanMar 30, 2024

La síntesis de voz ha recorrido un largo camino desde el juguete Speak & Spell de 1978, que alguna vez cautivó a la gente con su capacidad avanzada para leer palabras en voz alta a través de una voz electrónica. Ahora, utilizando modelos de inteligencia artificial de aprendizaje profundo, el software puede crear no solo voces realistas, sino que también puede imitar de manera convincente voces existentes utilizando pequeñas muestras de audio.

En esta línea, OpenAI anunció esta semana Voice Engine, un modelo de conversión de texto a voz con IA para crear voces sintéticas basadas en un segmento de audio grabado de 15 segundos. Ha proporcionado muestras de audio del Voice Engine en acción en su sitio web.

Una vez que se clona una voz, un usuario puede ingresar texto en Voice Engine y obtener una salida de voz generada por IA. Pero OpenAI no está listo para lanzar ampliamente su tecnología. Inicialmente, la compañía planeó lanzar un programa piloto para que los desarrolladores se registraran en la API Voice Engine a principios de este mes. Pero después de considerar más a fondo las implicaciones éticas, la empresa decidió reducir sus ambiciones por ahora.

«De acuerdo con nuestro enfoque sobre la seguridad de la IA y nuestros compromisos voluntarios, elegimos mirar hacia el futuro pero no lanzar ampliamente esta tecnología en este momento», escribe la compañía. «Esperamos que esta vista previa de Voice Engine resalte su potencial y también motive la necesidad de fortalecer la resiliencia de la sociedad frente a los desafíos que plantean los modelos generativos cada vez más convincentes».

La tecnología de clonación de voz en general no es particularmente nueva: ha habido varios modelos de síntesis de voz con IA a partir de 2022 y la tecnología está activa en la comunidad de código abierto con paquetes como OpenVoice y XTTSv2. Pero la idea de que OpenAI esté avanzando hacia permitir que cualquiera use su marca particular de tecnología de voz es notable. Y en cierto modo, la renuencia de la compañía a lanzarlo por completo puede ser la historia más importante.

OpenAI dice que los beneficios de su tecnología de voz incluyen brindar asistencia de lectura a través de voces que suenan naturales, permitir a los creadores llegar al mundo traduciendo contenido mientras preservan los acentos nativos, apoyar a las personas no verbales con opciones de habla personalizadas y ayudar a los pacientes a recuperar su propia voz después. condiciones que perjudican el habla.

Pero también significa que cualquier persona con 15 segundos de la voz grabada de alguien puede clonarla efectivamente, lo que tiene implicaciones obvias para un posible uso indebido. Incluso si OpenAI nunca lanza ampliamente su motor de voz, la capacidad de clonar voces ya ha causado problemas en la sociedad a través de estafas telefónicas en las que alguien imita la voz de sus seres queridos y llamadas automáticas de campañas electorales con voces clonadas de políticos como Joe Biden.

Además, investigadores y periodistas han demostrado que la tecnología de clonación de voz se puede utilizar para iniciar sesión en cuentas bancarias que utilizan autenticación de voz (como el Voice ID de Chase), lo que incitó al senador estadounidense Sherrod Brown de Ohio, presidente del Comité Bancario del Senado de Estados Unidos. , Vivienda y Asuntos Urbanos, enviar una carta a los directores ejecutivos de varios bancos importantes en mayo de 2023 para preguntarles sobre las medidas de seguridad que están tomando los bancos para contrarrestar los riesgos de trabajar con IA.

OpenAI reconoce que la tecnología podría causar problemas si se lanza ampliamente, por lo que inicialmente está tratando de solucionar esos problemas con un conjunto de reglas. Ha estado probando la tecnología con un grupo selecto de empresas asociadas desde el año pasado. Por ejemplo, la empresa de síntesis de vídeo HeyGen ha estado utilizando el modelo para traducir la voz de un hablante a otros idiomas manteniendo el mismo sonido vocal.

Source link