OpenAI presentó Voice Engine, un nuevo modelo de Inteligencia Artificial (IA) capaz de clonar la voz de las personas con una muestra de audio de 15 segundos.
Además, este nuevo avance permite leer indicaciones de texto con dicha voz en varios idiomas, con resultados naturales.
La compañía trabaja en nuevas herramientas y modelos de IA de cara a proseguir con su compromiso de “comprender la frontera técnica y compartir abiertamente lo que es posible con la IA”.
VOICE ENGINE PERMITE CREAR VOCES PERSONALIZADAS
En este sentido, OpenAI dio a conocer Voice Engine, un modelo de IA diseñado para crear voces personalizadas utilizando entrada de texto y una única muestra de audio de 15 segundos.
Con esto, se puede conseguir un habla con sonido natural que se parece mucho al hablante original”. Según indicó la compañía, comenzaron a desarrollar este modelo a finales de 2022.
Por el momento, Voice Engine es un modelo a pequeña escala usado para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz, en ChatGPT Voice y Read Aloud.
UNA VISTA PREVIA PARA LOS SOCIOS DE CONFIANZA
Sin embargo, al mismo tiempo, también han desarrollado este nuevo modelo con un enfoque de investigación, para comprender mejor los usos potenciales de esta tecnología.
Para ello, lanzaron una vista previa a la que han tenido acceso a algunos socios “de confianza”.
Como resultado de esta vista previa, OpenAI destacó que, hoy, Voice Engine es capaz de crear voces “emotivas y realistas” con una sola muestra de 15 segundos de audio de la voz del hablante.
Esto, de acuerdo a lo detallado, es capaz de hacerlo a pesar de que se trata de un modelo pequeño.
RESPUESTAS PERSONALIZADAS EN TIEMPO REAL
Siguiendo esta línea, los resultados de estas pruebas revelaron que Voice Engine tiene distintas aplicaciones.
Entre ellas, están la de dar asistencia de lectura a través de voces que suenan naturales, así permite representar una gama más amplia de hablantes de lo que permiten las voces preestablecidas.
Por ejemplo, para el ámbito académico, permite generar respuestas personalizadas en tiempo real para interactuar con los estudiantes.
TRADUCIR CONTENIDOS EN VARIOS IDIOMAS GRACIAS LA IA
También es un modelo útil para traducir contenido como vídeos o pódcast, para que los creadores de contenido puedan llegar a más usuarios y en varios idiomas, pero usando su propia voz.
Esto es posible porque Voice Engine conserva el acento nativo del hablante original.
A raíz de esto, según ejemplificó OpenAI, si un usuario francés habla en inglés, el modelo generará traducciones manteniendo el acento francés en el audio.
VOICE ENGINE ES ÚTIL EN ENTORNOS LABORABLES
De la misma forma, Voice Engine también es útil en entornos laborales, desde labores de marketing de productos hasta, por ejemplo, demostraciones de ventas.
Todo esto, con la posibilidad de desarrollar contenido en cualquier idioma.
Respecto al entorno sanitario, OpenAI ha indicado que el modelo dispone de aplicaciones terapéuticas para usuarios con afecciones que afectan al habla.
UN FIN SALUDABLE
Por ejemplo, para ayudar a los usuarios en el aprendizaje del habla a la hora de recuperar la voz o para permitir la comunicación de personas con discapacidad utilizando voces no robóticas.
Existen diversos socios con acceso a esta vista previa de Voice Engine.
Entre ellos se encuentran la compañía educativa Age of Learning, la plataforma de narración visual HeyGen, y el fabricante de ‘software’ de salud Dimagi.
También puede contemplarse el desarrollador de aplicaciones de comunicación de IA Livox.
SEGURIDAD FRENTE AL USO DE VOCES SINTÉTICAS
A pesar de todo ello, OpenAI reflexionó que cualquier implementación amplia de voz sintética “debe ir acompañada de experiencias de autenticación de voz”.
Para ello, ha detallado una serie de medidas de seguridad que actualmente utilizan con Voice Engine.
Como forma de protección, OpenAI señaló que los socios que probaron esta versión de vista previa aceptaron políticas de uso en las que se prohíbe suplantar otra persona sin derecho legal.
DEBE ESTAR CLARO QUE LAS VOCES SE GENERAN CON IA
Asimismo, se debe señalar “claramente” a la audiencia que las voces están generadas por IA. Por su parte, el hablante original debe dar su consentimiento explícito para el uso de su voz.
A esto se añade que OpenAI no permite que los desarrolladores creen formas para que los usuarios individuales creen sus propias voces, según ha detallado.
“Reconocemos que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos”, ha admitido la compañía dirigida por Sam Altman.
OPENAI ESPERA UN DIALOGO SOBRE LAS VOCES SINTÉTICAS
A su vez, se adelantó que están colaborando con socios internacionales, medios de comunicación y entretenimiento y profesionales de la educación para tomar sus comentarios del modelo.
Con todo ello, OpenAI destacó que, con Voice Engine, esperan iniciar un diálogo sobre “el despliegue responsable de voces sintéticas”.
APLICAR ESTA TECNOLOGÍA A ESCALA
Además apuntan a dialogar sobre cómo se han de utilizar y cómo ha de adaptarse la sociedad a estas nuevas capacidades.
En base a ello, y junto con los resultados de sus pruebas a pequeña escala, la compañía apuntó que tomará una decisión sobre si aplicar esta tecnología a escala en un futuro y cómo hacerlo.
Fuente: EP.