Cuando piensas en asistentes de voz como Alexa de Amazon y Siri de Apple, las palabras “emocional” y “expresiva” probablemente no te vengan a la mente. En cambio, está esa voz reconociblemente plana y educada, desprovista de todo afecto, lo cual está bien para un asistente, pero no funcionará si desea usar voces sintéticas en juegos, películas y otros medios narrativos.
Es por eso que una startup llamada Sonantico está tratando de crear una IA que pueda llorar de manera convincente y transmitir “profundas emociones humanas”. La startup con sede en el Reino Unido anunció el mes pasado que había recaudado 2,3 millones de euros en fondos liderados por EQT Ventures, y hoy lanza un video que muestra de lo que es capaz su tecnología.
Puedes juzgar los resultados por ti mismo en el siguiente video; Sonantic dice que todas las voces fueron creadas por su tecnología. Personalmente, no estoy seguro si diría que las interpretaciones son intercambiables con un actor de doblaje humano talentoso, pero ciertamente son más impresionantes que cualquier cosa sintética que haya escuchado antes.
El producto real de Sonantic es un editor de audio que ya está probando con los creadores de juegos. El editor incluye una variedad de diferentes modelos de voz, y la cofundadora y directora ejecutiva, Zeena Qureshi, dijo que esos modelos se basan y se desarrollan con actores de voz reales, quienes luego pueden compartir las ganancias.
“Profundizamos en los detalles de la voz, los matices de la respiración”, dijo Qureshi. “Esa voz en sí necesita contar una historia”.
El cofundador y director de tecnología, John Flynn, agregó que los estudios de juegos son un punto de partida obvio, ya que a menudo necesitan grabar decenas de miles de líneas de diálogo. Esto podría permitirles iterar más rápidamente, dijo, alterar las voces para diferentes circunstancias en el juego (como cuando un personaje está corriendo y debería sonar como si estuviera sin aliento) y evitar la tensión de voz cuando se supone que los personajes deben hacerlo. cosas como llorar o gritar.
Al mismo tiempo, Flynn proviene del mundo de la posproducción de películas y sugirió que la tecnología se aplica a muchas industrias más allá de los juegos. El objetivo no es reemplazar a los actores, sino explorar nuevos tipos de oportunidades para contar historias.
“Mira cuánto la tecnología CGI ha apoyado las películas de acción en vivo”, dijo. “No es un uno o el otro. Una nueva tecnología te permite contar nuevas historias de una manera fantástica”.
Sonantic también me puso en contacto con Arabella Day, una de las actrices que ayudó a desarrollar los modelos de voz iniciales. Day recordó haber pasado horas grabando diferentes líneas y finalmente recibir una llamada telefónica de Flynn, quien procedió a reproducirle una versión sintetizada de su propia voz.
“Le dije: ‘¿Soy yo? ¿Grabé eso? ella recordó.
Ella describió el trabajo con Sonantic como “una verdadera asociación”, en la que proporciona nuevas grabaciones y comentarios para mejorar continuamente el modelo (aparentemente, su último trabajo involucra acentos estadounidenses). Dijo que la compañía quería que se sintiera cómoda con la forma en que se podría usar su voz, e incluso le preguntó si había alguna compañía que quisiera incluir en la lista negra.
“Como actor, no estoy pensando en absoluto que el futuro de la actuación sea la IA”, dijo Day. “Espero que este sea un componente de lo que estoy haciendo, una posible ventaja adicional que tengo”.
Al mismo tiempo, dijo que existen preocupaciones “legítimas” en muchos campos acerca de que la IA reemplace a los trabajadores humanos.
“Si va a ser el futuro del entretenimiento, quiero ser parte de él”, dijo. “Pero quiero ser parte de eso y trabajar con eso”.
Source link