La inteligencia artificial llega al ‘podcast’

No son pocas las series televisivas que, en los últimos tiempos, tienen a grandes empresas tecnológicas como centros narrativos de sus tramas. Si en Devs (la serie de HBO) era Amaya, una compañía que cuenta con un departamento privado de innovación llamado Devs y en cuyo interior trabaja gente desarrollando un algoritmo cuántico, en Homecoming –la serie de Amazon basada en el podcast de Gimlet Media de la que ya hablamos en este blog–, la trama se despliega en Geist Group, una gran corporación que ayuda a los soldados estadounidenses a hacer la transición a la vida como civiles. La última en sumarse a la nómina de compañías tecnológicas demiurgas es Horizen Lakeview, la empresa ficticia de la serie Upload que en el año 2033 puede lograr que los humanos suban a un “cielo digital”, cargándose una vida futura virtual a su elección. Todas estas series tienen en común el empleo del futuro como excusa narrativa, pero como sucede más veces de las que creemos, el formato podcast ensayó con antelación estas historias que encuentran su mayor simbolismo en una de las tendencias más relevantes del futuro: la voz.

Asistentes de voz como protagonistas

La ingeniosa premisa del podcast de ficción Sandra (también en Gimlet) tiene a un asistente virtual como protagonista. A través de siete episodios, seguimos las andanzas de Helen en Orbital Teledynamics, un gigante corporativo tecnológico que fabrica el asistente virtual favorito del país: Sandra, una suerte de Alexa, Aura o Siri ficticia. Sin desvelar nada sustancial podemos decir que Sandra no es un robot al servicio de la humanidad, sino una horda de personas reales que se hacen pasar por una entidad virtual omnisciente. Orbital tiene un edificio completo de trabajadores, asignados a diferentes especialidades para responder a los usuarios de Sandra. La voz de la asistente virtual pertenece a Kristen Wiig, a la que adornan con un ligero tono maquinal.

El argumento de un humano enamorándose de una voz lo instauró con especial acierto en el cine Spike Jonze con su film Her, en el que la sensual, divertida y compasiva voz de Scarlett Johansson interpretaba a un sistema operativo con un avanzado modelo de inteligencia artificial llamado Samantha. En el libro Lo imprevisible (Planeta), Marta García Aller cuenta que el ingeniero jefe de Apple le confesó que cada vez había más gente que se enamoraba de Siri. En Apple, por tanto, ya hay un equipo trabajando en desarrollar nuevas capacidades para Siri, de manera que se transformará de una asistente a una compañera emocional.

Tal vez inspirado por todas estas historias, el escritor Manuel Bartual acaba de lanzar Biotopía, una ficción sonora con apariencia de boletín informativo en la que comenzó a trabajar durante el confinamiento: “Biotopía es un centro de investigación y desarrollo tecnológico avanzado en el que la materia, el tiempo y el espacio se comportan de un modo extraño. En realidad es una ficción sonora. Hablando una noche con la actriz Nikki García mientras cenábamos por Skype, se nos ocurrió que podíamos preparar un podcast para tener la cabeza ocupada con algo en aquellos días, así que me puse a pensar en cómo podría ser ese podcast, aprovechando que ella tenía medios para grabarse desde casa y luego yo podía editar todo desde la mía”. Biotopía es un proyecto que nace de ciertas limitaciones y hacen de ellas una virtud narrativa. Por ejemplo, para incorporar otras voces a Biotopía, Bartual fue utilizando el recurso de las llamadas telefónicas, lo que ha permitido que el resto de actores y actrices que han participado se graben también desde sus casas, utilizando la mayoría sus teléfonos móviles. En el primer capítulo, además de Nikki García ejerciendo de presentadora del boletín informativo, están también Ingrid García-Jonsson, Olga Aguirre, Julián Génisson, Javi Rojo y Claudio Serrano.

Una de las peculiaridades de Biotopía es la utilización de voces algorítmicas: “Hemos utilizado una aplicación de lectura de textos que te permite elegir entre diferentes voces. Uno de los personajes de Biotopía es AmaIA, una inteligencia artificial desarrollada por un equipo de ciencias del entretenimiento cuyo último trabajo es Dentro de Biotopía, una serie sobre el origen de esta comunidad científica”.

En el año 2018, Google presentaba Google Duplex, una nueva tecnología que permitía al asistente virtual de Android realizar llamadas telefónicas para hacer reservas y pedir citas. Allí mismo hicieron una demostración: una conversación real entre su inteligencia artificial y una peluquería. La persona que respondía no se percató en ningún momento que su interlocutora no era humana. Un artículo de Axios ponía en duda que esas llamadas fueran reales. Por ejemplo, atendiendo al paisaje sonoro, en aquella llamada no había ningún tipo de ruido ambiental. Ni secadores, ni conversaciones. Además, Axios llamó a más de dos docenas de peluquerías y restaurantes, y todos dieron el nombre comercial inmediatamente al responder la llamada. ¿Por qué la peluquería de la demostración de Google no lo hizo? La respuesta no la sabemos pero, sin duda, aquel experimento hizo cuestionarse algo esencial: ¿cómo de importante puede llegar a ser la inteligencia artificial aplicada a los contenidos creativos, por ejemplo, en la voz para un podcast? “En el caso de Biotopía no hemos buscado un tipo de voz demasiado sofisticada, porque la idea es que resulte evidente que esas voces no son humanas, pero es cierto que ya estamos en un momento en el que puedes generar una voz que engañe a la mayoría de oídos. Yo por ahora, después de esta primera experiencia, es un recurso que veo como un complemento, una herramienta más, pero al ritmo que evoluciona esta tecnología estoy convencido de que muy pronto será mucho más que eso”, concluye Bartual.

El futuro de la voz

A la voz y sus enormes posibilidades tecnológicas y sociales han dedicado dos episodios los creadores de Catástrofe Ultravioleta, el podcast de divulgación científica que ganó el Premio Ondas en el año 2017 al mejor programa online. Han regresado en plena pandemia para firmar dos de los episodios más completos acerca de la relación entre inteligencia artificial y voz: “La voz era un tema que teníamos pendiente desde la primera temporada, cuando grabamos con un coro una de las promos del podcast. Nos apetecía explorar la idea de que el cuerpo humano es un instrumento musical, jugar con los sintetizadores de Javi Álvarez, técnico y diseñador sonoro, y tirando del hilo empezamos a adentrarnos en un mundo tecnológico fascinante, de posibles suplantaciones, reconstrucciones de voces perdidas, etc”, explica Antonio Martínez Ron, la voz que presenta este podcast junto a Javier Peláez.

A través de un doble episodio, Martínez Ron y Peláez abordan la relación entre inteligencia artificial y voz desde dos perspectivas muy diferenciadas: “El primer capítulo está muy centrado en la posibilidad de que alguien un día confunda tu voz con la de otro. También en las técnicas de lingüística forense que se aplican en muchos juicios para determinar a quién pertenece una muestra de audio. Pero también apuntamos a la posibilidad de aplicar la tecnología que ya se usa para hacer deepfakes para suplantar nuestra voz. Y el segundo episodio es el reverso amable y divertido de todo eso, el de la tecnología que te permite generar una voz artificial para componer canciones o para ayudar a personas que han perdido la posibilidad de expresarse por enfermedad”, concluye Antonio.

Tras la covid-19, la utilización de aplicaciones de voz y vídeo han crecido exponencialmente, pero ¿de qué manera puede afectar a nuestra identidad? “Ya hay grandes compañías almacenando nuestras voces y aplicando programas de reconocimiento cuyo uso podría tener consecuencias para nuestra privacidad y seguridad en el futuro. Las posibilidades que ofrece la tecnología son enormes, desde tener tu propio avatar de voz para que se encargue de hacer la compra por ti o pedir cita en la peluquería pero, al mismo tiempo, aumenta el riesgo de que alguien copie tu voz y acceda a servicios en tu nombre o te meta en un buen lío”, detalla Martínez Ron.

Aunque a muchos todo esto les pueda sonar a ciencia ficción, lo cierto es que la primera voz sintética se remonta muy atrás: “Puede que al siglo XVIII, cuando médico alemán Christian Gottlieb Kratzenstein desarrolló una máquina neumática, un mecanismo que cabía en una caja, que pronunciaba las vocales como si fuera un humano. Mucho más adelante, ya en el siglo XX, nos encontramos con el Vocoder de AT&T, una especie de versión computerizada y con cables de aquellos primeros órganos vocálicos. Y en 1961, los Laboratorios Bell hicieron una demostración histórica de su tecnología de síntesis de voz, con un ordenador IBM 7094 que cantaba la canción Daisy Bell. Se dice que aquel día estaba Arthur C. Clarke entre los asistentes a la demostración y los cinéfilos recordarán que Daisy Bell es la misma canción que canta HAL al final de la película 2001: Una odisea en el espacio. Y así se cierra ese pequeño círculo friqui de la voz sintetizada, ¡pero hay muchos detalles más que contamos en estos dos capítulos!”, concluye uno de los tres fundadores de Catástrofe Ultravioleta.

Reconstruir las voces del pasado

La reconstrucción de voces del pasado es otra de la variantes más interesantes que, sobre todo, puede aplicarse a la historia. Hay algunos científicos que han llegado a reconstruir voces a partir de las estructuras anatómicas de momias egipcias o de Ötzi, el famoso Hombre de hielo. Para Martínez Ron, por ahora, es sólo un divertimento, “pero hay una parte científica muy interesante, como el intento de conocer, por ejemplo, si los primeros humanos tenían ya capacidad de hablar y cómo lo hacían, a partir de sus restos fósiles”.

Y si hablamos de reconstrucciones de voz aplicadas al formato podcast, probablemente, uno de los últimos ejemplos es XRey, el podcast producido por The Story Lab, distribuido por Spotify, dirigido y narrador por Álvaro de Cózar y con producción de Toni Garrido. Este documental sonoro es una radiografía exhaustiva de la vida del rey Juan Carlos I. “En el podcast hemos usado inteligencia artificial para hacer la síntesis dela voz de un personaje. En este caso, Franco. La idea surgió cuando quisimos reproducir la carta que este envió a don Juan en el episodio 4. Podíamos haberla leído solamente o podíamos haber pedido a un actor o a un imitador que la leyera, pero surgió esta idea que nos abría un campo enorme, no solamente para este podcast, sino quizá para nuevos proyectos”, explica De Cózar. Le hicieron el encargo a Vicomtech, un centro tecnológico en el País Vasco, y hay un capítulo extra en la serie en el que se cuenta cómo se hizo la reconstrucción.

Álvaro de Cózar coincide con Martínez Ron en que el riesgo también puede ser evidente: “Lo importante es que el oyente sepa lo que estás haciendo. Si avisas antes de que lo que va a escuchar es la síntesis de la voz de Churchill leyendo sus memorias no estás engañando a nadie. Si, por el contrario, haces que diga cosas que nunca dijo y no avisas, pues entras en un terreno con un montón de problemas éticos. Supongo que el éxito de esta herramienta para hacer podcast dependerá de cómo se resuelvan esos conflictos”, finaliza Álvaro de Cózar.

La idea de escuchar un podcast completo cuyo host sea una voz no humana no es algo descabellado. James Ryan, un estudiante de la Universidad Santa Cruz de California, presentó esta idea como parte de su tesis doctoral. El podcast se llama Condado de Sheldon. Tiene como anfitrión y creador a un programa de inteligencia artificial llamado SHELDON, cuyo objetivo es examinar las experiencias de los personajes que viven dentro de los condados estadounidenses en el año 1840 y crear historias narrativas basadas en sus experiencias. Se trata casi de un podcast infinito, pues sus tramas están generadas automáticamente por un software. Los personajes de estos condados tienen sus propias vidas y toman sus propias decisiones. Interactúan entre sí e incluso poseen objetivos y sistemas de valores únicos. SHELDON luego convierte estas historias en un podcast narrativo, inspirado en claramente en Twin Peaks. El futuro está mucho más cerca de lo que imaginamos. También el mundo del podcast.

Source link