- Alexa de Amazon pronto podrá hablarte con voces personalizadas, como la voz de tu abuela muerta.
- Es una hazaña de la tecnología de síntesis de voz, que ha existido por un tiempo, pero ahora está ganando el favor de las grandes empresas.
- Sin embargo, esta eternidad vocal conlleva ciertos riesgos, desde el fraude bancario hasta poner palabras en boca de figuras influyentes fallecidas.
En un futuro muy cercano, el famoso asistente de voz de Amazon, Alexa, puede sonar bastante diferente de la voz obediente (e impersonal) a la que te has acostumbrado desde que se lanzó en 2014. De hecho, la voz del asistente digital basado en la nube puede rebotar. de las paredes de su cocina con la voz de su difunta abuela, cónyuge, mejor amigo o incluso Elvis Presley.
Al menos, eso es lo que anunció Rohit Prasad, vicepresidente sénior de Amazon y científico jefe de Alexa, en la conferencia re:MARS de Amazon, un evento global de inteligencia artificial (IA) que el fundador y presidente ejecutivo de Amazon, Jeff Bezos, organizó durante el verano. Con solo una muestra de audio de un minuto, la tecnología podría hacer que la voz de un ser querido salte a través de los parlantes de un dispositivo Echo.
Prasad usó una breve presentación para mostrar a la audiencia cómo la nueva tecnología de sintetizador de voz podría ayudarnos a forjar recuerdos duraderos de nuestros familiares fallecidos. “Alexa, ¿puede la abuela terminar de leerme? ¿El mago de Oz?” Preguntó un niño a un lindo altavoz Echo con grandes ojos de panda. “Está bien”, respondió Alexa con su voz típica. Entonces, la “abuela” del niño comenzó a narrar la clásica novela infantil. Prasad no dijo exactamente cuándo se implementaría esta función y no hubo más detalles sobre cómo funcionaría.
Más Contenido del Mecánica Popular
Los sintetizadores de voz robóticos han existido por un tiempo, pero realmente no se abrieron paso en la cultura pop hasta la década de 1980, cuando el físico teórico Stephen Hawking comenzó a usar el suyo. Para crear voz sintetizada, encadena piezas de voz grabada que se almacenan en una base de datos. “Amazon, en concreto, está utilizando un banco de audio que ya tienen para construir un modelo base. Luego, van a adaptar el modelo base en consecuencia”, dice Lee Mallon. Mecánica Popular. Mallon es un desarrollador de aplicaciones que ha trabajado en proyectos para los servicios de voz de Alexa y es el fundador de voiceOK, una aplicación que conserva historias grabadas leídas en voz alta por sus seres queridos.
“Digamos que hablas inglés. Están utilizando datos de miles y miles o más de personas que hablan inglés como el tipo de modelo de lenguaje base, y luego le agregan su huella digital de voz, generando su voz sintética en unos pocos minutos”, explica Mallon. Su huella digital de voz es su voz genuina, con todas sus características únicas (piense: biometría de voz).
Una lata de gusanos ética
Sin embargo, el hecho de que Amazon solo tarde un minuto en reconstruir la voz de una persona no refleja toda una vida de emociones. “¿Será capaz la persona de decir una oración en un estado de horror o excitación y reírse al mismo tiempo?” pregunta Mallón. En otras palabras, ¿contendrá el clip de 60 segundos cada inflexión de la voz de la persona? Mallon cree que en los pocos casos exitosos en los que la voz sintetizada logra capturar las microemociones del original, el resultado podría ayudar enormemente a una persona a procesar el duelo.
Sin embargo, en la mayoría de los casos, el producto final puede ser decepcionante, si no francamente inquietante, al menos hasta que la tecnología progrese lo suficiente como para borrar los límites entre la voz real y la sintética. “La voz sintética aún está a cinco o seis años de ser indistinguible de la real”, dice Mallon. Sin mencionar que, en su estado incipiente actual, la síntesis de voz podría abrir una gran lata de gusanos ética.
En febrero de 2021, por ejemplo, un deepfake de la estrella de Hollywood Tom Cruise arrasó en TikTok. “Cruise” mostró su colección de CD y tocó una canción de Dave Matthews Band en la guitarra. Hubo una inquietud sobre la similitud de la pieza de medios falsa en comparación con la realidad que alarmó a muchos usuarios de TikTok: ¿qué pasa si alguien usa una imagen falsa (o de audio) de nosotros para representar una escena vergonzosa y difundir los medios sintéticos en Internet?
Pero las cosas tampoco mejoran con la muerte, ya que la tecnología deepfake podría no dejarnos descansar en paz. Teóricamente, cualquier persona con acceso a nuestros datos, como tweets, mensajes de Facebook, notas de voz y correos electrónicos, podría resucitar virtualmente nuestra imagen a través de un deepfake, un avatar o un chatbot sin que nosotros hubiéramos consentido tal cosa cuando estábamos vivos. Y crear un índice a partir de estos datos no siempre conduce a respuestas orgánicas u honestas, dijo Irina Raicu, directora del programa de ética de Internet en el Centro Markkula de Ética Aplicada de la Universidad de Santa Clara. Mecánica Popular en 2021.
“Si esto se acepta, creo que podría tener un efecto escalofriante en las comunicaciones humanas”, dice Raicu. “Si me preocupa que algo de lo que voy a decir pueda usarse en un extraño avatar de mí mismo, tendré que cuestionar todo”.
Las personas vivas pueden disputar las falsificaciones profundas y llevar a los culpables a los tribunales. Pero con los muertos, especialmente aquellos que murieron en un pasado no tan reciente (y aquellos sin patrimonio legal activo), hay más oportunidades para el abuso. ¿Qué pasaría si, por ejemplo, hicieras que Muhammad Ali hablara sobre la tensión racial con palabras que en realidad nunca dijo? El icónico boxeador profesional estadounidense era musulmán y un renombrado defensor de los derechos de los afroamericanos.
“Imagine lo que sucedería si tomáramos la voz de Ali en este momento, con todo lo que está pasando con Salman Rushdie, y le pusiéramos palabras en la boca, ¿palabras que nunca pronunciaría?”. pregunta Rupal Patel, profesor del Departamento de Ciencias y Trastornos de la Comunicación de la Universidad Northeastern y vicepresidente de voz y accesibilidad de Veritone, una empresa de tecnología de IA con sede en California. (Rushdie, un renombrado autor británico-inglés nacido en India, fue apuñalado en agosto antes de dar una charla sobre Estados Unidos como un espacio seguro para escritores exiliados).
“Necesitamos prevenir de manera proactiva estos abusos atroces”, dice Patel, de lo contrario, podemos terminar “interpretando mal la marca de una figura influyente en la vida”. Hágale eso a otras figuras públicas muertas, y podría terminar distorsionando todo un legado y desequilibrando a una sociedad que ya camina sobre ascuas.
¿Quién es realmente el dueño de tu voz?
Con este nuevo desarrollo, Amazon está popularizando una tecnología existente, pero aún no nos hemos salvaguardado de los problemas que podrían surgir si prolifera esta tecnología de voz póstuma.
“Tu voz es tu propiedad intelectual”, dice Patel. “Tendrá que haber algún tipo de control en términos de quién tiene acceso a la licencia de esa voz, o quién puede controlar el motor de voz una vez que esté construido, porque de lo contrario hay grandes riesgos… La voz de IA podría usarse hacerse pasar por alguien, lo que puede no engañar a un ser humano, pero puede engañar a un sistema de autenticación de voz como los que se usan en la banca. La administración judicial de voz es un capítulo completamente nuevo con el que realmente no sabemos cómo lidiar todavía”, dice Patel. Mecánica Popular.
Y como con cada parte de la tecnología nueva y emocionante que gana el favor de las grandes empresas, es posible que deseemos leer la letra pequeña primero. Para enseñar a las máquinas, los empleados de Amazon escuchan y evalúan las entradas de voz con regularidad. Amazon guarda una copia de todo lo que graba Alexa después de escuchar su nombre y, según se informa, Alexa escucha a escondidas a sus maestros con bastante regularidad. “Un algoritmo puede medir la edad que tienes, tu género o si el inglés es tu primer o segundo idioma a partir de las leves inflexiones de tu voz cuando lo hablas y mucho, mucho más”, dice Mallon.
Un informe de abril de 2022 de la Universidad de Washington, UC Davis, UC Irvine y la Universidad Northeastern encontró que Amazon comparte los datos de Alexa con 41 socios publicitarios diferentes. Y este es probablemente el motivo principal para que Alexa hable “desde el otro lado”, explica Mallon. “Lo están haciendo para que se vea un poco más sexy y mantener viva a Alexa, para que pueda seguir entrando a tu casa”.
Los escritos científicos de Stav Dimitropoulos han aparecido en línea o impresos para la BBC, Discover, Scientific American, Nature, Science, Runner’s World, The Daily Beast y otros. Stav interrumpió una carrera atlética y académica para convertirse en periodista y conocer el mundo.
Source link