Los deepfakes rápidos de voz de VALL-E deberían preocuparte, si aún no estabas preocupado

El surgimiento en la última semana de un modelo de aprendizaje automático de síntesis de voz particularmente efectivo llamado VALL-E ha provocado una nueva ola de preocupación sobre la posibilidad de que las voces falsas profundas se vuelvan rápidas y fáciles, falsificaciones rápidas, por así decirlo. Pero VALL-E es más iterativo que innovador, y las capacidades no son tan nuevas como podría pensar. Depende de usted si eso significa que debería estar más o menos preocupado.

La replicación de voz ha sido objeto de intensas investigaciones durante años, y los resultados han sido lo suficientemente buenos como para impulsar muchas nuevas empresas, como WellSaid, Papercup y Respeecher. Este último incluso se está utilizando para crear reproducciones de voz autorizadas de actores como James Earl Jones. Sí: a partir de ahora Darth Vader será generado por IA.

VAL-E, publicado en GitHub por sus creadores en Microsoft la semana pasada, es un “modelo de lenguaje de códec neuronal” que utiliza un enfoque diferente para representar voces que muchos antes. Su corpus de entrenamiento más grande y algunos métodos nuevos le permiten crear un “habla personalizada de alta calidad” utilizando solo tres segundos de audio de un hablante de destino.

Es decir, todo lo que necesita es un clip extremadamente corto como el siguiente (todos los clips del documento de Microsoft):

Para producir una voz sintética que suene notablemente similar:

Como puede escuchar, mantiene el tono, el timbre, una apariencia de acento e incluso el “ambiente acústico” (por ejemplo, una voz comprimida en una llamada de teléfono celular). No me molesté en etiquetarlos porque puedes decir fácilmente cuál de los anteriores es cuál. ¡Es bastante impresionante!

Tan impresionante, de hecho, que este modelo en particular parece haber traspasado el pellejo de la comunidad investigadora y “pasado a la corriente principal”. Mientras tomaba un trago en mi local anoche, el cantinero describió enfáticamente la nueva amenaza de inteligencia artificial de la síntesis de voz. Así es como sé que juzgué mal el espíritu de la época.

Pero si miras un poco hacia atrás, ya en 2017 todo lo que necesitabas era un minuto de voz para producir una versión falsa lo suficientemente convincente como para que pasara en un uso casual. Y ese estaba lejos de ser el único proyecto.

La mejora que hemos visto en los modelos de generación de imágenes como DALL-E 2 y Stable Diffusion, o en los de lenguaje como ChatGPT, ha sido transformadora y cualitativa: hace uno o dos años, este nivel de contenido detallado y convincente generado por IA era imposible La preocupación (y el pánico) en torno a estos modelos es comprensible y justificada.

Por el contrario, la mejora que ofrece VALL-E es cuantitativa y no cualitativa. Los malos actores interesados en la proliferación de contenido de voz falso podrían haberlo hecho hace mucho tiempo, solo que a un mayor costo computacional, algo que no es particularmente difícil de encontrar en estos días. Los actores patrocinados por el estado, en particular, tendrían muchos recursos disponibles para hacer el tipo de trabajo informático necesario para, por ejemplo, crear un clip de audio falso del presidente diciendo algo dañino en un micrófono caliente.

Hablé con James Betker, un ingeniero que trabajó durante un tiempo en otro sistema de texto a voz, llamado Tortuga-TTS.

Betker dijo que VALL-E es realmente iterativo y, al igual que otros modelos populares en estos días, obtiene su fuerza de su tamaño.

“Es un modelo grande, como ChatGPT o Stable Diffusion; tiene una comprensión inherente de cómo los humanos forman el habla. Luego puede ajustar Tortoise y otros modelos en parlantes específicos, y los hace realmente buenos. No ‘suena como’; bien”, explicó.

Cuando “afinas” Stable Diffusion en el trabajo de un artista en particular, no estás volviendo a entrenar todo el enorme modelo (que requiere mucha más potencia), pero aún puedes mejorar enormemente su capacidad de replicar ese contenido.

Pero el hecho de que sea familiar no significa que deba descartarse, aclaró Betker.

“Me alegro de que esté ganando terreno porque realmente quiero que la gente hable de esto. De hecho, siento que el discurso es algo sagrado, la forma en que nuestra cultura piensa al respecto”, y de hecho dejó de trabajar en su propio modelo como resultado de estas preocupaciones. Un Dalí falso creado por DALL-E 2 no tiene el mismo efecto visceral para las personas que escuchar algo en su propia voz, la de un ser querido o la de alguien admirado.

VALL-E nos acerca un paso más a la ubicuidad, y aunque no es el tipo de modelo que ejecuta en su teléfono o en la computadora de su casa, eso no está muy lejos, especuló Betker. Unos cuantos años, tal vez, para dirigir algo así usted mismo; como ejemplo, envió este clip que había generado en su propia PC usando Tortoise-TTS de Samuel L. Jackson, basado en lecturas de audiolibros suyos:

¿Buen derecho? Y hace unos años podrías haber logrado algo similar, aunque con mayor esfuerzo.

Todo esto es solo para decir que, si bien VALL-E y el quickfake de tres segundos son definitivamente notables, son un solo paso en un largo camino que los investigadores han estado recorriendo durante más de una década.

La amenaza ha existido durante años y si a alguien le importara replicar su voz, podría haberlo hecho fácilmente hace mucho tiempo. Eso no hace que sea menos perturbador pensar en ello, y no hay nada de malo en asustarse por ello. ¡Yo también!

Pero los beneficios para los actores malintencionados son dudosos. Las estafas menores que usan un engaño rápido aceptable basado en una llamada de número incorrecto, por ejemplo, ya son muy fáciles porque las prácticas de seguridad en muchas empresas ya son laxas. El robo de identidad no necesita depender de la replicación de voz porque hay muchos caminos más fáciles para obtener dinero y acceso.

Mientras tanto, los beneficios son potencialmente enormes: piense en las personas que pierden la capacidad de hablar debido a una enfermedad o accidente. Estas cosas suceden lo suficientemente rápido como para que no tengan tiempo de grabar una hora de voz para entrenar a un modelo (no es que esta capacidad esté ampliamente disponible, aunque podría haberlo estado hace años). Pero con algo como VALL-E, todo lo que necesitas es un par de clips del teléfono de alguien haciendo un brindis en la cena o hablando con un amigo.

Siempre existe la oportunidad de estafas y suplantación de identidad y todo eso, aunque más personas se separan de su dinero e identidades de maneras mucho más prosaicas, como una simple estafa telefónica o de phishing. El potencial de esta tecnología es enorme, pero también deberíamos escuchar nuestro instinto colectivo, diciendo que hay algo peligroso aquí. Simplemente no se asuste, todavía.

Source link