Marca de agua ‘inaudible’ podría identificar voces generadas por IA

La creciente facilidad con la que cualquiera puede crear un audio convincente con la voz de otra persona tiene a mucha gente nerviosa, y con razón. parecerse a la IA propuesta de marca de agua del discurso generado Puede que no lo arregle en uno, pero es un paso en la dirección correcta.

El habla generada por IA se utiliza para todo tipo de fines legítimos, desde lectores de pantalla hasta reemplazar actores de voz (con su permiso, por supuesto). Pero como ocurre con casi cualquier tecnología, la generación de discursos también puede utilizarse con fines maliciosos, produciendo citas falsas de políticos o celebridades. Es muy deseable encontrar una manera de diferenciar lo real de lo falso que no dependa de un publicista o de una escucha atenta.

La marca de agua es una técnica mediante la cual se imprime una imagen o un sonido con un patrón identificable que muestra su origen. Todos hemos visto marcas de agua obvias como un logotipo en una imagen, pero no todas son tan notorias.

En las imágenes, una marca de agua oculta puede ocultar el patrón a nivel de píxel por píxel, dejando la imagen sin modificar para los ojos humanos pero identificable para una computadora. Lo mismo para el audio: un sonido silencioso ocasional que codifica la información podría no ser algo que escucharía un oyente casual.

El problema con estas marcas de agua sutiles es que tienden a borrarse incluso con modificaciones menores en los medios. Cambiar el tamaño de la imagen? Ahí va tu código de píxeles perfectos. ¿Codificar el audio para la transmisión? Los tonos secretos se comprimen hasta desaparecer.

Resemble AI se encuentra entre una nueva cohorte de nuevas empresas de IA generativa que tienen como objetivo utilizar modelos de voz finamente ajustados para producir doblajes, audiolibros y otros medios normalmente producidos por voces humanas regulares. Pero si tales modelos, quizás entrenados con horas de audio proporcionadas por actores, cayeran en manos malintencionadas, estas empresas podrían encontrarse en el centro de un desastre de relaciones públicas y tal vez de una responsabilidad grave. Por lo tanto, les interesa mucho encontrar una manera de hacer que sus grabaciones sean lo más realistas posible y también fácilmente verificables como generadas por IA.

PerTh es el proceso de marca de agua propuesto por Resemble para este propósito, una combinación incómoda de “perceptual” y “umbral”.

“Hemos desarrollado una capa adicional de seguridad que utiliza modelos de aprendizaje automático para incrustar paquetes de datos en el contenido de voz que generamos y recuperar dichos datos en un momento posterior”, escribe la compañía en una publicación de blog que explica la tecnología. “Debido a que los datos son imperceptibles, aunque están estrechamente acoplados a la información del habla, son difíciles de eliminar y proporcionan una forma de verificar si Resemble generó un clip determinado. Es importante destacar que esta técnica de ‘marca de agua’ también tolera varias manipulaciones de audio como acelerar, ralentizar, convertir a formatos comprimidos como MP3, etc.

Se basa en una peculiaridad de cómo los humanos procesan el audio, mediante el cual los tonos con alta audibilidad esencialmente “enmascaran” los tonos cercanos de menor amplitud. Entonces, si alguien se ríe y produce picos en las frecuencias de 5000 Hz, 8000 Hz y 9200 Hz, puede deslizar tonos estructurados que ocurren simultáneamente dentro de unos pocos hercios, y serán más o menos imperceptibles para los oyentes. Pero si lo haces bien, también serán resistentes a la eliminación, ya que están muy cerca de una parte importante del audio.

Aquí viene el diagrama:

Diagrama que muestra cómo los tonos menores están “enmascarados” por los picos cercanos.

Es intuitivo, pero sin duda el desafío fue crear un modelo de aprendizaje automático que pueda ubicar secciones de forma de onda candidatas y producir automáticamente los tonos de audio apropiados, pero inaudibles, que llevan la información de identificación. Luego, tiene que revertir ese proceso sin dejar de ser resistente a las manipulaciones de sonido comunes como las mencionadas anteriormente.

Aquí hay dos ejemplos que proporcionaron. Vea si puede averiguar cuál tiene una marca de agua. Pase el cursor aquí para ver la respuesta en su barra de estado.

No puedo notar la diferencia e incluso al inspeccionar las formas de onda muy de cerca, no pude encontrar ninguna anomalía obvia. No soy lo suficientemente hábil con un analizador de espectro en estos días para realmente entrar allí, pero sospecho que ahí es donde podrías ver algo. En cualquier caso, si su afirmación de que los datos que indican la generación por Resemble están codificados de manera más o menos irreversible en uno de estos clips, diría que es un éxito.

PerTh pronto se implementará para todos los clientes de Resemble y, para ser claros, en este momento solo puede marcar y detectar el habla generada por la propia empresa. Pero si lo hicieron, es probable que otros también lo hagan, y es probable que estos motores pronto estén inextricablemente vinculados a los propios modelos de generación de voz. Los actores maliciosos siempre encontrarán una forma de evitar este tipo de cosas, pero poner barreras debería ayudar a frenar parte de ese comportamiento.

Sin embargo, el audio es especial en este sentido, y trucos similares no funcionarán para texto o imágenes. Así que espere permanecer en el valle inquietante por un tiempo en esos dominios.

Source link