D-ID lanza ‘Speaking Portrait’, una forma de convertir fotos en videos personalizados con realismo fotográfico

La compañía cuya tecnología impulsó la sensacional aplicación MyHeritage que convirtió fotos familiares clásicas en retratos en movimiento realistas está de regreso con una nueva implementación de su tecnología: transformar fotografías fijas en videos ultrarrealistas, capaces de decir lo que quieras.

Los Speaking Portraits de D-ID pueden parecer los notorios “deepfakes” que han aparecido en los titulares en los últimos años, pero la tecnología subyacente es en realidad bastante diferente y no se requiere capacitación para la funcionalidad básica.

D-ID, que debutó en TechCrunch Battlefield en 2018 con un enfoque muy diferente (tecnología de reconocimiento facial codificado), presentó su nuevo producto Speaking Portraits en vivo en TechCrunch Disrupt 2021. La compañía mostró una serie de casos de uso, incluido el uso de su nuevo tecnología para crear un presentador de televisión multilingüe capaz de expresar diversas emociones; crear personajes virtuales de chatbot para interacciones de soporte al cliente; desarrollo de cursos de formación para uso en desarrollo profesional; y la creación de quioscos de anuncios de video conversacionales interactivos.

Tanto este nuevo producto como la asociación de D-ID con MyHeritage, que vio a la aplicación de esta última empresa ocupar brevemente la cima de las listas de App Store de Apple, son obviamente grandes desviaciones del enfoque inicial de la empresa. Hasta mayo del año pasado, D-ID todavía estaba recaudando fondos en base a su enfoque anterior, pero su asociación con MyHeritage debutó en febrero, seguida de un acuerdo similar con GoodTrust después de eso y un llamativo vínculo con Warner Bros. la película de Hugh Jackman “Reminiscence” que permitió a los fans insertarse en su tráiler.

El pivote de D-ID puede parecer más dramático que el de la mayoría, pero desde una perspectiva técnica, su nuevo enfoque en dar vida a las fotos no está tan lejos de su software de desidentificación. El CEO y cofundador de D-ID, Gil Perry, me dijo que la compañía eligió la nueva dirección porque era evidente que hay un mercado direccionable muy grande cuando se trata de este tipo de aplicación.

Clientes de renombre como Warner Bros., así como una aplicación que domina la App Store de una marca relativamente desconocida, parecen respaldar esa evaluación. Speaking Portraits, sin embargo, está dirigido a clientes grandes y pequeños, y permite que cualquier persona genere un video Full HD a partir de una imagen de origen, además de voz grabada o texto mecanografiado. D-ID está lanzando el producto con soporte para inglés, español y japonés, pero también planea agregar otros idiomas en el futuro, ya que los clientes solicitan soporte para ellos.

D-ID ofrece dos categorías básicas de Retrato hablado, incluido un “Retrato único” que se puede hacer con una sola imagen fija, que presenta una cabeza animada pero otras partes permanecen estáticas. Este también funcionará solo con el fondo existente en la foto.

Para una realidad un poco más extraña, hay una opción de “Personaje entrenado” que requiere enviar un video de entrenamiento de 10 minutos del personaje solicitado, siguiendo las pautas proporcionadas por la empresa. Esto tiene la ventaja de poder trabajar contra un fondo personalizado e intercambiable, y presenta algunas opciones de animación preestablecidas para el cuerpo y las manos del personaje.

Vea un ejemplo de un presentador de noticias Speaking Portrait generado usando el método de personajes entrenados a continuación para tener una idea de cuán realista puede ser:

La demostración que Perry nos mostró en vivo en Disrupt hoy fue creada a partir de una foto fija de él mismo cuando era niño. La foto se asignó a las expresiones faciales realizadas por una especie de titiritero humano que también expresó el guión de lo que la versión Speaking Portrait de Gil terminó diciendo durante la interacción entre su yo actual y el más joven. Puede ver un video de cómo las expresiones del hablante se reflejaron en la foto animada a continuación:

Obviamente, la capacidad de crear videos con realismo fotográfico a partir de una sola foto que pueda mostrar de manera convincente las líneas que desee es una perspectiva un poco espeluznante. Ya hemos visto debates de gran alcance sobre la ética de las falsificaciones profundas, así como los esfuerzos de la industria para tratar de identificar e identificar cuándo la IA generó resultados realistas, pero artificiales.

Perry dijo en Disrupt que D-ID está “dispuesto a asegurarse de que se use para bien, no para mal”, y que para lograrlo, harán un compromiso a fines de octubre, junto con los socios, de que describen sus compromisos con la “transparencia y el consentimiento” cuando se trata de utilizar tecnología como Speaking Portraits. El propósito de dicho compromiso es garantizar que “los usuarios no se confundan sobre lo que están viendo y que las personas involucradas den su consentimiento”.

Si bien D-ID quiere hacer garantías en sus términos de uso y posición pública sobre el uso indebido de este tipo de tecnología, Perry dice que “no puede hacerlo solo”, por lo que está pidiendo a otros en el ecosistema que unan fuerzas en esfuerzos para evitar el abuso.

Source link