Compañía israelí de IA HIZOque proporcionó tecnología para proyectos como Deep Nostalgia, está lanzando una nueva plataforma donde los usuarios pueden cargar una sola imagen y texto para generar video. Con este nuevo sitio llamado Estudio de realidad creativala empresa apunta a sectores como la formación y educación corporativa, la comunicación interna y externa de las empresas, el marketing y las ventas de productos.
La plataforma es bastante simple de usar: los usuarios pueden cargar una imagen de un presentador o seleccionar uno de los presentadores creados previamente para comenzar el proceso de creación de videos. Los usuarios pagos pueden acceder a presentadores premium que son más “expresivos”, ya que tienen mejores expresiones faciales y movimientos de manos que los predeterminados. Después de eso, los usuarios pueden escribir el texto de un guión o simplemente cargar un clip de audio del discurso de alguien. Luego, los usuarios pueden seleccionar un idioma (la plataforma admite 119 idiomas), voz y estilos como alegre, triste, emocionado y amigable.
Los algoritmos basados en IA de la compañía generarán un video basado en estos parámetros. Luego, los usuarios pueden distribuir el video en cualquier lugar. La firma afirma que el algoritmo tarda solo la mitad del tiempo de duración del video en generar un clip, pero en nuestras pruebas, tomó un par de minutos generar un video de un minuto. Esto podría cambiar según el tipo de presentador y el idioma que haya seleccionado.
“La pandemia de COVID-19 ha acelerado las necesidades de contenido digital en todo el mundo. Un gran problema para las organizaciones es la creación de contenidos educativos. Leer documentos y revisar presentaciones puede ser seco y aburrido. Además, tienen que gastar miles de dólares para contratar actores y crear videos educativos. Por lo tanto, estamos utilizando nuestra IA para crear presentadores y tutores para recrear humanos y hacer que el contenido sea más atractivo y efectivo”, dijo Gil Perry, director ejecutivo de D-ID, a TechCrunch en una entrevista.
Perry señaló muchos casos de uso de esta tecnología, que van desde un mensaje multilingüe de un director ejecutivo a los empleados hasta deseos personalizados para los usuarios de una organización.
D-ID lanzó el estudio para realizar pruebas a mediados de agosto para solucionar errores antes del lanzamiento público. Y aunque su objetivo principal es atender a empresas de todos los tamaños, la empresa está viendo mucho interés de los creadores en la plataforma.
La creación de videos deepfake ofensivos es un riesgo. Es por eso que la firma israelí ha puesto barandillas como la filtración de malas palabras y comentarios racistas, así como el reconocimiento de imágenes para evitar el uso de rostros de personas famosas. utiliza el API de moderación de texto de Microsoft Azure eliminar los comentarios sexuales y el lenguaje ofensivo en los guiones de los videos. D-ID dijo que los términos de uso de la plataforma prohíben a los usuarios crear videos políticos. En caso de incumplimiento de cualquiera de estas reglas, la empresa puede suspender la cuenta del infractor y eliminar su video de la biblioteca.
D-ID recaudó $25 millones en su financiación Serie B liderada por Macquarie Capital en marzo, con un total de $47 millones recaudados hasta la fecha. Hasta ahora, la compañía había confiado en que otros usaran su API para crear contenido (Deep Nostalgia es un excelente ejemplo de eso) con clientes como Modelez, Warner Bros. y la aplicación de videos cortos con sede en India Josh. Ahora, la compañía está ampliando sus productos rentables al lanzar un complemento de PowerPoint junto con esta plataforma de autoservicio. El complemento agrega un presentador interactivo a la plataforma, por lo que los usuarios no solo tienen que leer las diapositivas. Pueden elegir entre diferentes avatares, voces e idiomas, al igual que la plataforma de autoservicio. Pero no hay ninguna disposición para tener un presentador personalizado en este momento.
En el lanzamiento, los usuarios podrán registrarse de forma gratuita para obtener una cuenta de prueba de 14 días y crear hasta cinco minutos de video de 720p generado por IA. Después de eso, pueden pagar $ 49 por mes para tener acceso a 15 minutos de video full HD generado por IA, un complemento de PowerPoint y soporte por correo electrónico.
Los cofundadores de D-ID Eliran Kuta, Gil Perry y Sella Blondheim
Los usuarios también pueden cargar sus propios clips de audio para la clonación de voz. Además, la compañía está trabajando en una herramienta que permita a los usuarios cargar sus propias imágenes para entrenar a la IA para que sea más expresiva y pueda imitar mejor a la persona en el video. Todas estas funciones estarán limitadas al nivel empresarial de la empresa.
Si bien la empresa se enfrenta a la competencia de empresas como Rephrase.ai y Máquinas del alma en el área de videos generados por IA, afirma que casi no hay empresas que afirmen generar videos de alta calidad a partir de una sola imagen.
Perry dijo que D-ID no tiene como objetivo limitarse a videos corporativos de capacitación, comunicación y marketing. También tiene la ambición de facilitar la traducción de videollamadas en tiempo real y la clonación de presentadores, lo que hace que aparezca un avatar en el video en lugar de usted mientras dicta el audio.
La compañía también está considerando convertirse en un jugador clave en el desarrollo de web3/metaverse. “Dado que tenemos experiencia en generar videos a partir de una sola imagen. Estamos pensando en formas de crear avatares digitales para el metaverso”, dijo Perry.