Twelve Labs hace que la búsqueda dentro de videos sea simple y poderosa, impulsada por una ronda inicial de $ 5 millones

Dado que los videos constituyen cada vez más los medios con los que interactuamos y creamos a diario, también existe una necesidad creciente de rastrear e indexar ese contenido. ¿Qué reunión o seminario fue donde hice esa pregunta? ¿Qué conferencia tuvo la parte sobre políticas tributarias? doce laboratorios tiene una solución de aprendizaje automático para resumir y buscar videos que podría hacer que el trabajo sea más rápido y fácil tanto para los consumidores como para los creadores.

La capacidad que brinda la startup es poder ingresar una consulta compleja pero vaga como “la fiesta de la oficina donde Courtney cantó el himno nacional” e instantáneamente obtener no solo el video sino el momento en el video donde sucede. “Ctrl-F para video” es como lo dicen. (Eso es comando-F para nuestros amigos en Mac).

Podrías pensar “pero espera, ¡puedo buscar videos ahora mismo!” Y sí, en YouTube o en un archivo universitario a menudo puedes encontrar el video que deseas. Pero, ¿qué sucede entonces? Revisas el video en busca de la parte que estabas buscando, o te desplazas por la transcripción tratando de pensar en la forma exacta en que expresaron algo.

Esto se debe a que cuando busca videos, en realidad está buscando etiquetas, descripciones y otros elementos básicos que se pueden agregar fácilmente a escala. Hay algo de magia algorítmica para mostrar el video que desea, pero el sistema realmente no comprende el video en sí.

“La industria ha simplificado demasiado el problema, pensando que las etiquetas pueden resolver la búsqueda”, dijo el fundador y director ejecutivo de Twelve Labs, Jae Lee. Y muchas soluciones ahora se basan, por ejemplo, en reconocer que algunos cuadros del video contienen gatos, por lo que agrega la etiqueta #gatos. “Pero el video no es solo una serie de imágenes, son datos complejos. Sabíamos que necesitábamos construir una nueva red neuronal que pudiera recibir tanto imágenes como audio y formular un contexto en torno a eso; se llama comprensión multimodal”.

Esa es una frase candente en la IA en este momento, porque parece que estamos alcanzando límites en lo bien que un sistema de IA puede comprender el mundo cuando se enfoca estrechamente en un “sentido”, como el audio o una imagen fija. Por ejemplo, Facebook descubrió recientemente que necesitaba una IA que prestara atención tanto a las imágenes como al texto en una publicación simultáneamente para detectar información errónea y discurso de odio.

Con el video, su comprensión será limitada si observa fotogramas individuales y trata de establecer asociaciones con una transcripción con marca de tiempo. Cuando las personas miran un video, naturalmente fusionan la información del video y el audio en personas, acciones, intenciones, causa y efecto, interacciones y otros conceptos más sofisticados.

Twelve Labs afirma haber construido algo similar con su sistema de comprensión de video. Lee explicó que la IA fue entrenada para abordar el video desde una perspectiva multimodal, asociando audio y video desde el principio y creando lo que dicen es una comprensión mucho más rica del mismo.

Animación que muestra una consulta de muestra de una base de datos de video. Créditos de imagen: doce laboratorios

“Incluimos información más compleja, como las relaciones entre los elementos del marco, conectando el pasado y el presente, y esto hace posible hacer consultas complejas”, dijo. “Solo por ejemplo, si hay un YouTuber y busca ‘Mr Beast desafía a Joey Chestnut a comer una hamburguesa’, entenderá el concepto de desafiar a alguien y de hablar sobre un desafío”.

Claro, el Sr. Bestia, un profesional, puede haber puesto ese dato en particular en el título o las etiquetas, pero ¿y si es solo parte de un vlog regular o una serie de desafíos? ¿Qué pasa si el Sr. Bestia estaba cansado ese día y no completó todos los metadatos correctamente? ¿Qué pasa si hay una docena de desafíos de hamburguesas, o mil, y la búsqueda de videos no puede distinguir la diferencia entre Joey Chestnut y Josie Acorn? Mientras te apoyes en una comprensión superficial del contenido, hay muchas formas en las que te puede fallar. Si usted es una corporación que busca hacer que 10,000 videos se puedan buscar, quiere algo mejor, y mucho menos laborioso, que lo que está disponible.

Twelve Labs construyó su herramienta en una API simple que se puede llamar para indexar un video (o mil) y generar un resumen enriquecido y conectarlo a un gráfico elegido. Entonces, si graba reuniones manuales, seminarios para compartir habilidades o sesiones semanales de lluvia de ideas, se pueden buscar no solo por tiempo o asistentes, sino también por quién habla, cuándo, sobre qué e incluye otras acciones como dibujar un diagrama o mostrar diapositivas.

“Hemos visto empresas con una gran cantidad de datos organizacionales interesadas en saber cuándo el director ejecutivo está hablando o presentando un determinado concepto”, dijo Lee. “Hemos estado trabajando muy deliberadamente con la gente para recopilar puntos de datos y casos de uso interesantes; estamos viendo muchos de ellos”.

Créditos de imagen: doce laboratorios

Un efecto secundario de procesar un video para la búsqueda y, como consecuencia, comprender lo que sucede en él, es la capacidad de generar resúmenes y subtítulos. Esta es otra área donde las cosas podrían mejorarse. Los subtítulos generados automáticamente varían ampliamente en calidad, por supuesto, así como en la capacidad de buscarlos, adjuntarlos a personas y situaciones en el video y otras capacidades más complejas. Y el resumen es un campo que está despegando en todas partes, no solo porque nadie tiene suficiente tiempo para verlo todo, sino porque un resumen de alto nivel es valioso para todo, desde la accesibilidad hasta los propósitos de archivo.

Es importante destacar que la API se puede ajustar para que funcione mejor con el corpus en el que se está liberando. Por ejemplo, si hay mucha jerga o algunas situaciones desconocidas, se puede entrenar para que funcione tan bien con ellas como lo haría con situaciones más comunes como salas de juntas y conversaciones comerciales estándar (sea lo que sea). Y eso es antes de que empieces a meterte en cosas como conferencias universitarias, imágenes de seguridad, cocina…

Maqueta de API para ajustar el modelo para que funcione mejor con contenido relacionado con ensaladas. Créditos de imagen: doce laboratorios

En ese sentido, la compañía es una gran defensora del estilo de aprendizaje automático de “gran red”. Hacer un modelo de IA que pueda comprender datos tan complejos y producir tal variedad de resultados significa que es un modelo grande y computacionalmente intenso para entrenar e implementar. Pero eso es lo que se necesita para este problema, dijo Lee.

“Creemos firmemente en las grandes redes neuronales, pero no solo aumentamos el tamaño de los parámetros”, dijo. “Todavía tiene parámetros multimillonarios, pero hemos hecho mucho kung fu técnico para que sea eficiente. Hacemos cosas como no mirar cada fotograma: un algoritmo ligero identifica fotogramas importantes, cosas así. Todavía queda mucha ciencia por hacer en la comprensión del lenguaje y el espacio multimodal. Pero el propósito de una gran red es aprender la representación estadística de los datos que se le han introducido, y ese concepto en el que creemos firmemente”.

Aunque Twelve Labs espera ayudar a indexar gran parte del video, es probable que usted, como usuario, no lo sepa; Aparte de un área de juegos para desarrolladores, no existe una plataforma web de Twelve Labs que le permita buscar cosas. La API está destinada a integrarse en las pilas tecnológicas existentes para que donde sea que normalmente busque videos, todavía lo haga, pero los resultados serán mucho mejores. (Lo han demostrado en puntos de referencia donde la API fuma otros modelos).

Aunque es bastante seguro que compañías como Google, Netflix y Amazon están trabajando exactamente en este tipo de modelo de comprensión de video, a Lee no pareció molestarle. “Si la historia es un indicador, en grandes empresas como YouTube y TikTok, la búsqueda es muy específica para su plataforma y muy central para su negocio”, dijo. “No nos preocupa que eliminen su tecnología central y la sirvan a clientes potenciales. La mayoría de nuestros socios beta han probado las llamadas soluciones de estas grandes empresas y luego acudieron a nosotros”.

La compañía ha recaudado una ronda inicial de $ 5 millones para llevarlo de la versión beta al mercado; Index Ventures lideró la ronda, con la participación de Radical Ventures, Expa y Techstars Seattle, además de ángeles como el líder de IA de Stanford, Fei-Fei Li, el director ejecutivo de Scale AI, Alex Wang, el director ejecutivo de Patreon, Jack Conte, y Oren Etzioni de AI2.

El plan a partir de aquí es desarrollar las funciones que han demostrado ser más útiles para los socios beta y luego debutar como un servicio abierto en un futuro próximo.

Source link