Roll

Roll quiere recrear tomas de carros y más usando IA generativa

by

in

Aquellos familiarizados con Fazian Buzdar, quien hasta hace poco fue vicepresidente de gestión de productos en Box, probablemente asocien al empresario con Convo, la plataforma de espacio de trabajo digital popular entre las salas de redacción (incluida esta). Pero Buzdar, cuya experiencia es en ingeniería electrónica, siempre ha tenido una fascinación por el video y los efectos visuales.

“Entusiasta de la fotografía y los videos de toda la vida, había estado haciendo videos por mi cuenta durante años, pero me di cuenta de que la producción de videos se había mantenido en gran medida manual con poca innovación en las últimas décadas, especialmente para tareas que consumen mucho tiempo como la edición de videos”, me dijo Buzdar por correo electrónico. . “Mientras tanto, me di cuenta de que la tecnología de la cámara y el sensor del iPhone tuvo mejoras en la función de pasos en los últimos años, llegando a ser casi equivalente en calidad de imagen a las DSLR”.

Entonces, mientras estuvo en Box, Faizan dice que decidió intentar combinar video, un medio cada vez más popular, con innovaciones en IA y aprendizaje automático para intentar mejorar la experiencia de captura y edición de video. Faizan seleccionó a Adeel Abbas, un ingeniero de video que, mientras estuvo en Twitter, contribuyó a la infraestructura que impulsó las funciones de transmisión en vivo del sitio, junto con Saj ​​Khan, Fahad Yaqub y su compañera ejecutiva de Box, Michelle Oh, para explorar las fronteras de la producción de video acelerada por tecnología.

El rollo es el resultado. Una nueva aplicación para iOS que ofrece bokeh, tomas multicámara, gráficos en movimiento y, quizás lo más intrigante para mí, controles deslizantes, plataformas rodantes y jibs “simulados por IA”.

Créditos de imagen: Rollo

“Nuestra misión es interrumpir el mundo de la producción de video de alta calidad y convertirnos en el nuevo estándar para la creación de contenido de video”, continuó Buzdar. “Crear un gran video es una inversión inicial masiva en equipo, aprender a usar ese equipo, software para editar; nos estamos deshaciendo de todo eso”.

Roll, que está dirigido al mercado de “prosumidores” (piense en personas influyentes y podcasters, pero también en empresas que crean su propio material de marketing), consta de dos productos: la aplicación Roll para iPhone y la aplicación web. La aplicación para iPhone captura y graba videos y luego los carga automáticamente en la nube de Roll para su almacenamiento y procesamiento. Mientras tanto, la aplicación web es donde uno o un equipo de creadores de contenido puede previsualizar, acceder, compartir, descargar y editar imágenes.

Por supuesto, las aplicaciones de video cuestan diez centavos la docena. Entonces, ¿qué hace que Roll sea diferente? Por un lado, la aplicación está dirigida a casos de uso que la mayoría de las aplicaciones de cámara no son, dice Buzdar, como entrevistas en video remotas, podcasts de video y testimonios de clientes. Si bien Zoom, Microsoft Teams y Google Meet satisfacen la necesidad hasta cierto punto, Buzdar argumenta que no están diseñados para la producción de videos de “alta calidad”.

Roll también emplea una serie de efectos en tiempo real para (ostensiblemente) ofrecer una mayor variedad de opciones de posproducción que la mayoría de las aplicaciones de captura de video. Por ejemplo, Roll graba en el estándar HEVC, lo que ofrece aproximadamente el doble de tasa de bits y mayor calidad de imagen para el mismo tamaño de archivo. Y Roll puede grabar y procesar hasta dos tomas de cámara, una toma de gran angular y una toma de primer plano, a la vez, lo que permite a los usuarios crear videos con perspectivas efectivamente “multicámara”.

La interfaz de edición de Roll.

Por supuesto, Multi-cam no es particularmente único: el rollo está lejos de ser la primera aplicación que lo ofrece. Pero Buzdar dice que donde reside la magia es en el posprocesamiento. Roll aprovecha la IA generativa para recrear habitaciones en el espacio 3D para que los creadores de contenido puedan mover una cámara virtual similar a la de un videojuego, simulando movimientos como desplazarse de un lado a otro con una plataforma rodante o una grúa.

“Hoy en día, la IA generativa se asocia con demasiada frecuencia con la creación de contenido falso de la nada”, dijo Buzdar. “Esa no es nuestra filosofía. No generamos píxeles, personas o escenas falsas. Estamos utilizando la IA generativa simplemente como una herramienta para la productividad: queremos democratizar el acceso a la producción de videos de mayor calidad”.

Buzdar explicó que la IA de Roll fue entrenada para comprender la profundidad 3D en una escena, utilizando datos para medir la profundidad y las formas independientemente de la persona sentada en la habitación. Roll comenzó a entrenar sus algoritmos con conjuntos de datos de código abierto comúnmente utilizados para la evaluación comparativa en la academia, pero luego registró internamente más de 22,000 videollamadas, creando su propia base de datos rica.

Los resultados no son tan malos, al menos en el video de demostración que me mostró Buzdar. Algunas de las panorámicas generadas por IA de Roll abordan el valle inquietante, el resultado de la deformación antinatural de los objetos en el fondo a medida que la cámara virtual gira. Pero en escenas cortas, los efectos de la IA son lo suficientemente convincentes y una adición llamativa a lo que de otro modo sería una aburrida entrevista remota.

“Hemos investigado esto bastante y no hemos visto a nadie usar IA de la misma manera que nosotros: emparejando datos de sensores de iPhone con grandes modelos de IA en la nube”, dijo Buzdar. “Nuestra tecnología proporciona capacidades fundamentales para simular cualquier efecto visual que un usuario desee”.

Grabación de llamadas con Roll.

Cualquier efecto visual suena un poco exagerado. Pero Roll tiene otros trucos algorítmicos más realistas bajo la manga. A medida que Roll graba video, recopila metadatos para usarlos más tarde en el proceso de producción de video, incluidas las condiciones de grabación e iluminación, la distancia de la cámara al sujeto y la posición de la cara y el cuerpo del sujeto. Los metadatos se utilizan para ajustar automáticamente las cámaras y los sensores del teléfono, así como para proporcionar comentarios e instrucciones para la composición y la iluminación.

Al igual que algunos otros editores de video móviles “habilitados para IA” en el mercado, Roll también aprovecha los metadatos para crear un carrete multicámara completamente realizado en su nube de edición, sin necesidad de edición manual. (Los usuarios aún pueden cambiar y ajustar los ángulos de la cámara o agregar movimientos de cámara y efectos visuales si así lo desean). En un futuro cercano, Roll podrá publicar directamente en las redes sociales, incluidas TikTok, YouTube e Instagram, tanto en la resolución adecuada como en relación de aspecto

“Hoy en día, la producción de video requiere muchas piezas de hardware y software para completarse por completo”, dijo Buzdar. “Con cada paso, cuando el archivo de video y audio salta de un software a otro, pierde contexto y simplemente se convierte en un archivo ‘tonto’ que se pasa de un lado a otro. Fundamentalmente, hemos reconstruido toda la “pila” de producción de video desde cero. Traspasando los límites del software tradicional, hemos aplicado IA para ofrecer una experiencia transformadora de captura a publicación que integra y automatiza verticalmente todo el flujo de trabajo de producción de video remoto”.

Entonces, ¿cómo planea Roll ganar dinero? Hasta ahora, la compañía ha recaudado efectivo de fuentes tradicionales de capital de riesgo; Buzdar no dijo dónde exactamente. Pero en términos de generación de ingresos, Buzdar espera que Roll eventualmente crezca para satisfacer las necesidades de las organizaciones corporativas, específicamente sus equipos internos de marketing y video corporativos, quienes pagarán algún tipo de tarifa por los servicios de Roll.

“La producción de video está madura para la disrupción desde la nube”, dijo Buzdar. “Atributos como archivos de gran tamaño, procesamiento complejo y la necesidad de ediciones y ciclos de revisión de varias personas lo convierten en el candidato perfecto para obtener beneficios exponenciales de la computación en la nube, como almacenamiento escalable, IA, cómputo y uso compartido y colaboración en tiempo real”.

Seguramente hay algo de verdad en eso. En cuanto a si Roll será el disruptor, el tiempo lo dirá.


Source link