WaveOne tiene como objetivo hacer que el video sea nativo de la IA y convertir la transmisión al revés

El video ha funcionado de la misma manera durante mucho, mucho tiempo. Y debido a sus cualidades únicas, el video ha sido en gran medida inmune a la explosión del aprendizaje automático que ha cambiado una industria tras otra. WaveOne espera cambiar eso tomando el paradigma de décadas de códecs de video y haciéndolos impulsados por IA, mientras que de alguna manera evita los escollos en los que a menudo caen los aspirantes a revolucionarios de códecs y las nuevas empresas “impulsadas por IA”.

La startup se ha limitado hasta hace poco a mostrar sus resultados en documentos y presentaciones, pero con una ronda inicial de $ 6.5 millones recaudada recientemente, están listos para avanzar hacia las pruebas y la implementación de su producto real. No es un nicho: la compresión de video puede parecer un poco inútil para algunos, pero no hay duda de que se ha convertido en uno de los procesos más importantes de la Internet moderna.

Así es como ha funcionado prácticamente desde los viejos tiempos cuando el video digital se hizo posible por primera vez. Los desarrolladores crean un algoritmo estándar para comprimir y descomprimir video, un códec, que se puede distribuir y ejecutar fácilmente en plataformas informáticas comunes. Esto es cosas como MPEG-2, H.264 y ese tipo de cosas. Los proveedores de contenido y los servidores pueden realizar el trabajo duro de comprimir un video, mientras que el trabajo comparativamente más ligero de descomprimir se realiza en las máquinas del usuario final.

Este enfoque es bastante efectivo y las mejoras en los códecs (que permiten una compresión más eficiente) han dado lugar a la posibilidad de sitios como YouTube. Si los videos fueran 10 veces más grandes, YouTube nunca habría podido lanzarse cuando lo hizo. El otro cambio importante fue comenzar a depender de la aceleración del hardware de dichos códecs: su computadora o GPU podría tener un chip real con el códec incorporado, listo para realizar tareas de descompresión con una velocidad mucho mayor que una CPU ordinaria de propósito general en un teléfono. Solo un problema: cuando obtiene un códec nuevo, necesita hardware nuevo.

Pero considere esto: muchos teléfonos nuevos se envían con un chip diseñado para ejecutar modelos de aprendizaje automático, que al igual que los códecs se pueden acelerar, pero a diferencia de ellos, el hardware no está hecho a la medida del modelo. Entonces, ¿por qué no estamos usando este chip optimizado para ML para video? Bueno, eso es exactamente lo que WaveOne pretende hacer.

Debo decir que inicialmente hablé con los cofundadores de WaveOne, el CEO Lubomir Bourdev y el CTO Oren Rippel, desde una posición de gran escepticismo a pesar de sus impresionantes antecedentes. Hemos visto a las empresas de códecs ir y venir, pero la industria de la tecnología se ha unido en torno a un puñado de formatos y estándares que se revisan de una manera dolorosamente lenta. H.265, por ejemplo, se introdujo en 2013, pero años después, su predecesor, H.264, apenas comenzaba a alcanzar la ubicuidad. Es más parecido al sistema 3G, 4G, 5G que a la versión 7, la versión 7.1, etc. De modo que las opciones más pequeñas, incluso las superiores que son gratuitas y de código abierto, tienden a ganar terreno bajo las ruedas de los estándares que abarcan la industria.

Este historial de códecs, más el hecho de que a las startups les gusta describir que prácticamente todo está “impulsado por la IA”, me hizo esperar algo en el mejor de los casos equivocado, en el peor, una estafa. Pero me sorprendió más que gratamente: de hecho, WaveOne es el tipo de cosa que parece obvia en retrospectiva y parece tener la ventaja de ser el primero en moverse.

Lo primero que dejaron en claro Rippel y Bourdev fue que la IA realmente tiene un papel que desempeñar aquí. Si bien los códecs como H.265 no son tontos, son muy avanzados en muchos sentidos, tampoco son exactamente inteligentes. Pueden decir dónde poner más bits en la codificación de colores o detalles en un sentido general, pero no pueden, por ejemplo, decir dónde hay una cara en la toma que debería recibir más amor, o un letrero o árboles que pueden ser hecho de una manera especial para ahorrar tiempo.

Pero la detección de rostros y escenas son problemas prácticamente resueltos en la visión por computadora. ¿Por qué un códec de vídeo no debería entender que hay un rostro y luego dedicarle una cantidad proporcional de recursos? Es una pregunta perfectamente buena. La respuesta es que los códecs no son lo suficientemente flexibles. No aceptan ese tipo de información. Tal vez lo hagan en H.266, siempre que se publique, y un par de años más tarde será compatible con dispositivos de gama alta.

Entonces, ¿cómo lo harías ahora? Bueno, al escribir un algoritmo de compresión y descompresión de video que se ejecuta en aceleradores de inteligencia artificial, muchos teléfonos y computadoras tienen o tendrán muy pronto, e integrando la detección de escenas y objetos desde el principio. Al igual que Krisp.ai entendiendo qué es una voz y aislándola sin un análisis de espectro hipercomplejo, la IA puede hacer determinaciones como esa con datos visuales increíblemente rápido y pasar eso a la parte real de compresión de video.

Créditos de imagen: WaveOne

La asignación de datos variable e inteligente significa que el proceso de compresión puede ser muy eficiente sin sacrificar la calidad de la imagen. WaveOne afirma reducir el tamaño de los archivos hasta la mitad, con mejores ganancias en escenas más complejas. Cuando muestra videos cientos de millones de veces (o para un millón de personas a la vez), incluso las fracciones de un porcentaje se suman, y mucho menos ganancias de este tamaño. El ancho de banda no cuesta tanto como solía hacerlo, pero aún no es gratis.

Comprender la imagen (o que se le diga) también le permite al códec ver qué tipo de contenido es; una videollamada debe priorizar las caras si es posible, por supuesto, pero un transmisor de juegos puede querer priorizar los pequeños detalles, mientras que la animación requiere otro enfoque para minimizar los artefactos en sus grandes regiones de un solo color. Todo esto se puede hacer sobre la marcha con un esquema de compresión impulsado por IA.

También hay implicaciones más allá de la tecnología de consumo: un automóvil autónomo, que envía video entre componentes o a un servidor central, podría ahorrar tiempo y mejorar la calidad del video al enfocarse en lo que el sistema autónomo designa como importante (vehículos, peatones, animales) y no perdiendo tiempo y trozos en un cielo sin rasgos distintivos, árboles en la distancia, etc.

La codificación y decodificación consciente del contenido es probablemente la ventaja más versátil y fácil de comprender que WaveOne afirma ofrecer, pero Bourdev también señaló que el método es mucho más resistente a las interrupciones por problemas de ancho de banda. Es una de las otras fallas de los códecs de video tradicionales que la falta de algunos bits puede alterar toda la operación; es por eso que obtiene cuadros congelados y fallas. Pero la decodificación basada en ML puede hacer fácilmente una “mejor conjetura” basada en los bits que tenga, por lo que cuando su ancho de banda se restringe repentinamente, no se congela, solo obtiene un poco menos de detalle durante la duración.

Ejemplo de diferentes códecs que comprimen el mismo marco.

Estos beneficios suenan muy bien, pero como antes, la pregunta no es “¿podemos mejorar el status quo?” (obviamente podemos) pero “¿podemos escalar esas mejoras?”

“El camino está plagado de intentos fallidos de crear nuevos códecs geniales”, admitió Bourdev. “Parte del motivo es la aceleración del hardware; incluso si se le ocurrió el mejor códec del mundo, buena suerte si no tiene un acelerador de hardware que lo ejecute. No solo necesita mejores algoritmos, debe poder ejecutarlos de forma escalable en una gran variedad de dispositivos, en el borde y en la nube “.

Es por eso que los núcleos especiales de IA en la última generación de dispositivos son tan importantes. Esta es la aceleración de hardware que se puede adaptar en milisegundos a un nuevo propósito. Y resulta que WaveOne ha estado trabajando durante años en el aprendizaje automático centrado en video que se ejecutará en esos núcleos, haciendo el trabajo que los aceleradores H.26X han estado haciendo durante años, pero más rápido y con mucha más flexibilidad.

Por supuesto, todavía queda la cuestión de los “estándares”. ¿Es muy probable que alguien se suscriba a los métodos de compresión de video patentados de una sola empresa? Bueno, ¡alguien tiene que hacerlo! Después de todo, los estándares no vienen grabados en tablas de piedra. Y como explicaron Bourdev y Rippel, en realidad están usando estándares, pero no de la forma en que los hemos llegado a pensar.

Antes, un “estándar” en video significaba adherirse a un método de software rígidamente definido para que su aplicación o dispositivo pudiera funcionar con video compatible con estándares de manera eficiente y correcta. Pero ese no es el único tipo de estándar. En lugar de ser un método de sopa a nueces, WaveOne es una implementación que se adhiere a los estándares en el lado del ML y la implementación.

Están construyendo la plataforma para que sea compatible con todos los principales editores de desarrollo y distribución de ML como TensorFlow, ONNX, CoreML de Apple y otros. Mientras tanto, los modelos realmente desarrollados para codificar y decodificar video se ejecutarán como cualquier otro software acelerado en dispositivos periféricos o en la nube: impleméntelo en AWS o Azure, ejecútelo localmente con módulos de cómputo ARM o Intel, y así sucesivamente.

Parece que WaveOne puede estar en algo que cumple todos los requisitos de un gran evento b2b: mejora de manera invisible las cosas para los clientes, se ejecuta en hardware existente o futuro sin modificaciones, ahorra costos de inmediato (potencialmente, de todos modos) pero se puede invertir en agregar valor.

Quizás es por eso que lograron atraer una ronda de semillas tan grande: $ 6.5 millones, liderados por Khosla Ventures, con $ 1M cada uno de Vela Partners e Incubate Fund, más $ 650K de Omega Venture Partners y $ 350K de Blue Ivy.

En este momento, WaveOne se encuentra en una etapa pre-alfa, ya que demostró la tecnología de manera satisfactoria pero no construyó un producto a gran escala. La ronda semilla, dijo Rippel, fue eliminar el riesgo de la tecnología, y aunque todavía hay mucha I + D por hacer, han demostrado que la oferta principal funciona: la construcción de la infraestructura y las capas de API es lo siguiente y equivale a una fase diferente para la empresa. Aun así, dijo, esperan terminar las pruebas y hacer una lista de algunos clientes antes de recaudar más dinero.

Es posible que el futuro de la industria del video no se parezca mucho a las últimas dos décadas y eso podría ser algo muy bueno. Sin duda, escucharemos más de WaveOne a medida que migra del laboratorio al producto.

Source link