Voxel51 recauda $ 2 millones para su identificación nativa de video de personas, automóviles y más

Muchas empresas y municipios cargan con cientos o miles de horas de video y formas limitadas de convertirlo en datos utilizables. Voxel51 ofrece una opción basada en el aprendizaje automático que analiza el video y lo etiqueta, no solo con un simple reconocimiento de imágenes, sino también con la comprensión de los movimientos y los objetos a lo largo del tiempo.

Anotar videos es una tarea importante para muchas industrias, la más conocida de las cuales es, sin duda, la conducción autónoma. Pero también es importante en la robótica, las industrias de servicios y minoristas, para encuentros policiales (ahora que las cámaras corporales se están volviendo comunes) y así sucesivamente.

Se hace de varias maneras, desde humanos literalmente dibujando cuadros alrededor de objetos en cada cuadro y escribiendo lo que hay en ellos hasta enfoques más avanzados que automatizan gran parte del proceso, incluso ejecutándose en tiempo real. Pero la regla general con estos es que se hacen cuadro por cuadro.

Un solo cuadro es excelente si desea saber cuántos automóviles hay en una imagen, si hay una señal de alto o qué se lee en una matrícula. Pero, ¿qué sucede si necesita saber si alguien camina o se aparta del camino? ¿Qué pasa si alguien está saludando o tirando una piedra? ¿Las personas en una multitud van hacia la derecha o hacia la izquierda, en general? Este tipo de cosas es difícil de inferir de un solo cuadro, pero mirar solo dos o tres seguidos lo deja claro.

Ese hecho es lo que está aprovechando la startup Voxel51 para enfrentarse a la competencia establecida en este espacio. Los algoritmos nativos de video pueden hacer algunas cosas que los de un solo cuadro no pueden, y donde se superponen, el primero a menudo lo hace mejor.

Voxel51 surgió del trabajo de visión por computadora realizado por sus cofundadores, el CEO Jason Corso y el CTO Brian Moore, en la Universidad de Michigan. Este último tomó la clase de visión por computadora del primero y finalmente los dos descubrieron que compartían el deseo de sacar ideas del laboratorio.

“Comencé la empresa porque tenía esta gran cantidad de investigación”, dijo Corso, “y la gran mayoría de los servicios que estaban disponibles se centraban en la comprensión basada en imágenes en lugar de la comprensión basada en videos. Y en casi todos los casos que hemos visto, cuando usamos un modelo basado en video, vemos mejoras en la precisión”.

Si bien cualquier algoritmo comercial antiguo puede reconocer un automóvil o una persona en una imagen, se necesita mucho más conocimiento para hacer algo que pueda, por ejemplo, identificar comportamientos de fusión en una intersección o decir si alguien se ha deslizado entre los automóviles para cruzar la calle. . En cada una de esas situaciones, el contexto es importante y se necesitan múltiples cuadros de video para caracterizar la acción.

“Cuando procesamos datos, observamos el volumen espacio-temporal como un todo”, dijo Corso. “Cinco, 10, 30 fotogramas… nuestros modelos calculan qué tan atrás y adelante debe mirar para encontrar una inferencia sólida”.

En otras palabras más normales, el modelo de IA no solo observa una imagen, sino las relaciones entre muchas imágenes a lo largo del tiempo. Si no está seguro de si una persona en un cuadro determinado está agachada o aterrizando de un salto, sabe que puede desplazarse un poco hacia adelante o hacia atrás para encontrar la información que lo aclare.

E incluso para tareas de inferencia más ordinarias, como contar los autos en la calle, esos datos se pueden verificar dos veces o actualizar mirando hacia atrás o saltando hacia adelante. Si solo puedes ver cinco autos porque uno es grande y bloquea un sexto, eso no cambia el hecho de que hay seis autos. Incluso si cada cuadro no muestra todos los automóviles, sigue siendo importante, por ejemplo, para un sistema de monitoreo de tráfico.

La objeción natural a esto es que procesar 10 cuadros para averiguar qué está haciendo una persona es más costoso, computacionalmente hablando, que procesar un solo cuadro. Eso es ciertamente cierto si lo trata como una serie de imágenes fijas, pero no es así como lo hace Voxel51.

“Nos salimos con la nuestra procesando menos píxeles por cuadro”, explicó Corso. “La cantidad total de píxeles que procesamos puede ser igual o menor que un solo cuadro, según lo que queramos que haga”.

Por ejemplo, en un video que debe examinarse de cerca pero la velocidad no es una preocupación (como una acumulación de datos de cámaras de tráfico), puede gastar todo el tiempo que necesita en cada cuadro. Pero para un caso en el que el giro deba ser más rápido, puede hacer un pase rápido en tiempo real para identificar objetos y movimientos principales, luego volver y enfocarse en las partes que son más importantes, no el cielo inmóvil o estacionado. coches, sino personas y otros objetos conocidos.

La plataforma está altamente parametrizada y, naturalmente, no comparte las limitaciones de la anotación impulsada por humanos (aunque esta última sigue siendo la opción principal para aplicaciones muy novedosas en las que tendría que construir un modelo desde cero).

“No tiene que preocuparse por si es el anotador A o el anotador B, y nuestra plataforma es una plataforma informática, por lo que escala según la demanda”, dijo Corso.

Han empaquetado todo en una interfaz de arrastrar y soltar que llaman Scoop. Introduces tus datos (videos, GPS, cosas por el estilo) y dejas que el sistema lo atraviese. Luego, tiene un mapa navegable que le permite enumerar o rastrear cualquier número de cosas: tipos de señales, BMW azules, Toyota rojos, carriles de giro a la derecha, personas caminando en la acera, personas que se amontonan en un cruce de peatones, etc. Y puede combine categorías, en caso de que esté buscando escenas en las que ese BMW azul estaba en un carril de giro a la derecha.

Cada avistamiento se adjunta al video de origen, con cuadros delimitadores colocados sobre él que indican las ubicaciones de lo que está buscando. Luego puede exportar los videos relacionados, con o sin anotaciones. Hay un sitio de demostración que muestra cómo funciona todo.

Es un poco como Live Maps recientemente anunciado por Nexar, aunque obviamente también es bastante diferente. El hecho de que dos empresas puedan buscar el procesamiento impulsado por IA de cantidades masivas de datos de video a nivel de calle y aún así ser propuestas comerciales distintas indica cuán grande es el mercado potencial para este tipo de servicio.

A pesar de su inteligencia de características de calle, Voxel51 no busca autos sin conductor para comenzar. Las empresas en ese espacio, como Waymo y Toyota, están buscando sistemas orientados verticalmente bastante estrechos que están muy enfocados en identificar objetos y comportamientos específicos para la navegación autónoma. Las prioridades y necesidades son diferentes a las de, digamos, una empresa de seguridad o una fuerza policial que monitorea cientos de cámaras a la vez, y hacia ahí se dirige la empresa en este momento. Eso es consistente con la financiación inicial de la empresa, que provino de una subvención del NIST en el sector de la seguridad pública.

Construido sin intervención humana a partir de 250 horas de video, un mapa de señales/señales como este sería útil para muchos municipios

“La primera fase de comercialización se centra en las ciudades inteligentes y la seguridad pública”, dijo Corso. “Estamos trabajando con departamentos de policía que se enfocan en la seguridad ciudadana. Entonces, los oficiales quieren saber, ¿se está produciendo un incendio o se está reuniendo una multitud donde no debería reunirse?”.

“En este momento es un piloto experimental: nuestro sistema funciona junto con CitiWatch de Baltimore”, continuó, refiriéndose a un sistema de vigilancia de monitoreo de delitos en la ciudad. “Tienen 800 cámaras y cinco o seis policías jubilados que se sientan en un sótano observándolas, así que los ayudamos a ver la señal correcta en el momento correcto. Los comentarios han sido emocionantes: cuando [CitiWatch overseer Major Hood] vio el resultado de nuestro modelo, no solo la persona sino también el comportamiento, discutiendo o peleando, sus ojos se iluminaron”.

Ahora, seamos honestos, suena un poco distópico, ¿no? Pero Corso tuvo cuidado de señalar que no están en el negocio de rastrear personas.

“Somos principalmente analíticos de video para preservar la privacidad; no tenemos capacidad ni interés en ejecutar la identificación de rostros. No nos enfocamos en ningún tipo de identidad”, dijo.

Es bueno que la prioridad no esté en la identidad, pero todavía da un poco de miedo tener una capacidad disponible. Y, sin embargo, como cualquiera puede ver, la capacidad está ahí: solo se trata de hacer que sea útil y útil en lugar de simplemente espeluznante. Si bien uno puede imaginar usos poco éticos como tomar medidas enérgicas contra los manifestantes, también es fácil imaginar cuán útil podría ser esto en una situación de alerta ámbar o plateada. ¿El chico malo en un Lexus beige? Boom, visto por última vez aquí.

En cualquier caso, la plataforma es impresionante y el trabajo de visión por computadora que se realizó en ella aún más. No sorprende que la compañía haya recaudado un poco de efectivo para seguir adelante. La ronda inicial de $ 2 millones fue dirigida por eLab Ventures, una empresa de capital de riesgo con sede en Palo Alto y Ann Arbor, y la compañía atrajo anteriormente la subvención de $ 1,25 millones del NIST mencionada anteriormente.

El dinero se utilizará para los fines esperados, establecer el producto, desarrollar el soporte y el lado no técnico de la empresa, etc. Los precios flexibles y los resultados casi instantáneos (en términos de procesamiento de video) parecen algo que impulsará la adopción con bastante rapidez, dados los enormes volúmenes de video sin explotar que existen. Espere ver más empresas como Corso y Moore a medida que el valor de ese video se vuelve claro.

Source link