Todo lo que sabe sobre la visión por computadora pronto puede estar equivocado

Ubicept quiere que la mitad de las cámaras del mundo vean las cosas de otra manera

La visión por computadora podría ser mucho más rápida y mejor si omitimos el concepto de fotogramas fijos y, en cambio, analizamos directamente el flujo de datos de una cámara. Al menos, esa es la teoría de que la creación más reciente que surge del laboratorio de medios del MIT, Ubiceptestá operando bajo.

La mayoría de las aplicaciones de visión por computadora funcionan de la misma manera: una cámara toma una imagen (o una serie rápida de imágenes, en el caso del video). Estos fotogramas fijos se pasan a una computadora, que luego realiza el análisis para descubrir qué hay en la imagen. Suena bastante simple.

Pero hay un problema: ese paradigma asume que crear fotogramas fijos es una buena idea. Como seres humanos que están acostumbrados a ver fotografías y videos, eso podría parecer razonable. Sin embargo, a las computadoras no les importa, y Ubicept cree que puede hacer que la visión por computadora sea mucho mejor y más confiable al ignorar la idea de los marcos.

La empresa en sí es una colaboración entre sus cofundadores. Sebastian Bauer es el director general de la empresa y un posdoctorado en la Universidad de Wisconsin, donde trabajaba en sistemas lidar. Tristan Swedish es ahora el CTO de Ubicept. Antes de eso, fue asistente de investigación y obtuvo una maestría y un doctorado. estudiante en el MIT Media Lab durante ocho años.

“Hay 45 mil millones de cámaras en el mundo, y la mayoría de ellas están creando imágenes y videos que en realidad no están siendo vistos por un ser humano”, explicó Bauer. “Estas cámaras son principalmente para la percepción, para que los sistemas tomen decisiones basadas en esa percepción. Piense en la conducción autónoma, por ejemplo, como un sistema en el que se trata de reconocimiento de peatones. Están saliendo todos estos estudios que muestran que la detección de peatones funciona muy bien con luz diurna brillante, pero particularmente mal con poca luz. Otros ejemplos son las cámaras para clasificación industrial, inspección y control de calidad. Todas estas cámaras se están utilizando para la toma de decisiones automatizada. En habitaciones suficientemente iluminadas o con luz diurna, funcionan bien. Pero con poca luz, especialmente en relación con el movimiento rápido, surgen problemas”.

La solución de la compañía es pasar por alto el “cuadro fijo” como la fuente de la verdad para la visión por computadora y, en su lugar, medir los fotones individuales que golpean un sensor de imágenes directamente. Eso se puede hacer con una matriz de diodos de avalancha de un solo fotón (o matriz SPAD, entre amigos). Este flujo de datos sin procesar se puede introducir en una matriz de puertas programables en campo (FPGA, un tipo de procesador superespecializado) y luego analizado por algoritmos de visión por computadora.

La compañía recién fundada demostró su tecnología en el CES de Las Vegas en enero y tiene algunos planes bastante audaces para el futuro de la visión artificial.

“Nuestra visión es tener tecnología en al menos el 10 % de las cámaras en los próximos cinco años y en al menos el 50 % de las cámaras en los próximos 10 años”, proyectó Bauer. “Cuando detectas cada fotón individual con una resolución de tiempo muy alta, estás haciendo lo mejor que la naturaleza te permite hacer. Y ves los beneficios, como los videos de alta calidad en nuestra página web, que simplemente están sacando todo lo demás del agua”.

TechCrunch vio la tecnología en acción en una demostración reciente en Boston y quería explorar cómo funciona la tecnología y cuáles son las implicaciones para la visión artificial y las aplicaciones de IA.

Una nueva forma de ver

Las cámaras digitales generalmente funcionan tomando una exposición de un solo cuadro al “contar” la cantidad de fotones que golpean cada uno de los píxeles del sensor durante un cierto período de tiempo. Al final del período de tiempo, todos esos fotones se multiplican juntos y tienes una fotografía fija. Si no se mueve nada en la imagen, eso funciona muy bien, pero el asunto de “si nada se mueve” es una advertencia bastante grande, especialmente cuando se trata de la visión por computadora. Resulta que cuando intentas usar cámaras para tomar decisiones, todo se mueve todo el tiempo.

Por supuesto, con los datos sin procesar, la empresa aún puede combinar el flujo de fotones en fotogramas, lo que crea un video bellamente nítido sin desenfoque de movimiento. Quizás lo más emocionante es que prescindir de la idea de los marcos significa que el equipo de Ubicept pudo tomar los datos sin procesar y analizarlos directamente. Aquí hay un video de muestra de la gran diferencia que puede hacer en la práctica:


Source link