Por qué el aprendizaje automático sigue siendo tonto (y cómo podemos solucionarlo)

Los investigadores del MIT e IBM se han unido para crear un repositorio de imágenes que desafíen las debilidades inherentes a los sistemas de visión por computadora.
Parte del problema con el aprendizaje automático es que no tiene una base de conocimiento a la que recurrir, como lo hace un humano, cuando un objeto se saca de contexto
Llamado ObjectNet, el conjunto de imágenes presenta nuevos desafíos para los sistemas de aprendizaje automático existentes. Los investigadores esperan que los ingenieros que construyan algoritmos de visión por computadora usen el repositorio para mejorar sus sistemas.

Si una manzana cae de un árbol 10 millones de veces en videos que se muestran a un algoritmo de aprendizaje automático, cuando el sistema vuelve a ver una manzana, va a predecir la caída inevitable de la manzana. Pero no todas las manzanas son parte de un experimento newtoniano, pero el aprendizaje automático no lo sabe fuera de su contexto muy limitado.

Esta falta de conciencia situacional es un gran problema con el aprendizaje automático. Dejando de depender solo de sus datos de entrenamiento, el aprendizaje automático puede ser algo tonto, incapaz de discernir objetos comunes en una ubicación poco común, como un martillo en una cama (en la foto de arriba) en lugar de un banco de trabajo.

Para mejorar el coeficiente intelectual del aprendizaje automático, un equipo del Instituto de Tecnología de Massachusetts e investigadores de IBM están haciendo pública una base de datos completa de fotos de prueba imperfectas que buscan desafiar los sistemas existentes. Se llama ObjectNet, y el objetivo principal es instar a los tecnólogos en la dirección de nuevas soluciones de reconocimiento de imágenes.

Perfectamente imperfecta

ObjectNet, una obra de teatro en ImageNet, una base de datos fotográfica de colaboración colectiva creada para la investigación de IA, contiene más de 50,000 "pruebas de imagen", que los investigadores tienen cuidado de no llamar a los datos de entrenamiento.

ObjectNet no pretende ser un repositorio de datos de entrenamiento para enseñar el reconocimiento de objetos. En cambio, estas imágenes ayudan a entrenar la conciencia situacional de los algoritmos, como reconocer un par de guantes de cocina si se colocan en el piso en lugar de en la mesa de la cocina.

Esta desconexión situacional proviene de un simple sesgo de muestra. Si desea que un vehículo autónomo funcione tanto en buen clima como en mal tiempo, pero solo entrene software de visión por computadora con imágenes de días soleados, el automóvil básicamente tendrá un espasmo tecnológico cuando vea nieve. Lo mismo es cierto para la mayoría de los algoritmos de aprendizaje automático.

"La mayoría de los experimentos científicos tienen controles, confusiones que se eliminan de los datos, para garantizar que los sujetos no puedan realizar una tarea explotando las correlaciones triviales en los datos", escribieron los investigadores del MIT e IBM en el sitio web ObjectNet. "Históricamente, los grandes conjuntos de datos de aprendizaje automático y visión por computadora han carecido de tales controles. Esto ha resultado en modelos que deben ajustarse para nuevos conjuntos de datos y funcionar mejor en conjuntos de datos que en aplicaciones del mundo real".

El equipo señaló que cuando los sistemas de detección de objetos se probaron contra las imágenes de ObjectNet, mostraron una disminución del rendimiento del 40 al 45 por ciento debido al sesgo de la muestra.

Moviéndose más allá de gatos y perros

Hace tan solo diez años, los investigadores de la visión por computadora pensaron que sería casi imposible hacer que una máquina dijera la diferencia entre un gato y un perro, pero ahora se puede hacer con más del 99 por ciento de precisión. Eso es de acuerdo con Joseph Redmon, un estudiante graduado de la Universidad de Washington que administra el Darknet Neural Network Framework, un sistema que prueba el software de reconocimiento de imágenes.

En una charla TED de agosto de 2017, Redmon ilustró las debilidades en los algoritmos de aprendizaje automático en dos fotos. La primera foto era una imagen simple del Malamute de Alaska de Redmon, y el sistema identificó correctamente al perro e incluso clasificó su raza. En una segunda imagen, que contenía un Malamute pero también un gato rodando sobre una silla de computadora, el software solo reconoció al perro, ignorando al gato por completo.

En otro ejemplo, el primer clasificador universal de ladrillos LEGO del mundo utiliza una red neuronal convolucional, un algoritmo de aprendizaje profundo que toma una entrada de imagen, le asigna importancia y luego clasifica las características entre sí, para crear software que pueda discernir entre los 3.000 tipos de ladrillos en el catálogo de Lego.

Sin embargo, rápidamente se dio cuenta de que el sistema se volvería loco si lo entrenaba en imágenes 3D de los ladrillos de una base de datos en línea, pero las versiones del mundo real no se veían igual. Entonces, usó una fuente de luz extremadamente brillante para estandarizar la luz, la sombra y los ángulos de las piezas que caen por el cinturón del clasificador.

Entonces las máquinas son inteligentes, pero con mucho de mano.

Una mejor educación

Outsight ha creado un sistema de sensor único que puede ayudar a los vehículos autónomos a "ver" más objetos en más contextos que los láseres lidar.
Outsight

El contexto es prácticamente todo en lo que respecta a la detección de objetos, dice Raul Bravo, presidente y CEO de Outsight, una startup de imágenes en 3D. Mecánica Popular, y si se mete con ese contexto, la capacidad de su algoritmo de aprendizaje automático para identificar objetos va a palidecer en comparación con la de un niño pequeño.

Entonces Outsight está desarrollando un sistema para mejorar la detección de objetos 3D sin aprendizaje automático. La idea es utilizar láseres de alta potencia y un mejor software para obtener mejores resultados porque el aprendizaje automático, por sí solo, no es lo suficientemente fuerte o robusto como para confiar en él.

"(No) puede lidiar con la complejidad de las situaciones a las que se enfrenta", dijo Bravo. "En nuestra experiencia, se requería otra forma de pensar".

La primera punta en el enfoque de Outsight es un láser de estado sólido, que se utiliza para identificar objetos. Es diferente de los láseres típicos utilizados en los sistemas de percepción, como el lidar en los automóviles sin conductor. Esto se debe a que funciona en longitudes de onda alejadas del espectro visible, por lo que no puede dañar a los humanos.

El láser puede enviar una banda de miles de colores diferentes, simultáneamente, de modo que cuando la luz golpea un objeto físico, las longitudes de onda que se devuelven pueden identificarse como tipos muy específicos de material, ya sea plástico, metal o algodón. Eso podría ayudar a los vehículos autónomos a ver a los peatones frente a los animales y les da a las computadoras otra dimensión de comprensión en la detección, dice Bravo.

Si puede eliminar esa limitación, es posible ayudar a la computadora a "ver" más tipos de objetos en nuevos contextos, creando un nuevo tipo de máquina que podría comenzar a rivalizar con la conciencia humana o, al menos, un niño pequeño.

Source link

Anterior: Los anuncios de televisión Dolittle de Robert Downey Jr. revelan nuevas imágenes

Siguiente: Cae banda de delincuentes roba autos, hallan predio con mercancía robada, en San Juan del Río