La aplicación ‘SmartLens’ creada por un estudiante de secundaria es un paso hacia la búsqueda visual multipropósito

Hace un par de años, esperaba ansiosamente una aplicación que identificara cualquier cosa que señalara. Resultó que el problema era mucho más difícil de lo que nadie esperaba, pero eso no impidió que Michael Royzen, estudiante de último año de secundaria, lo intentara. Su aplicación, SmartLens, intentos de resolver el problema de ver algo y querer identificarlo y aprender más al respecto, con un éxito mixto, sin duda, pero es algo que no me importa tener en el bolsillo.

Royzen se acercó a mí hace un tiempo y tenía curiosidad, además de escepticismo, sobre la idea de que donde Google y Apple han fallado hasta ahora (o al menos no han podido lanzar nada bueno), un estudiante de secundaria que trabaja en su el tiempo libre triunfaría. Lo conocí en una cafetería para ver la aplicación en acción y me sorprendió gratamente, pero me desconcertó un poco.

La idea es simple, por supuesto: apunta la cámara de su teléfono a algo y la aplicación intenta identificarlo utilizando un agente de clasificación enorme pero altamente optimizado entrenado en decenas de millones de imágenes. Se conecta a Wikipedia y Amazon para que pueda obtener más información de inmediato sobre lo que ha identificado o comprarlo.

Reconoce más de 17.000 objetos, como diferentes especies de frutas y flores, puntos de referencia, herramientas, etc. La aplicación tuvo pocos problemas para distinguir una manzana de un mango (de aspecto extraño), una banana de un plátano e incluso identificó los pistachos que había pedido como refrigerio. Más tarde, en mis propias pruebas, lo encontré bastante útil para identificar las plantas que brotaban en mi vecindario: bígaros, anémonas, acederas, las atrapó todas, aunque no sin vacilaciones ocasionales.

El truco es que todo esto sucede fuera de línea: no está enviando una imagen a través de la red celular o Wi-Fi a un servidor en algún lugar para analizarla. Todo sucede en el dispositivo y en uno o dos segundos. Royzen extrajo su propia base de datos de imágenes de varias fuentes y entrenó múltiples redes neuronales convolucionales utilizando días de tiempo de cómputo de AWS EC2.

Luego, hay mucho más que ese número en productos que reconoce leyendo el texto del artículo y consultando la base de datos de Amazon. Identificó libros, un frasco de píldoras y otros productos empaquetados casi al instante, proporcionando enlaces para comprarlos. Los enlaces de Wikipedia también aparecen si está en línea, aunque se guarda una cantidad considerable de descripciones básicas en el dispositivo.

En ese sentido, hay que decir que SmartLens es una descarga de más de 500 megas. El modelo de Royzen es enorme, ya que debe mantener todos los datos de reconocimiento y el contenido fuera de línea allí mismo en el teléfono. Este es un enfoque muy diferente al problema que el propio motor de reconocimiento de productos de Amazon en Fire Phone (RIP) o Google Goggles (RIP) o la función de escaneo en Google Photos (que fue bastante inútil para las cosas que SmartLens hizo de manera confiable en medio segundo) .

“Con varias generaciones pasadas de teléfonos inteligentes que contienen procesadores de clase de escritorio y la llegada de las API nativas de aprendizaje automático que pueden aprovecharlos (y las GPU), existe el hardware para un motor de búsqueda visual ultrarrápido”, escribió Royzen en un correo electrónico. Pero ninguna de las grandes empresas que esperaría crear una lo ha hecho. ¿Por qué?

El tamaño de la aplicación y el costo del procesador es una cosa, sin duda, pero el borde y el procesamiento en el dispositivo es donde todo esto irá eventualmente: Royzen solo está comenzando temprano. La verdad probable es doble: es difícil ganar dinero y la calidad de la búsqueda no es lo suficientemente alta.

Hay que decir en este punto que SmartLens, aunque inteligente, está lejos de ser infalible. Sus sugerencias sobre lo que podría ser un elemento casi siempre son hilarantemente incorrectas por un momento antes de llegar, como sucede a menudo, a la respuesta correcta.

Identificó un libro que tenía como “Ballena blanca”, y no, no era Moby Dick. Un pisapapeles de ballena real decidió que era una paleta. Muchos ítems mostraron brevemente conjeturas de “Ser humano” o “Diseño de producto” antes de llegar a una conjetura con mayor confianza. Un arbusto en flor lo identificó como cuatro o cinco plantas diferentes, incluido, por supuesto, el Ser Humano. Mi monitor era una “pantalla de computadora”, “pantalla de cristal líquido”, “monitor de computadora”, “computadora”, “pantalla de computadora”, “dispositivo de visualización” y más. Los controladores de juego eran todos “control”. Una espátula era una cuchara de madera (bastante parecida), con el subtítulo inexplicable “premio bobo”. ¡¿Qué?!

Este nivel de rendimiento (y rareza en general, aunque entretenido) no sería tolerado en un producto independiente lanzado por Google o Apple. Google Lens era lento y malo, pero es solo una función opcional en una aplicación útil y funcional. Si lanzara una aplicación de búsqueda visual que identificara las flores como personas, la empresa nunca escucharía el final.

Y el otro lado es el aspecto de monetización. Aunque teóricamente es conveniente poder tomar una foto de un libro que tiene un amigo y pedirlo al instante, no es mucho más conveniente que tomar una foto y buscarla más tarde, o simplemente escribir las primeras palabras en Google o Amazon, que hará el resto por ti.

Mientras tanto para el usuario sigue habiendo confusión. ¿Qué puede identificar? ¿Qué no puede identificar? ¿Qué necesito para identificar? Está destinado a identificar muchas cosas, desde razas de perros y escaparates, pero probablemente no identificará, por ejemplo, un altavoz Bluetooth genial o un reloj mecánico que tenga su amigo, o el creador de una pintura en una galería local (algunas pinturas son reconocidas , sin embargo). Mientras lo usaba, sentí que solo lo usaría para un puñado de tareas en las que se había probado, como identificar flores, pero dudaría en probarlo en muchas otras cosas cuando podría estar frustrado por algunos incapacidad desconocida o falta de fiabilidad.

Y, sin embargo, la idea de que en un futuro muy cercano no habrá algo como SmartLens me parece ridícula. Parece tan claro que es algo que todos daremos por sentado en unos años. Y estará en el dispositivo, no es necesario cargar su imagen en un servidor en algún lugar para analizarla en su nombre.

La aplicación de Royzen tiene sus problemas, pero funciona muy bien en muchas circunstancias y tiene una utilidad evidente. La idea de que podría apuntar su teléfono al restaurante frente al cual se encuentra al otro lado de la calle y ver las reseñas de Yelp dos segundos después (sin necesidad de abrir un mapa o escribir una dirección o un nombre) es una expansión extremadamente natural de los paradigmas de búsqueda existentes. .

“La búsqueda visual sigue siendo un nicho, pero mi objetivo es darles a las personas una idea de un futuro en el que una aplicación pueda brindar información útil sobre cualquier cosa que les rodea, hoy”, escribió Royzen. “Aún así, es inevitable que las grandes empresas finalmente lancen sus ofertas competidoras. Mi estrategia es vencerlos en el mercado como la primera aplicación universal de búsqueda visual y acumular tantos usuarios como sea posible para poder mantenerme a la vanguardia (o ser adquirido)”.

Sin embargo, mi mayor queja de todas no es la funcionalidad de la aplicación, sino la forma en que Royzen ha decidido monetizarla. Los usuarios pueden descargarlo de forma gratuita, pero al abrirlo se les solicita de inmediato que se registren para obtener una suscripción de $ 2 / mes (aunque el primer mes es gratuito), antes de que puedan ver si la aplicación funciona o no. Si no supiera ya lo que hizo y lo que no hizo la aplicación, la eliminaría sin pensarlo dos veces al ver ese cuadro de diálogo, e incluso sabiendo lo que hago, es probable que no pague a perpetuidad por ello.

Una tarifa única para activar la aplicación sería más que razonable, y siempre existe la opción de códigos de referencia para esas compras de Amazon. Pero exigir un alquiler a los usuarios que ni siquiera han probado el producto es imposible. Le he dicho a Royzen mis preocupaciones y espero que lo reconsidere.

También sería bueno escanear imágenes que ya ha tomado o guardar imágenes asociadas con búsquedas. Las mejoras en la interfaz de usuario, como un indicador de confianza o algún tipo de retroalimentación para hacerle saber que todavía está trabajando en la identificación, también serían buenas, características que, al menos teóricamente, están en camino.

Al final, estoy impresionado con los esfuerzos de Royzen: cuando doy un paso atrás, me sorprende que sea posible que una sola persona, y mucho menos una en la escuela secundaria, cree una aplicación capaz de completar tareas de visión por computadora tan sofisticadas. Es el tipo de creación de aplicaciones (demasiado) ambiciosa que uno espera que surja de una empresa grande y lúdica como la Google de hace una década. Esto puede ser más una curiosidad que una herramienta en este momento, pero también lo fueron los primeros motores de búsqueda basados en texto.

SmartLens ya está en la App Store – Dale un tiro.

Source link