Glisten utiliza la visión por computadora para desglosar las fotos de los productos en sus partes más importantes

Glisten utiliza la visión por computadora para desglosar las fotos de los productos en sus partes más importantes

Es increíble que hoy en día, la mejor manera de buscar ropa nueva es hacer clic en algunas casillas de verificación y luego desplazarse por imágenes interminables. ¿Por qué no puedes buscar “vestido de escote redondo estampado verde” y ver uno? Relucir es una nueva empresa que permite precisamente eso mediante el uso de la visión por computadora para comprender y enumerar los aspectos más importantes de los productos en cualquier foto.

Ahora, usted puede pensar que esto ya existe. En cierto modo, lo hace, pero no de una manera que sea útil. La cofundadora Sarah Wooders se encontró con esto mientras trabajaba en un proyecto propio de búsqueda de moda mientras asistía al MIT.

“Estaba postergando las compras en línea, y busqué una camisa corta con cuello en V, y solo surgieron dos cosas. Pero cuando me desplacé, había 20 más o menos”, dijo. “Me di cuenta de que las cosas estaban etiquetadas de maneras muy inconsistentes, y si los datos son tan asquerosos cuando los consumidores los ven, probablemente sea aún peor en el backend”.

Resulta que los sistemas de visión por computadora han sido entrenados para identificar, realmente con bastante eficacia, características de todo tipo de imágenes, desde identificar razas de perros hasta reconocer expresiones faciales. Cuando se trata de moda y otros productos relativamente complejos, hacen lo mismo: miran la imagen y generan una lista de características con los niveles de confianza correspondientes.

Entonces, para una imagen dada, produciría una especie de lista de etiquetas, como esta:

Como puedes imaginar, eso es bastante útil. Pero también deja mucho que desear. El sistema realmente no comprende qué significan realmente “granate” y “manga”, excepto que están presentes en esta imagen. Si le preguntara al sistema de qué color es la camisa, se quedaría perplejo a menos que ordenara manualmente la lista y dijera, estas dos cosas son colores, estos son estilos, estas son variaciones de estilos, etc.

Eso no es difícil de hacer para una imagen, pero un minorista de ropa puede tener miles de productos, cada uno con una docena de imágenes, y cada semana llegan nuevos. ¿Quiere ser el pasante asignado a copiar y pegar etiquetas en campos ordenados? No, y nadie más tampoco. Ese es el problema que resuelve Glisten, al hacer que el motor de visión por computadora sea considerablemente más consciente del contexto y sus resultados sean mucho más útiles.

Aquí está la misma imagen que podría ser procesada por el sistema de Glisten:

Mejor, ¿verdad?

“Nuestra respuesta API será en realidad, el escote es este, el color es este, el patrón es este”, dijo Wooders.

Ese tipo de datos estructurados se puede conectar mucho más fácilmente a una base de datos y consultar con confianza. Los usuarios (no necesariamente los consumidores, como explicó Wooders más adelante) pueden mezclar y combinar, sabiendo que cuando dicen “mangas largas”, el sistema en realidad miró las mangas de la prenda y determinó que son largas.

El sistema se entrenó en una biblioteca en crecimiento de alrededor de 11 millones de imágenes de productos y las descripciones correspondientes, que el sistema analiza utilizando el procesamiento de lenguaje natural para descubrir qué se refiere a qué. Eso da importantes pistas contextuales que evitan que la modelo piense que “formal” es un color o “lindo” es una ocasión. Pero tendría razón al pensar que no es tan fácil como simplemente conectar los datos y dejar que la red lo resuelva.

Aquí hay una especie de versión idealizada de cómo se ve:

“Hay mucha ambigüedad en términos de moda y eso definitivamente es un problema”, admitió Wooders, pero lejos de ser insuperable. “Cuando proporcionamos el resultado para nuestros clientes, le damos una puntuación a cada atributo. Entonces, si es ambiguo, ya sea un cuello redondo o un cuello redondo, si el algoritmo funciona correctamente, pondrá mucho peso en ambos. Si no está seguro, le dará una puntuación de confianza más baja. Nuestros modelos están entrenados en el agregado de cómo las personas etiquetaron las cosas, por lo que obtienes un promedio de cuál es la opinión de las personas”.

Inicialmente, el modelo estaba destinado a la moda y la ropa en general, pero con los datos de entrenamiento correctos, también puede aplicarse a muchas otras categorías: los mismos algoritmos podrían encontrar las características definitorias de los automóviles, los productos de belleza, etc. Así es como se vería una botella de champú: en lugar de mangas, corte y ocasión, tiene volumen, tipo de cabello y contenido de parabenos.

Si bien es probable que los compradores vean los beneficios de la tecnología de Glisten con el tiempo, la compañía descubrió que sus clientes en realidad están a dos pasos del punto de venta.

“Lo que nos dimos cuenta con el tiempo fue que el cliente correcto es el cliente que siente el dolor de tener datos de productos desordenados y poco confiables”, explicó Wooders. “Eso es principalmente empresas de tecnología que trabajan con minoristas. Nuestro primer cliente era en realidad una empresa de optimización de precios, otro era una empresa de marketing digital. Esos están bastante fuera de lo que pensamos que serían las aplicaciones”.

Tiene sentido si lo piensas. Cuanto más sepa sobre el producto, más datos tendrá para correlacionar con los comportamientos de los consumidores, las tendencias y demás. Saber que vuelven los vestidos de verano, pero saber que vuelven los diseños florales azules y verdes con mangas 3/4 es mejor.

Las cofundadoras de Glisten, Sarah Wooders (izquierda) y Alice Deng

La competencia consiste principalmente en equipos de etiquetado interno (la revisión manual que establecimos ninguno de nosotros querría hacer) y algoritmos de visión por computadora de uso general, que no producen el tipo de datos estructurados que produce Glisten.

Incluso antes del día de demostración de Y Combinator la próxima semana, la compañía ya está viendo cinco cifras de ingresos recurrentes mensuales, con su proceso de ventas limitado al alcance individual a las personas que pensaron que lo encontrarían útil. “Ha habido una gran cantidad de ventas en las últimas semanas”, dijo Wooders.

Es posible que pronto Glisten esté impulsando muchos motores de búsqueda de productos en línea, aunque idealmente ni siquiera lo notará; con suerte, encontrará lo que está buscando mucho más fácilmente.

(Este artículo originalmente citaba a Alice Deng cuando en realidad era Wooders todo el tiempo, un error en mis notas. También se actualizó para reflejar mejor que el sistema es aplicable a productos más allá de la moda).


Source link