Glisten utiliza la visión por computadora para descomponer las fotos de moda en sus estilos y partes.

Glisten utiliza la visión por computadora para descomponer las fotos de moda en sus estilos y partes.

Es sorprendente que hoy en día, la mejor manera de buscar ropa nueva sea hacer clic en algunas casillas de verificación y luego desplazarse por las imágenes interminables. ¿Por qué no puedes buscar “vestido con cuello redondo estampado verde” y ver uno? Glisten es una nueva startup que permite eso utilizando la visión por computadora para comprender y enumerar los aspectos más importantes de la ropa en cualquier foto.

Ahora, puede pensar que esto ya existe. En cierto modo, lo hace, pero no de una manera que sea útil. La cofundadora Alice Deng se encontró con esto mientras trabajaba en un proyecto de búsqueda de moda propio mientras iba al MIT.

“Estaba postergando las compras en línea, y busqué una camisa corta con cuello en v, y solo aparecieron 2 cosas. Pero cuando me desplacé por allí había más o menos 20 ”, dijo. “Me di cuenta de que las cosas estaban etiquetadas de maneras muy inconsistentes, y si los datos son tan brutos cuando los consumidores los ven, probablemente sea aún peor en el backend”.

Como resultado, los sistemas de visión por computadora han sido entrenados para identificar, de manera bastante efectiva, características de todo tipo de imágenes, desde identificar razas de perros hasta reconocer expresiones faciales. Cuando se trata de moda, hacen lo mismo: mirar la imagen y generar una lista de características con los niveles de confianza correspondientes.

Entonces, para una imagen dada, produciría una especie de lista de etiquetas, como esta:

Como puedes imaginar, eso es realmente muy útil. Pero también deja mucho que desear. El sistema no comprende realmente lo que realmente significan “marrón” y “manga”, excepto que están presentes en esta imagen. Si le preguntara al sistema de qué color es la camisa, quedaría perplejo a menos que clasificara manualmente la lista y dijera, estas dos cosas son colores, estos son estilos, estas son variaciones de estilos, etc.

Eso no es difícil de hacer para una imagen, pero un minorista de ropa podría tener miles de productos, cada uno con una docena de fotos, y nuevas que llegan semanalmente. ¿Quieres ser el interno asignado a copiar y pegar etiquetas en campos ordenados? No, y tampoco nadie más. Ese es el problema que Glisten resuelve, al hacer que el motor de visión por computadora sea mucho más sensible al contexto y sus resultados sean mucho más útiles.

Aquí está la misma imagen que podría ser procesada por el sistema de Glisten:

Mejor, verdad?

“Nuestra respuesta API será en realidad, el escote es estael color es esta, el patrón es esta“, Dijo Deng.

Ese tipo de datos estructurados se puede conectar con mucha más facilidad a una base de datos y consultar con confianza. Los usuarios (no necesariamente los consumidores, como Deng explica más adelante) pueden mezclar y combinar, sabiendo que cuando dicen “mangas largas” el sistema realmente ha analizado mangas de la prenda y determinó que son largo.

El sistema recibió capacitación en una biblioteca en crecimiento de alrededor de 11 millones de imágenes de productos y descripciones correspondientes, que el sistema analiza utilizando el procesamiento del lenguaje natural para descubrir qué se refiere a qué. Eso da pistas contextuales importantes que evitan que el modelo piense que “formal” es un color o que “lindo” es una ocasión. Pero tiene razón al pensar que no es tan fácil como simplemente enchufar los datos y dejar que la red los resuelva.

Aquí hay una especie de versión idealizada de cómo se ve:

“Hay mucha ambigüedad en términos de moda y definitivamente es un problema”, admitió Deng, pero lejos de ser insuperable. “Cuando proporcionamos el resultado para nuestros clientes, le damos una puntuación a cada atributo. Entonces, si es ambiguo si se trata de un cuello redondo o un cuello redondo, si el algoritmo funciona correctamente, le dará mucho peso a ambos. Si no está seguro, dará un puntaje de confianza más bajo. Nuestros modelos están capacitados en el conjunto de cómo las personas etiquetaron las cosas, por lo que obtienes un promedio de la opinión de las personas “.

Aunque los compradores probablemente verán los beneficios de la tecnología de Glisten a tiempo, la compañía descubrió que sus clientes están en realidad a dos pasos del punto de venta.

“Lo que nos dimos cuenta con el tiempo fue que el cliente correcto es el cliente que siente el dolor de tener datos desordenados y poco confiables del producto”, explicó Deng. “Se trata principalmente de empresas tecnológicas que trabajan con minoristas. Nuestro primer cliente era en realidad una empresa de optimización de precios, otra era una empresa de marketing digital. Están bastante fuera de lo que pensamos que serían las aplicaciones “.

Tiene sentido si lo piensas. Cuanto más sepa sobre el producto, más datos tendrá que correlacionar con los comportamientos, tendencias y demás de los consumidores. Saber que los vestidos de verano volverán, pero saber que los diseños florales azules y verdes con mangas 3/4 volverán es mejor.

Los cofundadores de Glisten, Sarah Wooder (izquierda) y Alice Deng.

El modelo inicialmente está dirigido a la moda y la ropa en general, pero se puede adaptar a otras categorías sin tener que reinventar la rueda: los mismos algoritmos podrían encontrar las características definitorias de los automóviles, productos de belleza, etc.

La competencia consiste principalmente en equipos de etiquetado internos (la revisión manual que establecimos que a ninguno de nosotros nos gustaría hacer) y algoritmos de visión por computadora de propósito general, que no producen el tipo de datos estructurados que Glisten produce.

Incluso por delante de Y Combinator día de demostración la próxima semana, la compañía ya está viendo 5 cifras de ingresos recurrentes mensuales, con su proceso de ventas limitado a la divulgación individual a las personas que pensaron que les sería útil. “Ha habido una gran cantidad de ventas en las últimas semanas”, dijo Deng.

Pronto, Glisten puede estar impulsando muchos motores de búsqueda de productos en línea, aunque lo ideal es que ni siquiera lo note; con suerte, encontrará lo que está buscando mucho más fácil.


Source link