Pinecone, una nueva puesta en marcha de las personas que ayudaron a lanzar Amazon SageMaker, ha creado una base de datos vectorial que genera datos en un formato especializado para ayudar a crear aplicaciones de aprendizaje automático más rápido, algo que antes solo era accesible para las organizaciones más grandes. Hoy, la compañía salió de la cautela con un nuevo producto y anunció una inversión inicial de $ 10 millones liderada por Wing Venture Capital.
El cofundador de la empresa, Edo Liberty, dice que fundó la empresa debido a esta creencia fundamental de que la industria estaba siendo frenada por la falta de un acceso más amplio a este tipo de base de datos. “Los datos que espera un modelo de aprendizaje automático no es un registro JSON, es un vector de alta dimensión que es una lista de características o lo que se llama incrustación, que es una representación numérica de los elementos u objetos del mundo. Esta [format] es mucho más semánticamente rico y procesable para el aprendizaje automático ”, explicó.
Dice que este es un concepto ampliamente comprendido por los científicos de datos y respaldado por la investigación, pero hasta ahora solo las empresas más grandes y técnicamente superiores como Google o Pinterest podían aprovechar esta diferencia. Liberty y su equipo crearon Pinecone para poner ese tipo de tecnología al alcance de cualquier empresa.
La startup pasó los últimos años construyendo la solución, que consta de tres componentes principales. La pieza principal es un motor de vectores para convertir los datos en este formato ingerible de aprendizaje automático. Liberty dice que esta es la pieza de tecnología que contiene todas las estructuras de datos y algoritmos que les permiten indexar cantidades muy grandes de datos vectoriales de alta dimensión y buscar a través de ellos de una manera eficiente y precisa.
El segundo es un sistema alojado en la nube para aplicar todos esos datos convertidos al modelo de aprendizaje automático, mientras se manejan cosas como búsquedas de índices junto con el procesamiento previo y posterior, todo lo que un equipo de ciencia de datos necesita para ejecutar un proyecto de aprendizaje automático a escala. con cargas de trabajo y rendimientos muy grandes. Finalmente, hay una capa de administración para rastrear todo esto y administrar la transferencia de datos entre ubicaciones de origen.
Un ejemplo clásico que usa Liberty es un motor de recomendación de comercio electrónico. Si bien esto ha sido una parte estándar de las ventas en línea durante años, cree que el uso de un enfoque de datos vectorizados dará como resultado recomendaciones mucho más precisas y dice que los datos de investigación de ciencia de datos lo confirman.
“Solía ser que implementar [something like a recommendation engine] en realidad era increíblemente complejo y […] si tiene acceso a una base de datos de grado de producción, el 90% de la dificultad y el trabajo pesado al crear esas soluciones desaparecen, y es por eso que estamos construyendo esto. Creemos que es el nuevo estándar ”, dijo.
La empresa cuenta actualmente con 10 personas, incluidos los fundadores, pero el plan es duplicar o incluso triplicar ese número, dependiendo de cómo vaya el año. Mientras construye su empresa como fundador inmigrante, Liberty es de Israel, dice que la diversidad es lo más importante. Agrega que es algo en lo que trabajó duro en sus posiciones anteriores en Yahoo y Amazon mientras formaba sus equipos en esas dos organizaciones. Una forma en que lo está haciendo es en el proceso de contratación. “Hemos instruido a nuestros reclutadores para que sean proactivos [in finding more diverse applicants], asegurándonos de que no se pierdan grandes candidatos y de que nos traigan un grupo diverso de candidatos ”, dijo.
De cara a la pospandémica, Liberty dice que es un poco más tradicional en términos de oficina que en casa, y que espera tener más interacciones en persona. “Tal vez soy anticuado, pero me gustan las oficinas y me gusta la gente y me gusta ver con quién trabajo y pasar el rato con ellos y reírme y disfrutar de la compañía del otro, así que no me subo al carro de ‘vamos estar todos a distancia y trabajar desde casa ‘”.
Source link