Strong Compute quiere acelerar el entrenamiento de su modelo ML

Entrenar redes neuronales lleva mucho tiempo, incluso con los aceleradores más rápidos y costosos del mercado. Tal vez no sea una sorpresa que varias empresas emergentes estén buscando la manera de acelerar el proceso a nivel de software y eliminar algunos de los cuellos de botella actuales en el proceso de capacitación. Para Computación fuerte, una empresa nueva con sede en Sydney, Australia, que recientemente fue aceptada en la clase de invierno 22 de Y Combinator, se trata de eliminar estas ineficiencias en el proceso de capacitación. Al hacerlo, el equipo argumenta que puede acelerar el proceso de capacitación 100 veces o más.

“PyTorch es hermoso y también lo es TensorFlow. Estos conjuntos de herramientas son asombrosos, pero la simplicidad que tienen, y la facilidad de implementación que tienen, tiene el costo de que las cosas sean ineficientes bajo el capó”, dijo el CEO y fundador de Strong Compute. ben arenaquien anteriormente cofundó la empresa AR Meta (antes de que Facebook usara ese nombre).

Si bien hay empresas que se enfocan en optimizar los propios modelos y Strong Compute también lo hará si sus clientes lo solicitan, Sand señaló que esto puede comprometer los resultados. En cambio, el equipo se enfoca en todo lo relacionado con el modelo. Eso puede ser una canalización de datos lenta o un cálculo previo de muchos de los valores antes de que comience el entrenamiento. Sand también señaló que la compañía ha optimizado algunas de las bibliotecas de uso frecuente para aumento de datos.

La compañía también contrató recientemente a Richard Pruss, un ex ingeniero principal de Cisco, para que se concentre en eliminar los cuellos de botella de la red en la canalización de capacitación, lo que puede sumar rápidamente una gran latencia. Pero, por supuesto, el hardware también puede marcar una gran diferencia, por lo que Strong Compute también trabaja con sus clientes para ejecutar modelos en la plataforma adecuada.

“Strong Compute llevó nuestro entrenamiento de algoritmo central de treinta horas a cinco minutos, entrenando cientos de terabytes de datos”, dijo Miles Penn, director ejecutivo de MSastre, que se especializa en crear ropa personalizada para sus clientes en línea. “Los ingenieros de aprendizaje profundo son probablemente el recurso más preciado de este planeta, y Strong Compute ha permitido que el nuestro sea 10 veces más productivo. El tiempo de iteración y experimentación es la palanca más importante para la productividad de ML, y estábamos perdidos sin Strong Compute”.

Sand argumenta que los grandes proveedores de la nube realmente no tienen ningún incentivo para hacer lo que hace su compañía, dado que su modelo de negocios se basa en que las personas usen sus máquinas durante el mayor tiempo posible, algo con lo que el director gerente de Y Combinator, Michael Seibel, está de acuerdo. “Strong Compute tiene como objetivo una seria desalineación de incentivos en la computación en la nube, donde los resultados más rápidos que son valorados por los clientes son menos rentables para los proveedores”, dijo Seibel.

Créditos de imagen: Ben Sand de Strong Compute (izquierda) y Richard Pruss (derecha).

Actualmente, el equipo aún brinda un servicio de guante blanco a sus clientes, aunque los desarrolladores no deberían notar demasiada diferencia, ya que la integración de sus optimizaciones no debería cambiar realmente su flujo de trabajo. La promesa que Strong Compute hace aquí es que puede “10x sus ciclos de desarrollo”. De cara al futuro, la idea es automatizar la mayor parte posible del proceso.

“Las empresas de IA pueden concentrarse en su cliente, los datos y el algoritmo central, que es donde radica su valor y su propiedad intelectual central, dejando todo el trabajo de configuración y operaciones a Strong Compute”, dijo Sand. “Esto no solo les brinda la iteración rápida que necesitan para el éxito, sino que garantiza de manera crítica que sus desarrolladores solo se centren en el trabajo que agrega valor a la empresa. Hoy en día, dedican hasta dos tercios de su tiempo al trabajo complejo de administración de sistemas ‘ML Ops’, que es en gran medida genérico en las empresas de inteligencia artificial y, a menudo, está fuera de su área de especialización; no tiene sentido que eso sea interno”.

Prima: Aquí hay un video de nuestro propio Lucas Matney probando los auriculares Meta 2 AR de la última compañía de Sand en 2016.

Source link