Ejecutar.ai, el servicio bien financiado para orquestar cargas de trabajo de IA, se hizo un nombre en los últimos años al ayudar a sus usuarios a aprovechar al máximo sus recursos de GPU en las instalaciones y en la nube para entrenar sus modelos. Pero no es ningún secreto que entrenar modelos es una cosa y ponerlos en producción es otra, y ahí es donde muchos de estos proyectos siguen fallando. Quizás no sea una sorpresa que la empresa, que se ve a sí misma como una plataforma integral, ahora vaya más allá de la capacitación para ayudar a sus clientes a ejecutar sus cargas de trabajo de inferencia de la manera más eficiente posible, ya sea en una nube privada o pública. o en el borde. Con esto, la plataforma de la compañía ahora también ofrece una integración con Servidor de inferencia Triton de Nvidia software, gracias a una estrecha colaboración entre las dos empresas.
“Una de las cosas que identificamos en los últimos 6 a 12 meses es que las organizaciones están comenzando a pasar de construir y entrenar modelos de aprendizaje automático a tener esos modelos en producción”, dijo el cofundador y director ejecutivo de Run.ai, Omri Geller. me dijo. “Comenzamos a invertir muchos recursos internamente para superar este desafío también. Creemos que desciframos la parte de capacitación y construimos la administración de recursos correcta allí, por lo que ahora también nos enfocamos en ayudar a las organizaciones a administrar sus recursos informáticos para la inferencia”.
Créditos de imagen: nvidia
La idea aquí es hacer que sea lo más fácil posible para las empresas implementar sus modelos. Run.ai promete un proceso de implementación de dos pasos que no implica escribir archivos YAML. Gracias a la apuesta temprana de Run.ai en contenedores y Kubernetes, ahora puede mover estas cargas de trabajo de inferencia en el hardware más eficiente y con la nueva integración de Nvidia en la plataforma Run.ai Atlas, los usuarios pueden incluso implementar múltiples modelos, o instancias de el mismo modelo: en Triton Inference Server, con Run.ai, que también forma parte de Programa LaunchPad de Nvidiamanejando el escalado automático y la priorización por modelo.
Si bien la inferencia no requiere los mismos tipos de recursos informáticos masivos que se necesitan para entrenar un modelo, Manuvir Das de Nvidia, vicepresidente de informática empresarial de la compañía, señaló que estos modelos son cada vez más grandes y que implementarlos en una CPU simplemente no es posible. . “Construimos esta cosa llamada Triton Inference Server, que se trata de hacer su inferencia no solo en las CPU sino también en las GPU, porque el poder de la GPU ha comenzado a ser importante para la inferencia”, explicó. “Solía ser que necesitabas la GPU para hacer el entrenamiento y una vez que tienes los modelos, puedes implementarlos felizmente en las CPU. Pero cada vez más, los modelos se han vuelto más grandes y más complejos. Por lo tanto, debe ejecutarlos en la GPU”.
Y como agregó Geller, los modelos solo se volverán más complejos con el tiempo. Señaló que, después de todo, existe una correlación directa entre la complejidad computacional de los modelos y su precisión y, por lo tanto, los problemas que las empresas pueden resolver con esos modelos.
Aunque el enfoque inicial de Run.ai estaba en la capacitación, la empresa pudo tomar muchas de las tecnologías que creó para eso y aplicarlas también a la inferencia. Los sistemas de recursos compartidos que la empresa creó para la capacitación, por ejemplo, también se aplican a la inferencia, donde ciertos modelos pueden necesitar más recursos para poder ejecutarse en tiempo real.
Ahora, puede pensar que estas son capacidades que Nvidia también podría incorporar en su Triton Inference Server, pero Das señaló que esta no es la forma en que la compañía se acerca al mercado. “Cualquiera que haga ciencia de datos a escala necesita una muy buena plataforma de operaciones de ML de extremo a extremo para hacerlo todo”, dijo. “Eso es lo que Run.ai hace bien. Y luego, lo que hacemos debajo, proporcionamos las construcciones de bajo nivel para realmente utilizar la GPU individualmente muy bien y luego, si la integramos correctamente, obtienes lo mejor de ambas cosas. Esa es una de las razones por las que trabajamos bien juntos porque la separación de responsabilidades ha sido clara para ambos desde el principio”.
Vale la pena señalar que, además de la asociación con Nvidia, Run.ai también anunció hoy una serie de otras actualizaciones para su plataforma. Estos incluyen nuevas métricas y paneles centrados en la inferencia, así como la capacidad de implementar modelos en GPU fraccionales y escalarlos automáticamente en función de sus Acuerdos de nivel de servicio de latencia individuales. La plataforma ahora también puede escalar las implementaciones hasta cero y, por lo tanto, reducir los costos.
Source link