AWS y Facebook lanzan un servidor modelo de código abierto para PyTorch

AWS y Facebook lanzan un servidor modelo de código abierto para PyTorch

AWS y Facebook hoy Anunciado dos nuevos proyectos de código abierto en torno a PyTorch, el popular marco de aprendizaje automático de código abierto. El primero de estos es AntorchaServir, un marco de servicio de modelos para PyTorch que facilitará a los desarrolladores la puesta en producción de sus modelos. El otro es TorchElastic, una biblioteca que facilita a los desarrolladores la creación de trabajos de entrenamiento tolerantes a fallas en clústeres de Kubernetes, incluidas las instancias puntuales EC2 de AWS y Elastic Kubernetes Service.

En muchos sentidos, las dos empresas están tomando lo que han aprendido al ejecutar sus propios sistemas de aprendizaje automático a escala y lo están incorporando al proyecto. Para AWS, eso es principalmente SageMaker, la plataforma de aprendizaje automático de la empresa, pero como me dijo Bratin Saha, vicepresidente y gerente general de Servicios de aprendizaje automático de AWS, el trabajo en PyTorch estuvo motivado principalmente por solicitudes de la comunidad. Y aunque obviamente hay otros servidores modelo como Servicio de TensorFlow y el Multi Model Server disponible en la actualidad, Saha argumenta que sería difícil optimizarlos para PyTorch.

“Si tratáramos de tomar algún otro servidor modelo, no podríamos cotizar optimizarlo tanto, así como crearlo dentro de los matices de cómo a los desarrolladores de PyTorch les gusta ver esto”, dijo. AWS tiene mucha experiencia en la ejecución de sus propios servidores modelo para SageMaker que pueden manejar varios marcos, pero la comunidad pedía un servidor modelo que se adaptara a su funcionamiento. Eso también significó adaptar la API del servidor a lo que los desarrolladores de PyTorch esperan de su marco de trabajo elegido, por ejemplo.

Como me dijo Saha, el servidor que AWS y Facebook están lanzando ahora como código abierto es similar al que usa AWS internamente. “Está bastante cerca”, dijo. “De hecho, comenzamos con lo que teníamos internamente para uno de nuestros servidores modelo y luego lo presentamos a la comunidad, trabajamos en estrecha colaboración con Facebook, para iterar y obtener comentarios, y luego lo modificamos para que sea bastante similar”.

Bill Jia, vicepresidente de infraestructura de inteligencia artificial de Facebook, también me dijo que está muy contento con la forma en que su equipo y la comunidad han impulsado PyTorch en los últimos años. “Si observa a toda la comunidad de la industria, una gran cantidad de investigadores y usuarios empresariales están utilizando AWS”, dijo. “Y luego descubrimos que si podemos colaborar con AWS e impulsar PyTorch juntos, entonces Facebook y AWS pueden obtener muchos beneficios, pero más aún, todos los usuarios pueden obtener muchos beneficios de PyTorch. Esa es nuestra razón por la que queríamos colaborar con AWS”.

En cuanto a TorchElastic, el enfoque aquí es permitir que los desarrolladores creen sistemas de capacitación que puedan funcionar en grandes clústeres de Kubernetes distribuidos donde es posible que desee utilizar instancias puntuales más económicas. Sin embargo, estos son prioritarios, por lo que su sistema debe ser capaz de manejar eso, mientras que tradicionalmente, los marcos de capacitación de aprendizaje automático a menudo esperan un sistema en el que la cantidad de instancias permanezca igual durante todo el proceso. Eso también es algo que AWS creó originalmente para SageMaker. Allí, está completamente administrado por AWS, sin embargo, por lo que los desarrolladores nunca tienen que pensar en ello. Para los desarrolladores que quieren tener más control sobre sus sistemas de entrenamiento dinámico o estar muy cerca del metal, TorchElastic ahora les permite recrear esta experiencia en sus propios clústeres de Kubernetes.

AWS tiene cierta reputación en lo que respecta al código abierto y su compromiso con la comunidad de código abierto. En este caso, sin embargo, es agradable ver que AWS lidera el camino para llevar parte de su propio trabajo en la creación de servidores modelo, por ejemplo, a la comunidad de PyTorch. En el ecosistema de aprendizaje automático, eso es muy esperado, y Saha enfatizó que AWS se ha comprometido durante mucho tiempo con la comunidad como uno de los principales contribuyentes de MXNet y a través de sus contribuciones a proyectos como Jupyter, TensorFlow y bibliotecas como NumPy.


Source link