Microsoft y Nvidia se unen para construir una nueva supercomputadora de IA alojada en Azure

Hace aproximadamente dos años, Microsoft anunció una asociación con OpenAI, el laboratorio de IA con el que tiene una estrecha relación comercial, para construir lo que el gigante tecnológico llamó una “supercomputadora de IA” que se ejecuta en la nube de Azure. Con más de 285 000 núcleos de procesador y 10 000 tarjetas gráficas, Microsoft afirmó en ese momento que era uno de los grupos de supercomputadoras más grandes del mundo.

Ahora, presumiblemente para admitir cargas de trabajo de IA aún más ambiciosas, Microsoft dice ha firmado un acuerdo de “varios años” con Nvidia para construir una nueva supercomputadora alojada en Azure y alimentada por GPU, redes y software de IA de Nvidia para entrenar sistemas de IA.

“La IA está impulsando la próxima ola de automatización en las empresas y la informática industrial, lo que permite a las organizaciones hacer más con menos mientras navegan por las incertidumbres económicas”, dijo Scott Guthrie, vicepresidente ejecutivo del grupo de nube e IA de Microsoft, en un comunicado. “Nuestra colaboración con Nvidia desbloquea la plataforma de supercomputadora más escalable del mundo, que ofrece capacidades de IA de última generación para todas las empresas en Microsoft Azure”.

Los detalles eran difíciles de conseguir en el momento de la publicación. Pero en una publicación de blog, Microsoft y Nvidia dijeron que la próxima supercomputadora contará con hardware como la tecnología de red InfiniBand de 400 Gb/s Quantum-2 de Nvidia y las GPU H100 detalladas recientemente. Las instancias actuales de Azure ofrecen GPU Nvidia A100 de generación anterior combinadas con redes Quantum 200Gb/s InfiniBand.

En particular, el H100, el buque insignia de la arquitectura Hopper de Nvidia, se envía con un “Transformer Engine” especial para acelerar las tareas de aprendizaje automático y, al menos según Nvidia, ofrece un rendimiento entre 1,5 y 6 veces mejor que el A100. También consume menos energía y ofrece el mismo rendimiento que el A100 con una eficiencia energética hasta 3,5 veces mayor.

Una de las primeras máquinas a escala industrial con GPU H100, el sistema Henri construido por Lenovo y operado por el Instituto Flatiron en la ciudad de Nueva York, rematado la lista de las supercomputadoras más eficientes de este año.

Como parte de la colaboración de Microsoft, Nvidia dice que usará instancias de máquinas virtuales de Azure para investigar avances en IA generativa o algoritmos de autoaprendizaje que pueden crear texto, código, imágenes, video o audio. (Piense en la línea del GPT-3 que genera texto de OpenAI y el DALL-E 2 que produce imágenes). Mientras tanto, Microsoft optimizará su biblioteca DeepSpeed para el nuevo hardware de Nvidia, con el objetivo de reducir el poder de cómputo y el uso de memoria durante las cargas de trabajo de entrenamiento de IA, y trabaje con Nvidia para que la pila de flujos de trabajo de IA y los kits de desarrollo de software de la empresa estén disponibles para los clientes empresariales de Azure.

No está del todo claro por qué Nvidia optaría por usar instancias de Azure en lugar de su propia supercomputadora interna, Selene; la empresa ya recurrió a Selence para entrenar IA generativa como GauGAN2, un modelo de generación de texto a imagen que crea arte a partir de bocetos básicos. Evidentemente, Nvidia anticipa que el alcance de los sistemas de inteligencia artificial con los que está trabajando eventualmente superará las capacidades de Selene.

“Los avances de la tecnología de IA, así como la adopción de la industria, se están acelerando. El avance de los modelos básicos ha desencadenado un maremoto de investigación, fomentado nuevas empresas y habilitó nuevas aplicaciones empresariales”, dijo Manuvir Das, vicepresidente de informática empresarial de Nvidia, en un comunicado. “Nuestra colaboración con Microsoft proporcionará a los investigadores y las empresas una infraestructura y un software de IA de última generación para capitalizar el poder transformador de la IA”.

La demanda insaciable de una potente infraestructura de formación en IA ha dado lugar a una especie de carrera armamentista entre los proveedores de nube y hardware. Solo esta semana, Cerabras, que ha recaudado más de $720 millones en capital de riesgo hasta la fecha con una valoración de más de $4 mil millones, desvelado una supercomputadora de IA de 13,5 millones de núcleos llamada Andromeda que, según afirma, puede lograr más de 1 exaflop de cómputo de IA. Google y Amazon continúan invirtiendo en sus propias soluciones patentadas, ofreciendo chips diseñados a medida, por ejemplo, TPU y Trainium, para acelerar el entrenamiento de IA en la nube.

El impulso por un hardware más potente continuará en el futuro previsible. Un reciente estudiar descubrió que los requisitos de cómputo para modelos de IA a gran escala se han duplicado a una tasa promedio de 10,7 meses entre 2016 y 2022. Y OpenAI estimó una vez que, si GPT-3 fuera entrenado en una sola GPU Nvidia Tesla V100, sería tomar alrededor de 355 años.

Source link