Meta salta al juego de las supercomputadoras con su AI Research SuperCluster

Meta salta al juego de las supercomputadoras con su AI Research SuperCluster

Hay una competencia global para construir las computadoras más grandes y poderosas del planeta, y Meta (también conocido como Facebook) está a punto de saltar al tumulto con el “SuperCluster de investigación de IA” o RSC. Una vez que esté en pleno funcionamiento, es posible que se encuentre entre las 10 supercomputadoras más rápidas del mundo, que utilizará para el procesamiento masivo de números necesario para el lenguaje y el modelado de visión por computadora.

Los grandes modelos de IA, de los cuales el GPT-3 de OpenAI es probablemente el más conocido, no se ensamblan en computadoras portátiles y de escritorio; son el producto final de semanas y meses de cálculos sostenidos por parte de sistemas informáticos de alto rendimiento que eclipsan incluso a la plataforma de juegos más avanzada. Y cuanto más rápido pueda completar el proceso de entrenamiento de un modelo, más rápido podrá probarlo y producir uno nuevo y mejor. Cuando los tiempos de entrenamiento se miden en meses, eso realmente importa.

RSC está en funcionamiento y los investigadores de la compañía ya lo están poniendo a trabajar… con datos generados por el usuario, hay que decirlo, aunque Meta tuvo cuidado de decir que está encriptado hasta el momento de la capacitación y que toda la instalación está aislada de Internet en general. .

El equipo que armó RSC está orgulloso de haber logrado esto casi en su totalidad de forma remota: las supercomputadoras son construcciones sorprendentemente físicas, con consideraciones básicas como el calor, el cableado y la interconexión que afectan el rendimiento y el diseño. Los exabytes de almacenamiento suenan lo suficientemente grandes digitalmente, pero en realidad también deben existir en algún lugar, en el sitio y accesibles en un aviso de microsegundo. (Almacenamiento puro es también orgulloso de la configuración que armaron para esto.)

Actualmente, RSC tiene 760 sistemas Nvidia DGX A100 con un total de 6080 GPU, lo que, según Meta, debería ponerlo aproximadamente en competencia con Perlmutter en Lawrence Berkeley National Lab. Esa es la quinta supercomputadora más poderosa en funcionamiento en este momento, según el sitio de clasificación Top 500 desde hace mucho tiempo. (No. 1 es Fugaku en Japón por asomo, en caso de que te lo estés preguntando).

Eso podría cambiar a medida que la empresa continúa construyendo el sistema. En última instancia, planean que sea unas tres veces más potente, lo que en teoría lo colocaría en la carrera por el tercer lugar.

Podría decirse que hay una advertencia allí. Los sistemas como Summit, que ocupa el segundo lugar en el Laboratorio Nacional Lawrence Livermore, se emplean con fines de investigación, donde la precisión es primordial. Si está simulando las moléculas en una región de la atmósfera de la Tierra a niveles de detalle sin precedentes, necesita llevar cada cálculo a una gran cantidad de puntos decimales. Y eso significa que esos cálculos son computacionalmente más costosos.

Meta explicó que las aplicaciones de IA no requieren un grado de precisión similar, ya que los resultados no dependen de esa milésima de porcentaje: las operaciones de inferencia terminan produciendo cosas como “90% de certeza de que es un gato”, y si ese número fueron 89% o 91% no harían una gran diferencia. La dificultad radica más en lograr un 90 % de certeza para un millón de objetos o frases que para cien.

Es una simplificación excesiva, pero el resultado es que RSC, al ejecutar el modo matemático TensorFloat-32, puede obtener más FLOP/s (operaciones de coma flotante por segundo) por núcleo que otros sistemas más orientados a la precisión. En este caso es hasta 1.895.000 teraFLOP/s, o 1,9 exaFLOP/s, más de 4x Fugaku. ¿Eso importa? Y si es así, ¿a quién? En todo caso, podría importarle a la gente de Top 500, así que les pregunté si tienen alguna opinión al respecto. Pero eso no cambia el hecho de que RSC estará entre las computadoras más rápidas del mundo, quizás la más rápida en ser operada por una empresa privada para sus propios fines.


Source link