El Cerebras CS-1 calcula problemas de inteligencia artificial de aprendizaje profundo al ser más grande y más grande que cualquier otro chip

El aprendizaje profundo está de moda en estos días en los círculos empresariales, y no es difícil entender por qué. Ya sea optimizando la inversión publicitaria, buscando nuevos medicamentos para curar el cáncer o simplemente ofreciendo productos mejores y más inteligentes a los clientes, el aprendizaje automático, y en particular los modelos de aprendizaje profundo, tienen el potencial de mejorar enormemente una gama de productos y aplicaciones.

Sin embargo, la palabra clave es ‘potencial’. Si bien hemos escuchado montones de palabras rociadas en conferencias empresariales en los últimos años sobre el aprendizaje profundo, aún existen grandes obstáculos para hacer que estas técnicas estén ampliamente disponibles. Los modelos de aprendizaje profundo están altamente interconectados, con gráficos densos de nodos que no “encajan” bien con las formas tradicionales en que las computadoras procesan la información. Además, mantener toda la información necesaria para un modelo de aprendizaje profundo puede requerir petabytes de almacenamiento y bastidores y bastidores de procesadores para que sea utilizable.

Hay muchos enfoques en marcha en este momento para resolver este problema informático de próxima generación, y Cerebras tiene que estar entre los más interesantes.

Como hablamos en agosto con el anuncio del “Motor de escala de obleas” de la compañía, el chip de silicio más grande del mundo según la compañía, la teoría de Cerebras es que el camino a seguir para el aprendizaje profundo es esencialmente hacer que todo el modelo de aprendizaje automático funcione. encajar en un chip masivo. Y así, la empresa pretendía ir a lo grande, realmente grande.

Hoy, la compañía anunció el lanzamiento de su producto informático para el usuario final, el Cerebras CS-1, y también anunció su primer cliente del Laboratorio Nacional de Argonne.

El CS-1 es un producto de “solución completa” diseñado para agregarse a un centro de datos para manejar flujos de trabajo de IA. Incluye Wafer Scale Engine (o WSE, es decir, el núcleo de procesamiento real) más todos los equipos de refrigeración, redes, almacenamiento y otros necesarios para operar e integrar el procesador en el centro de datos. Mide 26,25 pulgadas de alto (15 unidades de rack) e incluye 400 000 núcleos de procesamiento, 18 gigabytes de memoria en chip, 9 petabytes por segundo de ancho de banda de memoria en matriz, conexiones Ethernet de 12 gigabits para mover datos dentro y fuera del CS-1 y consume solo 20 kilovatios de potencia.

Una mirada transversal al CS-1. Foto vía Cerebras

Cerebras afirma que el CS-1 ofrece el rendimiento de más de 1,000 GPU líderes combinadas, una afirmación que TechCrunch no ha verificado, aunque estamos esperando atentamente los puntos de referencia estándar de la industria en los próximos meses cuando los evaluadores tengan en sus manos estas unidades.

Además del hardware en sí, Cerebras también anunció el lanzamiento de una plataforma de software integral que permite a los desarrolladores utilizar bibliotecas de ML populares como TensorFlow y PyTorch para integrar sus flujos de trabajo de IA con el sistema CS-1.

Al diseñar el sistema, el director ejecutivo y cofundador Andrew Feldman dijo que “hemos hablado con más de 100 clientes durante el año pasado y un poco”, para determinar las necesidades de un nuevo sistema de IA y la capa de software que debería ponte encima. “Lo que hemos aprendido a lo largo de los años es que desea conocer a la comunidad de software donde están en lugar de pedirles que se muden a usted”.

Le pregunté a Feldman por qué la empresa estaba reconstruyendo tanto hardware para alimentar su sistema, en lugar de usar componentes ya existentes. “Si tuvieras que construir un motor Ferrari y ponerlo en un Toyota, no puedes hacer un auto de carrera”, analizó Feldman. “Poner chips rápidos en Dell o [other] Los servidores no hacen un cómputo rápido. Lo que hace es mover el cuello de botella”. Feldman explicó que el CS-1 estaba destinado a tomar el chip WSE subyacente y darle la infraestructura necesaria para permitirle funcionar a su máxima capacidad.

Un diagrama del sistema de enfriamiento Cerebras CS-1. Foto vía Cerebras.

Esa infraestructura incluye un sistema de refrigeración por agua de alto rendimiento para mantener este chip y plataforma masivos funcionando a las temperaturas adecuadas. Le pregunté a Feldman por qué Cerebras eligió el agua, dado que tradicionalmente la refrigeración por agua ha sido complicada en el centro de datos. Él dijo: “Observamos otras tecnologías: freón. Analizamos soluciones inmersivas, analizamos soluciones de cambio de fase. Y lo que descubrimos fue que el agua es extraordinaria para mover el calor”.

Una vista lateral del CS-1 con sus sistemas de enfriamiento de agua y aire visibles. Foto vía Cerebras.

Entonces, ¿por qué hacer un chip tan masivo que, como discutimos en agosto, tiene enormes requisitos de ingeniería para operar en comparación con chips más pequeños que tienen un mejor rendimiento de las obleas? Feldman dijo que “reduce enormemente el tiempo de comunicación al usar la localidad”.

En informática, localidad es colocar datos y computar en los lugares correctos dentro, digamos una nube, que minimiza los retrasos y la fricción de procesamiento. Al tener un chip que, teóricamente, puede albergar un modelo ML completo, no es necesario que los datos fluyan a través de múltiples clústeres de almacenamiento o cables Ethernet: todo lo que el chip necesita para trabajar está disponible casi de inmediato.

Según un comunicado de Cerebras y Argonne National Laboratory, Cerebras está ayudando a impulsar la investigación en “cáncer, lesión cerebral traumática y muchas otras áreas importantes para la sociedad actual” en el laboratorio. Feldman dijo que “fue muy satisfactorio que los clientes usaran esto de inmediato para cosas que son importantes y no para que chicas de 17 años se encuentren en Instagram o cosas así”.

(Por supuesto, uno espera que la investigación del cáncer pague tan bien como el marketing de influencia cuando se trata del valor de los modelos de aprendizaje profundo).

Cerebras ha crecido rápidamente, llegando a 181 ingenieros en la actualidad según la empresa. Feldman dice que la compañía está indiscutiblemente en las ventas al cliente y en el desarrollo de productos adicionales.

Sin duda, ha sido un momento ajetreado para las nuevas empresas en el espacio de flujo de trabajo de inteligencia artificial de próxima generación. Graphcore acaba de anunciar este fin de semana que se instalará en la nube Azure de Microsoft, mientras cubría la financiación de NUVIA, una startup dirigida por los ex diseñadores líderes de chips de Apple que esperan aplicar sus fondos móviles para resolver los requisitos de potencia extrema de estos chips de IA. fuerza en los centros de datos.

Espere cada vez más anuncios y actividad en este espacio a medida que el aprendizaje profundo continúa encontrando nuevos adeptos en la empresa.

Source link