Cuando los grandes laboratorios de IA se niegan a abrir sus modelos, la comunidad interviene

Los puntos de referencia son una medida de progreso en IA tan importante como lo son para el resto de la industria del software. Pero cuando los resultados de referencia provienen de corporaciones, el secreto muy a menudo impide que la comunidad los verifique.

Por ejemplo, OpenAI otorgó a Microsoft, con quien tiene una relación comercial, los derechos de licencia exclusivos de su poderoso modelo de lenguaje GPT-3. Otras organizaciones dicen que el código que utilizan para desarrollar sistemas depende de herramientas e infraestructura internas imposibles de liberar o utiliza conjuntos de datos protegidos por derechos de autor. Si bien las motivaciones pueden ser de naturaleza ética (OpenAI inicialmente se negó a lanzar GPT-2, el predecesor de GPT-3, debido a la preocupación de que pudiera ser mal utilizado), el efecto es el mismo. Sin el código necesario, es mucho más difícil para los investigadores externos verificar las afirmaciones de una organización.

“Esta no es realmente una alternativa suficiente a las buenas prácticas de código abierto de la industria”, Ph.D. en ciencias informáticas de Columbia. el candidato Gustaf Ahdritz le dijo a TechCrunch por correo electrónico. Ahdritz es uno de los principales desarrolladores de OpenFold, una versión de código abierto de AlphaFold 2 que predice la estructura de proteínas de DeepMind. “Es difícil hacer toda la ciencia que uno quisiera hacer con el código que DeepMind lanzó”.

Algunos investigadores llegan a decir que ocultar el código de un sistema “socava su valor científico”. En octubre de 2020, una refutación publicado en la revista Nature discrepó con un sistema de predicción del cáncer entrenado por Google Health, la rama de Google enfocada en la investigación relacionada con la salud. Los coautores señalaron que Google ocultó detalles técnicos clave, incluida una descripción de cómo se desarrolló el sistema, lo que podría afectar significativamente su rendimiento.

Créditos de imagen: AbrirDoblar

En lugar del cambio, algunos miembros de la comunidad de IA, como Ahdritz, se han propuesto como misión abrir los sistemas de código abierto. Trabajando a partir de documentos técnicos, estos investigadores tratan minuciosamente de recrear los sistemas, ya sea desde cero o basándose en fragmentos de especificaciones disponibles públicamente.

AbrirDoblar es uno de esos esfuerzos. Comenzado poco después de que DeepMind anunciara AlphaFold 2, el objetivo es verificar que AlphaFold 2 se pueda reproducir desde cero y poner a disposición componentes del sistema que podrían ser útiles en otros lugares, según Ahdritz.

“Confiamos en que DeepMind proporcionó todos los detalles necesarios, pero… no tenemos [concrete] prueba de eso, por lo que este esfuerzo es clave para proporcionar ese camino y permitir que otros construyan sobre él”, dijo Ahdritz. “Además, originalmente, ciertos componentes de AlphaFold estaban bajo una licencia no comercial. Nuestros componentes y datos (DeepMind aún no ha publicado sus datos de capacitación completos) serán completamente de código abierto, lo que permitirá la adopción de la industria”.

OpenFold no es el único proyecto de este tipo. En otros lugares, grupos vagamente afiliados dentro de la comunidad de IA están intentando implementaciones del Codex generador de código de OpenAI y DALL-E de creación de arte, el juego de ajedrez AlphaZero de DeepMind e incluso AlphaStar, un sistema DeepMind diseñado para jugar el juego de estrategia en tiempo real StarCraft. 2. Entre los más exitosos están EleutherAI y la startup de IA Hugging Face’s gran cienciaesfuerzos abiertos de investigación que tienen como objetivo entregar el código y los conjuntos de datos necesarios para ejecutar un modelo comparable (aunque no idéntico) a GPT-3.

Philip Wang, un prolífico miembro de la comunidad de IA que mantiene una serie de implementaciones de código abierto en GitHub, incluido uno de DALL-E de OpenAI, postula que el código abierto de estos sistemas reduce la necesidad de que los investigadores dupliquen sus esfuerzos.

“Leemos los últimos estudios de IA, como cualquier otro investigador del mundo. Pero en lugar de replicar el papel en un silo, lo implementamos de código abierto”, dijo Wang. “Estamos en un lugar interesante en la intersección de la ciencia de la información y la industria. Creo que el código abierto no es unilateral y al final beneficia a todos. También apela a la visión más amplia de una IA verdaderamente democratizada que no está en deuda con los accionistas”.

Brian Lee y Andrew Jackson, dos empleados de Google, trabajaron juntos para crear MiniGo, una réplica de AlphaZero. Si bien no estaban afiliados al proyecto oficial, Lee y Jackson, que estaban en Google, la empresa matriz inicial de DeepMind, tenían la ventaja de acceder a ciertos recursos patentados.

Créditos de imagen: MiniGo

“[Working backward from papers is] como navegar antes de que tuviéramos GPS”, dijo Lee, ingeniero de investigación de Google Brain, a TechCrunch por correo electrónico. “Las instrucciones hablan sobre los puntos de referencia que debe ver, cuánto tiempo debe ir en una dirección determinada, qué bifurcación tomar en un momento crítico. Hay suficientes detalles para que el navegante experimentado encuentre su camino, pero si no sabe cómo leer una brújula, estará irremediablemente perdido. No volverás sobre los pasos exactamente, pero terminarás en el mismo lugar”.

Los desarrolladores detrás de estas iniciativas, incluidos Ahdritz y Jackson, dicen que no solo ayudarán a demostrar si los sistemas funcionan como se anuncia, sino que permitirán nuevas aplicaciones y un mejor soporte de hardware. Los sistemas de grandes laboratorios y empresas como DeepMind, OpenAI, Microsoft, Amazon y Meta generalmente se entrenan en servidores de centros de datos propietarios y costosos con mucha más potencia de cómputo que la estación de trabajo promedio, lo que se suma a los obstáculos de abrirlos.

“Entrenar nuevas variantes de AlphaFold podría conducir a nuevas aplicaciones más allá de la predicción de la estructura de proteínas, lo que no es posible con el lanzamiento del código original de DeepMind porque carecía del código de entrenamiento; por ejemplo, predecir cómo los medicamentos se unen a las proteínas, cómo se mueven las proteínas y cómo las proteínas interactúan con otras biomoléculas”, dijo Ahdritz. “Hay docenas de aplicaciones de alto impacto que requieren entrenar nuevas variantes de AlphaFold o integrar partes de AlphaFold en modelos más grandes, pero la falta de código de entrenamiento las impide todas”.

“Estos esfuerzos de código abierto hacen mucho para difundir el “conocimiento práctico” sobre cómo estos sistemas pueden comportarse en entornos no académicos”, agregó Jackson. “La cantidad de computación necesaria para reproducir los resultados originales [for AlphaZero] es bastante alto No recuerdo el número en la parte superior de mi cabeza, pero implicó ejecutar alrededor de mil GPU durante una semana. Estábamos en una posición bastante única para poder ayudar a la comunidad a probar estos modelos con nuestro acceso temprano al producto TPU de Google Cloud Platform, que aún no estaba disponible públicamente”.

La implementación de sistemas propietarios en código abierto está plagada de desafíos, especialmente cuando hay poca información pública para continuar. Idealmente, el código está disponible además del conjunto de datos utilizado para entrenar el sistema y lo que se denomina pesos, que son responsables de transformar los datos que se alimentan al sistema en predicciones. Pero esto no es a menudo el caso.

Por ejemplo, al desarrollar OpenFold, Ahdritz y su equipo tuvieron que recopilar información de los materiales oficiales y conciliar las diferencias entre las diferentes fuentes, incluido el código fuente, el código complementario y las presentaciones que los investigadores de DeepMind dieron desde el principio. Las ambigüedades en pasos como la preparación de datos y el código de entrenamiento llevaron a falsos comienzos, mientras que la falta de recursos de hardware requería compromisos de diseño.

“Realmente solo tenemos un puñado de intentos para hacer esto bien, para que esto no se alargue indefinidamente. Estas cosas tienen tantas etapas computacionalmente intensivas que un pequeño error puede retrasarnos enormemente, de modo que tuvimos que volver a entrenar el modelo y también regenerar muchos datos de entrenamiento”, dijo Ahdritz. “Algunos detalles técnicos que funcionan muy bien para [DeepMind] no funcionan tan fácilmente para nosotros porque tenemos un hardware diferente… Además, la ambigüedad sobre qué detalles son de importancia crítica y cuáles se seleccionan sin pensarlo mucho hace que sea difícil optimizar o ajustar cualquier cosa y nos encierra en lo que sea (a veces incómodo) se tomaron decisiones en el sistema original”.

Por lo tanto, los laboratorios detrás de los sistemas patentados, como OpenAI, se preocupan de que su trabajo sea sometido a ingeniería inversa e incluso que las empresas emergentes lo utilicen para lanzar servicios de la competencia? Evidentemente no. Ahdritz dice que el hecho de que DeepMind en particular publique tantos detalles sobre sus sistemas sugiere que respalda implícitamente los esfuerzos, incluso si no lo ha dicho públicamente.

“No hemos recibido ninguna indicación clara de que DeepMind desaprueba o aprueba este esfuerzo”, dijo Ahdritz. “Pero ciertamente, nadie ha tratado de detenernos”.

Source link