Stability AI respalda el esfuerzo para llevar el aprendizaje automático a la biomedicina

Stability AI, la startup respaldada por empresas detrás del sistema de IA de texto a imagen Stable Diffusion, está financiando un amplio esfuerzo para aplicar la IA a las fronteras de la biotecnología. Llamó OpenBioMLlos primeros proyectos del esfuerzo se centrarán en enfoques basados en el aprendizaje automático para la secuenciación del ADN, el plegamiento de proteínas y la bioquímica computacional.

Los fundadores de la compañía describen OpenBioML como un “laboratorio de investigación abierto”: tiene como objetivo explorar la intersección de la IA y la biología en un entorno donde los estudiantes, profesionales e investigadores pueden participar y colaborar, según el CEO de Stability AI, Emad Mostaque.

“OpenBioML es una de las comunidades de investigación independientes que admite Stability”, dijo Mostaque a TechCrunch en una entrevista por correo electrónico. “Stability busca desarrollar y democratizar la IA, y a través de OpenBioML, vemos una oportunidad para avanzar en el estado del arte en ciencias, salud y medicina”.

Dada la controversia que rodea a Stable Diffusion, el sistema de inteligencia artificial de Stability AI que genera arte a partir de descripciones de texto, similar a DALL-E 2 de OpenAI, es comprensible que uno desconfíe de la primera incursión de Stability AI en el cuidado de la salud. La startup ha adoptado un enfoque de laissez-faire para la gobernanza, lo que permite a los desarrolladores usar el sistema como lo deseen, incluso para falsificaciones profundas de celebridades y pornografía.

Estabilidad Dejando de lado las decisiones éticamente cuestionables de AI hasta la fecha, el aprendizaje automático en medicina es un campo minado. Si bien la tecnología se ha aplicado con éxito para diagnosticar afecciones como enfermedades de la piel y los ojos, entre otras, la investigación ha demostrado que los algoritmos pueden desarrollar sesgos que conducen a una peor atención para algunos pacientes. Un abril de 2021 estudiarpor ejemplo, encontró que los modelos estadísticos utilizados para predecir el riesgo de suicidio en pacientes de salud mental funcionaron bien para los pacientes blancos y asiáticos, pero mal para los pacientes negros.

OpenBioML está comenzando con un territorio más seguro, sabiamente. Sus primeros proyectos son:

BioLMque busca aplicar técnicas de procesamiento del lenguaje natural (PNL) a los campos de la biología computacional y la química
Difusión de ADNcuyo objetivo es desarrollar una IA que pueda generar secuencias de ADN a partir de mensajes de texto
LibreFoldque busca aumentar el acceso a los sistemas de predicción de estructuras de proteínas de IA similares a AlphaFold 2 de DeepMind

Cada proyecto está dirigido por investigadores independientes, pero Stability AI brinda apoyo en forma de acceso a su clúster alojado en AWS de más de 5000 GPU Nvidia A100 para entrenar los sistemas de IA. Según Niccolò Zanichelli, estudiante de ciencias de la computación en la Universidad de Parma y uno de los investigadores principales de OpenBioML, será suficiente capacidad de procesamiento y almacenamiento para eventualmente entrenar hasta diez sistemas similares a AlphaFold 2 en paralelo.

“Mucha investigación en biología computacional ya conduce a versiones de código abierto. Sin embargo, gran parte ocurre a nivel de un solo laboratorio y, por lo tanto, generalmente está limitado por recursos computacionales insuficientes”, dijo Zanichelli a TechCrunch por correo electrónico. “Queremos cambiar esto fomentando colaboraciones a gran escala y, gracias al apoyo de Stability AI, respaldar esas colaboraciones con recursos a los que solo tienen acceso los laboratorios industriales más grandes”.

Generación de secuencias de ADN

De los proyectos en curso de OpenBioML, DNA-Diffusion, dirigido por el laboratorio del profesor de patología Luca Pinello en el Hospital General de Massachusetts y la Escuela de Medicina de Harvard, es quizás el más ambicioso. El objetivo es utilizar sistemas de IA generativa para aprender y aplicar las reglas de secuencias “reguladoras” de ADN, o segmentos de moléculas de ácido nucleico que influyen en la expresión de genes específicos dentro de un organismo. Muchas enfermedades y trastornos son el resultado de genes mal regulados, pero la ciencia aún tiene que descubrir un proceso confiable para identificar, y mucho menos cambiar, estas secuencias reguladoras.

DNA-Diffusion propone utilizar un tipo de sistema de IA conocido como modelo de difusión para generar secuencias de ADN reguladoras específicas del tipo de célula. Los modelos de difusión, que sustentan generadores de imágenes como Stable Diffusion y DALL-E 2 de OpenAI, crean nuevos datos (por ejemplo, secuencias de ADN) al aprender a destruir y recuperar muchas muestras de datos existentes. A medida que reciben las muestras, los modelos mejoran en la recuperación de todos los datos que habían destruido previamente para generar nuevos trabajos.

Créditos de imagen: Estabilidad IA

“La difusión ha tenido un éxito generalizado en modelos generativos multimodales, y ahora está comenzando a aplicarse a la biología computacional, por ejemplo, para la generación de nuevas estructuras de proteínas”, dijo Zanichelli. “Con DNA-Diffusion, ahora estamos explorando su aplicación a las secuencias genómicas”.

Si todo va según lo planeado, el proyecto DNA-Diffusion producirá un modelo de difusión que puede generar secuencias reguladoras de ADN a partir de instrucciones de texto como “Una secuencia que activará un gen a su nivel máximo de expresión en células tipo X” y “Una secuencia que activa un gen en el hígado y el corazón, pero no en el cerebro”. Tal modelo también podría ayudar a interpretar los componentes de las secuencias reguladoras, dice Zanichelli, mejorando la comprensión de la comunidad científica sobre el papel de las secuencias reguladoras en diferentes enfermedades.

Vale la pena señalar que esto es en gran parte teórico. Si bien la investigación preliminar sobre la aplicación de la difusión al plegamiento de proteínas parece prometedores muy pronto, admite Zanichelli, de ahí el impulso para involucrar a la comunidad de IA en general.

Predicción de estructuras de proteínas

LibreFold de OpenBioML, aunque de menor alcance, es más probable que dé frutos inmediatos. El proyecto busca llegar a una mejor comprensión de los sistemas de aprendizaje automático que predicen estructuras de proteínas, además de formas de mejorarlas.

Como mi colega Devin Coldewey cubrió en su artículo sobre el trabajo de DeepMind en AlphaFold 2, los sistemas de inteligencia artificial que predicen con precisión la forma de la proteína son relativamente nuevos en la escena pero transformadores en términos de su potencial. Las proteínas comprenden secuencias de aminoácidos que se pliegan en formas para realizar diferentes tareas dentro de los organismos vivos. El proceso de determinar qué forma creará una secuencia de ácidos fue una vez una tarea ardua y propensa a errores. Los sistemas de IA como AlphaFold 2 cambiaron eso; gracias a ellos, más del 98% de las estructuras de proteínas en el cuerpo humano son conocidas por la ciencia hoy en día, así como cientos de miles de otras estructuras en organismos como E. coli y levaduras.

Sin embargo, pocos grupos tienen la experiencia en ingeniería y los recursos necesarios para desarrollar este tipo de IA. DeepMind pasó días entrenando AlphaFold 2 en unidades de procesamiento de tensor (TPU), el costoso hardware acelerador de IA de Google. Y los conjuntos de datos de entrenamiento de secuencias ácidas a menudo son propietarios o se publican bajo licencias no comerciales.

Proteínas plegándose en su estructura tridimensional.

“Es una lástima, porque si observa lo que la comunidad ha podido construir sobre el punto de control AlphaFold 2 lanzado por DeepMind, es simplemente increíble”, dijo Zanichelli, refiriéndose al modelo AlphaFold 2 entrenado que DeepMind lanzó el año pasado. . “Por ejemplo, solo unos días después del lanzamiento, el profesor de la Universidad Nacional de Seúl, Minkyung Baek, informó sobre un truco en Twitter que permitía al modelo predecir estructuras cuaternarias – algo que pocos, si es que alguien, esperaba que el modelo fuera capaz de hacer. Hay muchos más ejemplos de este tipo, entonces, ¿quién sabe qué podría construir la comunidad científica en general si tuviera la capacidad de entrenar métodos de predicción de estructuras de proteínas similares a AlphaFold completamente nuevos?

Sobre la base del trabajo de RoseTTAFold y OpenFold, dos esfuerzos comunitarios en curso para replicar AlphaFold 2, LibreFold facilitará experimentos a “gran escala” con varios sistemas de predicción de plegamiento de proteínas. Encabezado por investigadores del University College London, Harvard y Estocolmo, el enfoque de LibreFold será obtener una mejor comprensión de lo que los sistemas pueden lograr y por qué, según Zanichelli.

“LibreFold es en esencia un proyecto para la comunidad, por la comunidad. Lo mismo ocurre con el lanzamiento de los puntos de control del modelo y los conjuntos de datos, ya que podría llevarnos solo uno o dos meses comenzar a publicar los primeros resultados o podría llevar mucho más tiempo”, dijo. “Dicho esto, mi intuición es que lo primero es más probable”.

Aplicando la PNL a la bioquímica

En un horizonte de tiempo más largo está el proyecto BioLM de OpenBioML, que tiene la misión más vaga de “aplicar técnicas de modelado de lenguaje derivadas de NLP a secuencias bioquímicas”. En colaboración con EleutherAI, un grupo de investigación que ha lanzado varios modelos de generación de texto de código abierto, BioLM espera entrenar y publicar nuevos “modelos de lenguaje bioquímico” para una variedad de tareas, incluida la generación de secuencias de proteínas.

Zanichelli apunta a Salesforce progen como un ejemplo de los tipos de trabajo en los que BioLM podría embarcarse. ProGen trata las secuencias de aminoácidos como palabras en una oración. Entrenado en un conjunto de datos de más de 280 millones de secuencias de proteínas y metadatos asociados, el modelo predice el siguiente conjunto de aminoácidos a partir de los anteriores, como un modelo de lenguaje que predice el final de una oración desde el principio.

Nvidia a principios de este año lanzó un modelo de lenguaje, MegaMolBART, que fue entrenado en un conjunto de datos de millones de moléculas para buscar posibles objetivos farmacológicos y pronosticar reacciones químicas. Meta también recientemente entrenado un NLP llamado ESM-2 en secuencias de proteínas, un enfoque que, según la compañía, le permitió predecir secuencias para más de 600 millones de proteínas en solo dos semanas.

Estructuras de proteínas predichas por el sistema de Meta.

Mirando hacia el futuro

Si bien los intereses de OpenBioML son amplios (y en expansión), Mostaque dice que están unificados por el deseo de “maximizar el potencial positivo del aprendizaje automático y la IA en biología”, siguiendo la tradición de la investigación abierta en ciencia y medicina.

“Buscamos permitir que los investigadores obtengan un mayor control sobre su tubería experimental para fines de aprendizaje activo o validación de modelos”, continuó Mostaque. “También buscamos impulsar el estado del arte con modelos biotecnológicos cada vez más generales, en contraste con las arquitecturas especializadas y los objetivos de aprendizaje que actualmente caracterizan la mayor parte de la biología computacional”.

Pero, como cabría esperar de una startup respaldada por capital de riesgo que recientemente recaudó más de 100 millones de dólares, Stability AI no ve a OpenBioML como un esfuerzo puramente filantrópico. Mostaque dice que la compañía está abierta a explorar la comercialización de tecnología de OpenBioML “cuando sea lo suficientemente avanzada y segura y cuando sea el momento adecuado”.

Source link