Los programadores de proteínas reciben ayuda de la IA generativa de Cradle

Las proteínas son las moléculas que realizan el trabajo en la naturaleza, y está surgiendo toda una industria en torno a modificarlas y fabricarlas con éxito para diversos usos. Pero hacerlo lleva mucho tiempo y es desordenado; Cuna tiene como objetivo cambiar eso con una herramienta impulsada por IA que les dice a los científicos qué nuevas estructuras y secuencias harán que una proteína haga lo que ellos quieren. La compañía salió del sigilo hoy con una ronda semilla sustancial.

La IA y las proteínas han estado en las noticias últimamente, pero en gran parte debido a los esfuerzos de equipos de investigación como DeepMind y Baker Lab. Sus modelos de aprendizaje automático toman datos de secuencias de ARN fácilmente recopilados y predicen la estructura que adoptará una proteína, un paso que solía llevar semanas y costosos equipos especiales.

Pero por increíble que sea esa capacidad en algunos dominios, es solo el punto de partida para otros. Modificar una proteína para que sea más estable o se una a otra molécula determinada implica mucho más que solo comprender su forma y tamaño generales.

“Si eres un ingeniero de proteínas y quieres diseñar una determinada propiedad o función en una proteína, el simple hecho de saber cómo se ve no te ayuda. Es como si tuvieras una imagen de un puente, eso no te dice si se caerá o no”, explicó el director ejecutivo y cofundador de Cradle, Stef van Grieken.

“Alphafold toma una secuencia y predice cómo se verá la proteína”, continuó. “Somos el hermano generativo de eso: usted elige las propiedades que desea diseñar y el modelo generará secuencias que puede probar en su laboratorio”.

Predecir qué proteínas, especialmente las nuevas para la ciencia, harán in situ es una tarea difícil por muchas razones, pero en el contexto del aprendizaje automático, el mayor problema es que no hay suficientes datos disponibles. Así que Cradle originó gran parte de su propio conjunto de datos en un laboratorio húmedo, probando proteína tras proteína y viendo qué cambios en sus secuencias parecían conducir a qué efectos.

Curiosamente, el modelo en sí no es exactamente específico de la biotecnología, sino un derivado de los mismos “modelos de lenguaje grande” que han producido motores de producción de texto como GPT-3. Van Grieken señaló que estos modelos no se limitan estrictamente al lenguaje en la forma en que entienden y predicen los datos, una característica de “generalización” interesante que los investigadores aún están explorando.

Ejemplos de la interfaz de usuario de Cradle en acción. Créditos de imagen: Cuna

Las secuencias de proteínas que Cradle ingiere y predice no están en ningún idioma que conozcamos, por supuesto, pero son secuencias lineales de texto relativamente sencillas que tienen significados asociados. “Es como un lenguaje de programación extraterrestre”, dijo van Grieken.

Los ingenieros de proteínas no son indefensos, por supuesto, pero su trabajo implica necesariamente muchas conjeturas. Uno puede estar bastante seguro de que entre las 100 secuencias que están modificando se encuentra la combinación que producirá el efecto deseado, pero más allá de eso, todo se reduce a pruebas exhaustivas. Una pequeña pista aquí podría acelerar considerablemente las cosas y evitar una gran cantidad de trabajo infructuoso.

El modelo funciona en tres capas básicas, explicó. Primero evalúa si una secuencia dada es “natural”, es decir. ya sea una secuencia significativa de aminoácidos o simplemente aleatoria. Esto es similar a un modelo de lenguaje capaz de decir con un 99 % de confianza que una oración está en inglés (o en sueco, en el ejemplo de van Grieken) y que las palabras están en el orden correcto. Esto lo sabe al “leer” millones de tales secuencias determinadas por análisis de laboratorio.

A continuación, analiza el significado real o potencial en el lenguaje extraño de la proteína. “Imagínese que le damos una secuencia, y esta es la temperatura a la que esta secuencia se desmoronará”, dijo. “Si haces eso para muchas secuencias, puedes decir no solo, ‘esto parece natural’, sino ‘esto parece 26 grados centígrados’. eso ayuda al modelo a determinar en qué regiones de la proteína enfocarse”.

Luego, el modelo puede sugerir secuencias para encajar: conjeturas informadas, esencialmente, pero un punto de partida más fuerte que cero. El ingeniero o el laboratorio pueden probarlos y llevar esos datos a la plataforma Cradle, donde se pueden volver a ingerir y utilizar para ajustar el modelo a la situación.

El equipo de Cradle en un buen día en su sede (van Grieken en el centro). Créditos de imagen: Cuna

La modificación de proteínas para diversos fines es útil en la biotecnología, desde el diseño de fármacos hasta la biofabricación, y el camino desde la molécula vainilla hasta la molécula personalizada, eficaz y eficiente puede ser largo y costoso. Cualquier forma de acortarlo probablemente será bienvenida, al menos, por los técnicos de laboratorio que tienen que realizar cientos de experimentos solo para obtener un buen resultado.

Cradle ha estado operando sigilosamente y ahora está emergiendo después de haber recaudado $ 5.5 millones en una ronda inicial codirigida por Index Ventures y Kindred Capital, con la participación de los ángeles John Zimmer, Feike Sijbesma y Emily Leproust.

Van Grieken dijo que la financiación permitiría al equipo ampliar la recopilación de datos (cuantos más, mejor cuando se trata de aprendizaje automático) y trabajar en el producto para que sea “más autoservicio”.

“Nuestro objetivo es reducir el costo y el tiempo de llevar un producto de base biológica al mercado en un orden de magnitud”, dijo van Grieken en el comunicado de prensa, “para que cualquiera, incluso ‘dos niños en su garaje’, pueda traer comercializar un producto de base biológica”.

Source link