Logotipo de Zephyrnet

¿Una carpeta de proteínas de inteligencia artificial de próxima generación que podría ayudar a la ciencia? Meta sirve para algo

Fecha:

Los investigadores de IA de Meta dicen que han desarrollado el modelo de plegamiento de proteínas más grande de su tipo hasta la fecha, y que es capaz de predecir la estructura de más de 600 millones de proteínas.

El equipo liberado el modelo basado en transformadores ESM-15 de 2 mil millones de parámetros y una base de datos de sus predicciones de estructura de proteínas, denominada Atlas Metagenómico ESM, el martes. Esta base de datos incluye formas de proteínas que aún no han sido observadas por los científicos.

Las proteínas son moléculas biológicas complejas que contienen hasta 20 tipos de aminoácidos y realizan todo tipo de funciones biológicas en los organismos. Fundamentalmente, se pliegan en intrincadas estructuras 3D, cuya forma es vital para su funcionamiento; conocer su forma ayuda a los científicos a comprender cómo funcionan y, a partir de eso, les ayuda a descubrir formas de imitar, alterar o contrarrestar ese comportamiento.

Desafortunadamente, no puedes simplemente tomar la fórmula de aminoácidos e inmediatamente calcular la estructura final. Puede hacer simulaciones o experimentar para descubrirlo potencialmente, pero esto lleva mucho tiempo. En estos días, puede proporcionar a un software de aprendizaje automático debidamente capacitado la composición química de una proteína y el modelo predecirá la estructura de manera rápida y precisa, en términos relativos.

De hecho, DeepMind lo demostró con su modelo AlphaFold, que ganado la competencia bienal internacional CASP de plegamiento de proteínas computacionales en 2020. Dada una cadena de entrada de aminoácidos, AlphaFold y otro software de aprendizaje automático pueden generar su estructura tridimensional correspondiente. 

Desde entonces, los investigadores de DeepMind, con sede en Londres, han mejorado su sistema para predecir la estructura de más de 200 millones de proteínas conocidas por la ciencia. El último sistema ESM de Meta ha ido más allá, prediciendo cientos de millones más después de haber sido entrenado en millones de secuencias de proteínas.

Un artículo de preimpresión del equipo de Meta, Lin et al, que explica el diseño de ESM-2 se puede encontrar aquí. Curiosamente, según los investigadores, el sistema es en realidad un gran modelo de lenguaje hecho para "aprender patrones evolutivos y generar predicciones de estructura precisas de extremo a extremo directamente a partir de la secuencia de una proteína". AlphaFold, por ejemplo, no es un modelo de lenguaje y utiliza un enfoque diferente.

Como señalan los científicos en su artículo, estos grandes modelos de lenguaje se pueden usar para mucho más que manejar lenguajes humanos: “Los modelos de lenguaje moderno que contienen decenas a cientos de miles de millones de parámetros desarrollan habilidades tales como traducción de lenguaje de pocas tomas, razonamiento de sentido común y matemáticas. resolución de problemas, todo ello sin supervisión explícita.

"Estas observaciones plantean la posibilidad de que los modelos de lenguaje entrenados en secuencias de proteínas puedan exhibir una forma paralela de emergencia".

El resultado es ESM-2, que a través de un modelo de lenguaje se ha enseñado a predecir la forma física de una proteína a partir de una cadena de texto que representa sus aminoácidos.

ESM-2 es el modelo más grande de su tipo y aparentemente predice estructuras más rápido que sistemas similares; es hasta 60 veces más rápido que los sistemas de última generación anteriores como AlphaFold o Rosetta, que pueden tardar más de diez minutos en generar una salida, según Meta.

El modelo fue capaz de crear el Atlas Metagenómico ESM, prediciendo más de 600 millones de estructuras del MGnify90 base de datos de proteínas en solo dos semanas ejecutándose en 2,000 GPU. En una sola GPU Nvidia V100, solo se necesitan 14.2 segundos para simular una proteína compuesta por 384 aminoácidos. Parece del artículo que Meta dijo que su sistema en su mayoría, pero no completamente, coincidía con AlphaFold en precisión, aunque su velocidad es la clave, lo que le permite predecir más proteínas.

“Con las herramientas informáticas de última generación actuales, la predicción de estructuras para cientos de millones de secuencias de proteínas en un marco de tiempo práctico podría llevar años, incluso utilizando los recursos de una importante institución de investigación. Para hacer predicciones a la escala de la metagenómica, es fundamental un gran avance en la velocidad de predicción”, dijo el propietario de Facebook. 

Meta espera que el ESM-2 y el Atlas metagenómico de ESM ayuden al avance de la ciencia al ayudar a los científicos a estudiar la historia evolutiva o abordar las enfermedades y el cambio climático. “Para ampliar aún más este trabajo, estamos estudiando cómo se pueden usar los modelos de lenguaje para diseñar nuevas proteínas y contribuir a resolver los desafíos en la salud, las enfermedades y el medio ambiente”, concluyó el negocio. ®

punto_img

Información más reciente

punto_img