Un modelo de IA optimiza la producción de fármacos proteicos en levadura y podría reducir los costes de desarrollo

Ingenieros químicos del MIT desarrollaron un modelo de lenguaje de gran tamaño para optimizar secuencias de codones con el fin de mejorar la producción de proteínas en la levadura industrial Komagataella phaffii. El enfoque aumentó la eficiencia de fabricación para cinco de seis proteínas evaluadas, incluidas la hormona de crecimiento humana y el anticuerpo monoclonal trastuzumab, y podría ayudar a reducir costes de desarrollo.

Los ingenieros químicos del MIT han aprovechado la inteligencia artificial para optimizar el desarrollo de nuevos procesos de fabricación de proteínas, lo que podría reducir los costes globales de desarrollo y producción de estos medicamentos. El estudio se publica esta semana en Proceedings of the National Academy of Sciences.

Las levaduras industriales son una potencia en la producción de proteínas y se utilizan para fabricar vacunas, biofármacos y otros compuestos útiles. Mediante un modelo de lenguaje de gran tamaño (LLM), el equipo del MIT analizó el código genético de la levadura industrial Komagataella phaffii —en concreto, los codones que utiliza—. Existen múltiples codones posibles, o secuencias de ADN de tres letras, que pueden emplearse para codificar un aminoácido determinado, y los patrones de uso de codones son diferentes en cada organismo.

El nuevo modelo del MIT aprendió esos patrones para K. phaffii y después los utilizó para predecir qué codones funcionarían mejor para fabricar una proteína concreta. Esto permitió a los investigadores aumentar la eficiencia de la producción de seis proteínas distintas por parte de la levadura, entre ellas la hormona de crecimiento humana y un anticuerpo monoclonal utilizado para tratar el cáncer.

"Contar con herramientas predictivas que funcionen bien de forma consistente es realmente importante para ayudar a acortar el tiempo desde que se tiene una idea hasta que se lleva a producción. Eliminar la incertidumbre, en última instancia, ahorra tiempo y dinero", afirma un autor principal del estudio, Raymond A. and Helen E. St. Laurent Professor of Chemical Engineering en el MIT, miembro del Koch Institute for Integrative Cancer Research y codirector académico de la MIT Initiative for New Manufacturing (MIT INM).

Levaduras como K. phaffii y Saccharomyces cerevisiae (levadura de panadería) son los caballos de batalla de la industria biofarmacéutica, ya que producen cada año miles de millones de dólares en medicamentos proteicos y vacunas. Para diseñar levaduras para la producción industrial de proteínas, los investigadores toman un gen de otro organismo, como el gen de la insulina, y lo modifican para que el microbio lo produzca en grandes cantidades. Esto requiere idear una secuencia de ADN óptima para las células de levadura, integrarla en el genoma de la levadura, establecer condiciones de crecimiento favorables y, por último, purificar el producto final.

En el caso de los nuevos fármacos biológicos —medicamentos grandes y complejos producidos por organismos vivos—, este proceso de desarrollo podría representar entre el 15 y el 20 por ciento del coste total de comercialización del fármaco. "Hoy, esos pasos se realizan mediante tareas experimentales muy laboriosas", señala el autor principal. "Hemos estado planteándonos en qué puntos podríamos tomar algunos de los conceptos que están surgiendo en el aprendizaje automático y aplicarlos para que distintos aspectos del proceso sean más fiables y más fáciles de predecir".

En este estudio, los investigadores querían intentar optimizar la secuencia de codones de ADN que componen el gen de una proteína de interés. Existen 20 aminoácidos naturales, pero 64 secuencias de codones posibles, por lo que la mayoría de estos aminoácidos puede codificarse mediante más de un codón. Cada codón corresponde a una molécula única de ARN de transferencia (tRNA), que lleva el aminoácido correcto al ribosoma, donde los aminoácidos se ensamblan para formar proteínas.

Los distintos organismos utilizan cada uno de estos codones a diferentes tasas, y los diseñadores de proteínas recombinantes suelen optimizar la producción eligiendo los codones que aparecen con mayor frecuencia en el organismo huésped. Sin embargo, esto no necesariamente produce los mejores resultados. Si, por ejemplo, siempre se utiliza el mismo codón para codificar la arginina, la célula puede quedarse con pocas moléculas de tRNA que correspondan a ese codón.

Para adoptar un enfoque más matizado, el equipo del MIT implementó un tipo de modelo de lenguaje de gran tamaño conocido como encoder-decoder. En lugar de analizar texto, los investigadores lo utilizaron para analizar secuencias de ADN y aprender las relaciones entre los codones que se emplean en genes específicos. Sus datos de entrenamiento, procedentes de un conjunto de datos de acceso público del National Center for Biotechnology Information, consistían en las secuencias de aminoácidos y las secuencias de ADN correspondientes de las aproximadamente 5.000 proteínas producidas de forma natural por K. phaffii.

"El modelo aprende la sintaxis o el lenguaje de cómo se usan estos codones", explica el autor principal. "Tiene en cuenta cómo se colocan los codones uno junto a otro, así como las relaciones de largo alcance entre ellos".

Una vez entrenado el modelo, los investigadores le pidieron que optimizara las secuencias de codones de seis proteínas distintas, entre ellas la hormona de crecimiento humana, la albúmina sérica humana y trastuzumab, un anticuerpo monoclonal utilizado para tratar el cáncer. También generaron secuencias optimizadas de estas proteínas utilizando cuatro herramientas comerciales de optimización de codones. Los investigadores introdujeron cada una de estas secuencias en células de K. phaffii y midieron cuánta proteína diana generaba cada secuencia. En cinco de las seis proteínas, las secuencias del nuevo modelo del MIT fueron las que mejor funcionaron.

Related Entities

Related Articles

References

  1. New AI model could cut the costs of developing protein drugs - EurekAlert! · www.eurekalert.org
  2. AI Model May Slash Protein Drug Development Costs | Mirage News · www.miragenews.com
  3. New AI model could cut the costs of developing protein drugs | MIT News · news.mit.edu