Un modèle d’IA optimise la production de protéines thérapeutiques dans la levure et pourrait réduire les coûts de développement
Des ingénieurs chimistes du MIT ont développé un grand modèle de langage capable d’optimiser les séquences de codons pour améliorer la production de protéines dans la levure industrielle Komagataella phaffii. L’approche a augmenté le rendement pour cinq des six protéines testées, dont l’hormone de croissance humaine et l’anticorps monoclonal trastuzumab, et pourrait réduire les coûts de développement des médicaments biologiques.
Les ingénieurs chimistes du MIT ont mis à profit l’intelligence artificielle pour optimiser le développement de nouveaux procédés de fabrication de protéines, ce qui pourrait réduire les coûts globaux de développement et de production de ces médicaments. L’étude paraît cette semaine dans les Proceedings of the National Academy of Sciences.
Les levures industrielles sont de véritables centrales de production de protéines, utilisées pour fabriquer des vaccins, des biopharmaceutiques et d’autres composés utiles. À l’aide d’un grand modèle de langage (LLM), l’équipe du MIT a analysé le code génétique de la levure industrielle Komagataella phaffii — en particulier, les codons qu’elle utilise. Il existe plusieurs codons possibles, c’est-à-dire des séquences d’ADN de trois lettres, pour coder un acide aminé donné, et les profils d’utilisation des codons diffèrent selon les organismes.
Le nouveau modèle du MIT a appris ces profils pour K. phaffii, puis les a utilisés pour prédire quels codons seraient les plus adaptés à la fabrication d’une protéine donnée. Les chercheurs ont ainsi pu accroître l’efficacité de la production, par la levure, de six protéines différentes, dont l’hormone de croissance humaine et un anticorps monoclonal utilisé pour traiter le cancer.
« Disposer d’outils prédictifs qui fonctionnent de manière fiable est vraiment essentiel pour réduire le délai entre une idée et sa mise en production. Lever l’incertitude permet in fine d’économiser du temps et de l’argent », déclare l’un des auteurs principaux de l’étude, professeur Raymond A. and Helen E. St. Laurent de génie chimique au MIT, membre du Koch Institute for Integrative Cancer Research, et codirecteur académique de la MIT Initiative for New Manufacturing (MIT INM).
Des levures comme K. phaffii et Saccharomyces cerevisiae (levure de boulanger) sont les piliers de l’industrie biopharmaceutique, produisant chaque année des médicaments protéiques et des vaccins représentant des milliards de dollars. Pour concevoir des levures destinées à la production industrielle de protéines, les chercheurs prennent un gène d’un autre organisme — par exemple le gène de l’insuline — et le modifient afin que le microbe le produise en grande quantité. Cela implique de concevoir une séquence d’ADN optimale pour les cellules de levure, de l’intégrer dans le génome de la levure, de définir des conditions de culture favorables, puis de purifier le produit final.
Pour de nouveaux médicaments biologiques — des médicaments de grande taille et complexes produits par des organismes vivants — ce processus de développement peut représenter 15 à 20 % du coût total de commercialisation du médicament. « Aujourd’hui, ces étapes reposent toutes sur des tâches expérimentales très laborieuses », explique l’auteur principal. « Nous nous sommes demandé où nous pourrions reprendre certains concepts émergents en apprentissage automatique et les appliquer pour rendre différentes étapes du processus plus fiables et plus simples à prédire. »
Dans cette étude, les chercheurs ont voulu optimiser la séquence de codons d’ADN constituant le gène d’une protéine d’intérêt. Il existe 20 acides aminés naturels, mais 64 séquences de codons possibles ; la plupart de ces acides aminés peuvent donc être codés par plus d’un codon. Chaque codon correspond à une molécule unique d’ARN de transfert (tRNA), qui apporte le bon acide aminé au ribosome, où les acides aminés sont assemblés en protéines.
Les différents organismes utilisent chacun de ces codons à des fréquences différentes, et les concepteurs de protéines ingénierées optimisent souvent la production en choisissant les codons les plus fréquents chez l’organisme hôte. Toutefois, cela ne donne pas nécessairement les meilleurs résultats. Si, par exemple, le même codon est toujours utilisé pour coder l’arginine, la cellule peut manquer de molécules de tRNA correspondant à ce codon.
Pour adopter une approche plus nuancée, l’équipe du MIT a déployé un type de grand modèle de langage appelé encodeur-décodeur. Au lieu d’analyser du texte, les chercheurs l’ont utilisé pour analyser des séquences d’ADN et apprendre les relations entre les codons utilisés dans des gènes spécifiques. Leurs données d’entraînement, issues d’un ensemble de données accessible au public du National Center for Biotechnology Information, comprenaient les séquences d’acides aminés et les séquences d’ADN correspondantes pour l’ensemble des quelque 5 000 protéines produites naturellement par K. phaffii.
« Le modèle apprend la syntaxe, ou le langage, de la manière dont ces codons sont utilisés », explique l’auteur principal. « Il prend en compte la façon dont les codons sont placés les uns à côté des autres, ainsi que les relations à longue distance entre eux. »
Une fois le modèle entraîné, les chercheurs lui ont demandé d’optimiser les séquences de codons de six protéines différentes, dont l’hormone de croissance humaine, l’albumine sérique humaine et trastuzumab, un anticorps monoclonal utilisé pour traiter le cancer. Ils ont également généré des séquences optimisées de ces protéines à l’aide de quatre outils commerciaux d’optimisation des codons. Les chercheurs ont inséré chacune de ces séquences dans des cellules de K. phaffii et mesuré la quantité de protéine cible produite par chaque séquence. Pour cinq des six protéines, les séquences issues du nouveau modèle du MIT ont donné les meilleurs résultats.