L’université du Missouri publie PSBench, un référentiel de modèles protéiques pour le développement de médicaments guidé par l’IA
Des chercheurs de l’université du Missouri ont publié PSBench, une base de données de 1,4 million de modèles annotés de structure protéique vérifiés par des experts indépendants. Cette ressource vise à améliorer l’évaluation par l’IA des modèles protéiques, alors que la découverte de médicaments biologiques évolue vers une conception fondée sur les données.
Des chercheurs de l’université du Missouri ont publié PSBench, une base de données de 1,4 million de modèles annotés de structure protéique, une nouvelle ressource susceptible d’accélérer le développement de médicaments contre des maladies telles qu’Alzheimer et le cancer. Les modèles ont été vérifiés par des experts indépendants et visent à aider les scientifiques à construire des systèmes d’intelligence artificielle plus précis pour évaluer la qualité des modèles de structure protéique. Les avancées récentes de l’IA, notamment avec des outils comme AlphaFold, ont considérablement amélioré la prédiction de la structure des protéines, mais aucun outil d’IA unique n’est systématiquement précis pour tous les types de protéines.
La base de données fournit aux scientifiques des informations leur permettant d’évaluer si les modèles protéiques prédits sont fiables, ce qui est essentiel pour mettre au point les futurs traitements médicaux. Les protéines pilotent chaque processus biologique du corps humain, et leurs formes tridimensionnelles déterminent leur fonction. Même de petites modifications structurelles peuvent provoquer des maladies.
La ressource PSBench a été élaborée en s’appuyant sur des ressources internes et communautaires générées dans le cadre du Critical Assessment of protein Structure Prediction (CASP), largement reconnu comme la référence internationale pour l’évaluation des méthodes computationnelles de prédiction des protéines. Cette compétition biennale a été créée pour tester de manière indépendante des modèles informatiques capables de prédire comment les chaînes protéiques se replient en structures 3D nécessaires à leur fonction.
Ces avancées reflètent une évolution plus large de la découverte de médicaments biologiques, qui passe d’un processus expérimental lent à une discipline d’ingénierie fondée sur les données. Les progrès du deep learning, depuis les modèles de langage des protéines qui interprètent la grammaire des séquences jusqu’aux prédicteurs de structure et aux modèles génératifs de nouvelle génération, permettent aux chercheurs de décoder, prédire et créer des molécules biologiques complexes avec une précision sans précédent. En apprenant à partir de vastes jeux de données biologiques, ces systèmes peuvent mettre au jour des schémas reliant séquence, structure et fonction, faisant évoluer le domaine d’une découverte fondée sur le hasard vers une innovation rationnelle guidée par la conception.
L’IA peut concevoir de nouvelles protéines, anticorps, peptides et acides nucléiques dotés de fonctions sur mesure, tout en optimisant des propriétés telles que l’affinité de liaison, la stabilité et l’aptitude à la fabrication. Les approches génératives, notamment les modèles de diffusion et les architectures autorégressives, permettent aux scientifiques d’explorer de vastes régions de l’espace de conception moléculaire qui seraient inaccessibles par le criblage conventionnel ou l’évolution dirigée. En parallèle, l’apprentissage automatique améliore les stratégies d’administration, comme les nanoparticules lipidiques, les vecteurs viraux et les conjugués anticorps-médicament, en prédisant les performances, en orientant la formulation et en proposant de nouveaux composants.
Les premiers médicaments biologiques conçus par l’IA, notamment des thérapeutiques peptidiques, des anticorps et des candidats fondés sur l’ARNm, entrent en évaluation clinique. Dans le même temps, l’optimisation guidée par l’IA accélère la maturation de l’affinité et l’ingénierie de la stabilité, réduisant le besoin de vastes campagnes de criblage expérimental et raccourcissant les délais de développement.
Les modèles actuels excellent souvent dans la prédiction de la structure moléculaire, mais peinent à saisir la complexité des systèmes biologiques, laissant un écart entre les prédictions in silico et les résultats in vivo. L’immunogénicité, la pharmacocinétique et le contexte cellulaire restent difficiles à modéliser avec précision, et les progrès sont limités par l’accès restreint à des jeux de données de haute qualité, spécifiques aux tâches, ainsi que par la difficulté d’optimiser simultanément plusieurs propriétés d’un médicament sans compromis. Les auteurs d’une revue récente estiment qu’une intégration plus étroite entre calcul et expérimentation, en particulier via des flux de travail en boucle fermée guidés par l’IA, dans lesquels des expériences automatisées génèrent en continu des données pour affiner les modèles, pourrait aider à combler cet écart entre prédiction et performance.