La University of Missouri publica PSBench, un banco de referencia de modelos proteicos para el desarrollo de fármacos impulsado por IA
Investigadores de la University of Missouri han lanzado PSBench, una base de datos con 1,4 millones de modelos anotados de estructura de proteínas verificados por expertos independientes. El recurso busca mejorar la evaluación mediante IA de modelos proteicos y apoyar un descubrimiento de fármacos biológicos cada vez más guiado por datos.
Investigadores de la University of Missouri han publicado PSBench, una base de datos de 1,4 millones de modelos anotados de estructura de proteínas, un nuevo recurso que podría acelerar el desarrollo de fármacos para enfermedades como el Alzheimer y el cáncer. Los modelos fueron verificados por expertos independientes y están destinados a ayudar a los científicos a construir sistemas de inteligencia artificial más precisos para evaluar la calidad de los modelos de estructura de proteínas. Los avances recientes en IA, incluidas herramientas como AlphaFold, han mejorado de forma drástica la predicción de estructuras proteicas, pero ninguna herramienta de IA es sistemáticamente precisa para todos los tipos de proteínas.
La base de datos ofrece a los científicos información para evaluar si se puede confiar en los modelos proteicos predichos, algo fundamental para desarrollar futuros tratamientos médicos. Las proteínas impulsan todos los procesos biológicos del cuerpo humano, y sus formas tridimensionales determinan cómo funcionan. Incluso pequeños cambios estructurales pueden provocar enfermedad.
El recurso PSBench se construyó aprovechando recursos internos y de toda la comunidad generados en la Critical Assessment of protein Structure Prediction (CASP), ampliamente reconocida como el estándar de oro internacional para evaluar métodos computacionales de predicción de proteínas. La competición bienal fue creada para probar de manera independiente modelos informáticos que predicen cómo las cadenas de proteínas se pliegan en las formas 3D que necesitan para funcionar.
Estos avances reflejan un cambio más amplio en el descubrimiento de fármacos biológicos: de un proceso lento y experimental a una disciplina de ingeniería impulsada por datos. Los avances en aprendizaje profundo, desde modelos de lenguaje de proteínas que interpretan la gramática de las secuencias hasta predictores estructurales y modelos generativos de nueva generación, están permitiendo a los investigadores descifrar, predecir y crear moléculas biológicas complejas con una precisión sin precedentes. Al aprender de enormes conjuntos de datos biológicos, estos sistemas pueden descubrir patrones que vinculan secuencia, estructura y función, desplazando el campo desde el descubrimiento fortuito hacia una innovación racional guiada por el diseño.
La IA puede diseñar nuevas proteínas, anticuerpos, péptidos y ácidos nucleicos con funciones a medida, al tiempo que optimiza propiedades como la afinidad de unión, la estabilidad y la capacidad de fabricación. Los enfoques generativos, incluidos los modelos de difusión y las arquitecturas autorregresivas, permiten a los científicos explorar vastas regiones del espacio de diseño molecular que serían inaccesibles mediante el cribado convencional o la evolución dirigida. En paralelo, el aprendizaje automático está mejorando estrategias de administración como las nanopartículas lipídicas, los vectores virales y los conjugados anticuerpo-fármaco al predecir el rendimiento, orientar la formulación y proponer nuevos componentes.
Los primeros biológicos diseñados con IA, incluidos terapéuticos peptídicos, anticuerpos y candidatos basados en mRNA, están entrando en evaluación clínica. Al mismo tiempo, la optimización guiada por IA está acelerando la maduración de afinidad y la ingeniería de estabilidad, reduciendo la necesidad de un amplio cribado experimental y acortando los plazos de desarrollo.
Los modelos actuales suelen destacar en la predicción de la estructura molecular, pero tienen dificultades para captar la complejidad de los sistemas biológicos, lo que deja una brecha entre las predicciones in silico y los resultados in vivo. La inmunogenicidad, la farmacocinética y el contexto celular siguen siendo difíciles de modelizar con precisión, y el progreso está limitado por el acceso restringido a conjuntos de datos de alta calidad y específicos para cada tarea, así como por la dificultad de optimizar simultáneamente múltiples propiedades de los fármacos sin compensaciones. Los autores de una revisión reciente señalaron que una integración más estrecha entre computación y experimento, en particular mediante flujos de trabajo de circuito cerrado impulsados por IA en los que experimentos automatizados generan continuamente datos para refinar los modelos, podría ayudar a cerrar la brecha entre predicción y rendimiento.