Esta base de datos de libre acceso puede revolucionar la investigación de campos como la biología y la medicina, acelerando la capacidad para entender enfermedades, desarrollar nuevos medicamentos y reutilizar los existentes.
El año pasado la compañía de inteligencia artificial DeepMind logró resolver uno de los grandes enigmas de la biología: desentrañar cómo las proteínas adquieren su estructura tridimensional, esas formas únicas que les permiten encajar entre sí y que determinan su función y comportamiento. Ahora, tras haber creado la mayor base de datos disponible, con más de 360.000 de estos bloques básicos para la vida, los responsables del proyecto han decidido ponerlos a disposición de los investigadores. El anuncio se ha realizado este jueves a través de la revista Nature.
En un organismo vivo, cada célula desempeña su papel con la ayuda de proteínas que aportan instrucciones para mantenerla sana y prevenir posibles infecciones. Por eso, a diferencia del genoma (la secuencia de genes que codifica la vida celular) el proteoma cambia constantemente en respuesta tanto a instrucciones genéticas como a estímulos externos. Aunque determinar el contenido químico exacto de una enzima es relativamente sencillo hoy en día, identificar su forma tridimensional puede implicar años de experimentación.
Entender cómo adquieren estas estructuras ha supuesto un verdadero reto para los investigadores en biología; hasta tal punto que después de medio siglo de investigación sólo se conoce el 17% de los componentes del proteoma humano. De ahí la relevancia de la aportación de los investigadores de DeepMind, una filial de Google, y del Laboratorio Europeo de Biología Molecular (EMBL), facilitando el libre acceso a 20.000 proteínas expresadas por el genoma humano, además de otras 320.000 de otros 20 organismos utilizados en la investigación, como bacterias o ratones.
Aprendizaje automático
La construcción de esta base de datos ha sido posible gracias a AlphaFold, un programa de aprendizaje automático capaz de predecir con precisión la forma de una proteína a partir de su secuencia de aminoácidos (un tipo de molécula orgánica). “Lo que antes tardábamos meses o años en conseguir, se ha hecho en un fin de semana”, ha resumido John McGeehan, director del Centro de Innovación Enzimática de la Universidad de Portsmouth, que ha participado en el proyecto. “La capacidad de predecir con un programa informático la forma de una proteína a partir de su secuencia de aminoácidos ya se está aplicando en algunos ámbitos de investigación”.
AlphaFold anticipa las estructuras de las proteínas utilizando lo que se llama una red neuronal, un sistema matemático que puede aprender tareas analizando grandes conjuntos de datos -en este caso, una base de 170.000 estructuras proteicas ya conocidas- y, a partir de esta información, predice lo desconocido. Así, pudo establecer la forma del 58% de todas las proteínas del proteoma humano. En paralelo, una prueba de referencia independiente, en la que se compararon las predicciones del programa con otras estructuras ya conocidas, sirvió como elemento de control para verificar un acierto de un 95% en los resultados.
“Creemos que es la imagen más completa y precisa del proteoma humano hasta la fecha”, ha afirmado Demis Hassabis, director ejecutivo y cofundador de DeepMind en declaraciones a la BBC. “Creemos que este trabajo representa la contribución más significativa que la IA ha hecho para avanzar en el estado del conocimiento científico hasta la fecha y creo que es una gran ilustración y ejemplo del tipo de beneficios que puede aportar a la sociedad”.
Aplicaciones
El mapa biológico -que ofrece unas 250.000 formas hasta ahora desconocidas- puede acelerar la capacidad de entender las enfermedades, desarrollar nuevos medicamentos y reutilizar los existentes. También puede conducir a nuevos tipos de herramientas biológicas, como una enzima que descomponga eficazmente botellas de plástico y las convierta en materiales reutilizables y reciclables. Pero además las aplicaciones potenciales de estos datos van desde la investigación de enfermedades genéticas hasta la ingeniería de cultivos resistentes a la sequía.
Si los científicos pueden determinar la forma de una proteína, también pueden entender cómo se unirán a ella otras moléculas. Eso revelará, por ejemplo, cómo las bacterias desarrollan resistencia a los antibióticos y cómo contrarrestarla; las bacterias expresan ciertas proteínas para burlar los efectos de algunos medicamentos: si los científicos son capaces de identificar las formas de estas proteínas, pueden desarrollar nuevos antibióticos que las supriman.
No obstante la precisión del sistema no siempre es la misma, por lo que algunas de las predicciones de la base de datos de DeepMind serán menos útiles que otras, al ser menos fiables. En consecuencia, los expertos señalan que el sistema no puede sustituir por completo a los experimentos físicos; se utilizará junto con el trabajo de laboratorio, ayudando a los científicos a determinar qué experimentos deben realizar y llenando los vacíos cuando sus experiencias no tengan éxito.