IA facilita descifrar función de proteínas desconocidas

Un estudio de académicos del Consejo Superior de Investigaciones Científicas, España; realizó la aplicación masiva de métodos de inteligencia artificial (IA) de aprendizaje profundo; para comprender las proteínas en organismos menos estudiados, identificar nuevas funciones de genes y explorar cuales de estas moléculas proteínas pueden albergar potencial biomédico y biotecnológico. Los resultados se compartieron en la revista Nuc Acids Red Genomics and Bioinformatics.

En este proyecto, liderado por los investigadores Ildefonso Cases, Ana RojasRosa Fernández; se emplearon dos métodos basados en el aprendizaje profundo para analizar proteínas en organismos como la levadura, el ratón y la mosca de la fruta.

La exploración mostró que los modelos de lenguaje (Transformers) son más efectivos que las redes neuronales convolucionales, al proporcionar información más precisa y didáctica sobre las proteínas de las especies estudiadas. Además, los modelos de lenguaje pueden recuperar información funcional a partir de datos de ácido ribonucleico (ARN), molécula que transporta las instrucciones del ADN para fabricar proteínas en las células.

“Estamos en un momento crítico, debido a la enorme cantidad de proyectos de secuenciación de organismos desconocidos que producen millones de secuencias, de las que no podemos predecir su función usando métodos tradicionales”, explicó Rojas. Asimismo, añadió que este análisis «permite conocer mejor la biodiversidad proteica, donde cada día se publican nuevas secuencias de proteínas cuya función es desconocida».

Biología computacional

“Estas herramientas de aprendizaje profundo permitirán abordar nuevos problemas en biología computacional. Estamos trabajando en la aplicación de estas técnicas para otros objetivos, como promotores a la carta, anotación de grupos de células en single-cell, o ingeniería de proteínas”, afirmó Rojas.

Por su parte, Fernández enfatizó la importancia del campo de la biodiversidad en esta investigación, el cual publica diariamente nuevas secuencias de proteínas de función desconocida. Esto permite abordar el problema de anotación del proteoma oscuro , es decir, el conjunto de proteínas desconocidas que elabora un organismo.

“Para ello estamos usando estas herramientas en miles de transcriptomas del reino animal«, sostuvo Fernández, quien también señaló que «cuanta más información tengamos de las funciones de secuencias nuevas, más rápido descifraremos los mecanismos moleculares de procesos biológicos que se dan en el ámbito de la biodiversidad y regeneración», los cuales podrían emplearse potencialmente para sectores industriales como el de la alimentación y la manufactura farmacéutica.

Fuente: SINC

VTV/DC/DS