Métodos automáticos de Fold Recognition y Threading

Exiten diversos métodos de Threading disponibles públicamente como servidores web. Utilizan técnicas distintas para proponer un modelo final para una secuencia de una proteína target. A continuación se describen brevemente algunos de ellos (existen más).

Métodos propios de Threading

Son métodos que mediante diversas técnicas intentan dar una estructura posible a las secuencias de aquellas proteínas en las que todavía no se ha resuelto su estructura.

3DPSSM
Busca homólogos remotos a una secuencia proteica, para ello combina perfiles de secuencia con información estructural (potenciales de solvatación e información de estructura secundaria) para realizar el reconocimiento de plegamiento y la asignación de función.
Ref.: Kelley LA, MacCallum RM, Sternberg MJ. Enhanced genome annotation using structural profiles in the program 3D-PSSM. J Mol Biol, 2000. 299(2):499-520.

SAMT99
Construye un alineamiento múltiple mediante una búsqueda iterativa usando modelos ocultos de Markov para dar una predicción de estructura secundaria que servirá para buscar en PDB.
Ref.: Kevin Karplus, Birong Hu. Evaluation of protein multiple alignments by SAM-T99 using the BAliBASE multiple alignment test set. Bioinformatics, 2001. 17,713-720.

SAMT02
Nueva versión del servidor SAMT. Todavía no está publicado.

GenTHREADER
GenTHREADER combina varios métodos incluyendo alineamiento de la secuencia target con la estructura del template (obteniendo de ahí la long. de la secuencia target, la long. de la secuencia del template y la long. del alineamiento), potenciales de solvatación y potenciales entre pares. Finalmente evalúa el alineamiento usando una red neuronal.
Ref.: David T. Jones. GenTHREADER: An Efficient and Reliable Protein Fold Recognition Method for Genomic Sequences. J Mol Biol, 1999. 287, 797-815.

FUGUE
Emplea tablas de sustitución específicas para ambientes y penalizaciones para los gaps que son dependientes de estructura, donde los score para el emparejamiento de aminoácidos y las inserciones y delecciones son evaluadas dependiendo del ambiente local de cada aminoácido dentro de una estructura conocida.
Ref.: J. Shi, T. L. Blundell, and K. Mizuguchi (2001). FUGUE: sequence-structure homology recognition using environment-specific substitution tables and structure- dependent gap penalties. J. Mol. Biol., 310, 243-257.

RAPTOR
Este servidor no está devolviendo resultados actualmente.
Realiza alineamientos target-template y busca el óptimo minimizando una función de energía que considera los potenciales de contacto entre residuos a través de una técnica conocida como 'programación entera'.
Ref.: Jinbo Xu, Ming Li, Ying Xu. On the power of integer programming approach to protein threading. Submited to RECOMB2003.

FFAS03
Es una variante de FFAS, el cual compara perfiles de secuencia entre sí. Los perfiles para las familias de proteínas se generan de forma distinta a como lo hace psi-blast, si bien, éste se usa para recoger las proteínas de una familia. FFAS03 no está publicado.
Ref. FFAS: Rychlewski L, Jaroszewski L, Li W and Godzik A. Comparison of sequence profiles. Strategies for structural predictions using sequence information. Protein Science 2000. 9, 232-241.

PROSPECT
No disponible bajo servidor web pero se puede descargar el programa desde http://compbio.ornl.gov/structure/prospect/
La licencia de uso es gratuita para usuarios académicos.
Ref.: Ying Xu and Dong Xu. Protein threading using PROSPECT: Design and evaluation. Proteins 2000. 40:343-354.

Metaservidores de predicción o Metamétodos

Son servidores que para llevar a cabo sus predicciones estructurales utilizan información proveniente de 2 o más de los métodos propios de threading. Algunos simplemente buscan la predicción consenso entre varios métodos y la seleccionan, otros aportan además información adicional calculada por ellos mismos para tratar de mejorar la selección de los modelos.

ROBETTA
Divide la secuencia target en dominios mediante un programa propio, y asigna esos dominios para modelado por homología o para una predicción de novo o ab initio.
La asignación de dominios a una de esas 2 categorías se hace en base a correr blast, psiblast y pcons2, para ver si encuentra posibles 'parents' en PDB. Si encuentra esos 'parents' potenciales en PDB para cada dominio entonces los selecciona. Para los dominios 'huérfanos' utiliza el método de predicción ab initio ROSETTA.
A su vez, esto va reforzado por una predicción de estructura secundaria realizada con otro programa propio.
Ref. ROSETTA: Simons KT et al. Assembly of protein tertiary structures from fragments with similar local sequences using simulated annealing and Bayesian scoring functions. J Mol Biol 1997. 268(1), 209-225.
Robetta no está todavía publicado.

LIBELLULA
Método que toma las predicciones hechas por SAMT99 y 3DPSSM para cada target, calcula información adicional entre el target y el template como la distribución de aminoácidos conservados y apolares sobre el modelo, la compactación del plegamiento, la longitud del target, del template y del alineamiento. Los datos calculados junto con el e-value propuesto por cada uno de los servidores iniciales para el modelo sirven como entrada a una red neuronal que clasifica de nuevo al template como bueno o malo.
Ref.: David Juan, Osvaldo Graña, Florencio Pazos, Piero Fariselli, Rita Casadio and Alfonso Valencia. A neural network approach to evaluate fold recognition results. Proteins, 2003. 50, 600-608.

PCONS
Es un metaservidor que devuelve, para una secuencia target, el consenso de predicción obtenido por diveros servidores como FFAS, 3DPSSM, GenTHREADER, INBGU, SAMT99, FUGUE y ORFeus. Para seleccionar los modelos consenso hace uso de los e-values de los servidores y también realiza comparaciones estructurales entre los modelos que éstos proponen.
Ref.: Lundström J, Rychlewski L, Bujnicki J, Elofsson A. Pcons: A neural-network-based consensus predictor that improves fold recognition. Protein Sci. 2001. 10(11),2354-62.

Servidores que evalúan a los métodos de predicción automáticos

Algo que es muy importante para los usuarios (biólogos, etc) de estos métodos de predicción es saber cuales de ellos producen los mejores resultados. Aunque esto parece obvio no suele ser así, se tiende a usar aquellos métodos que cuentan con interfaces más atractivas para mostrar sus resultados y esto no implica que sean los que producen las mejores predicciones.
Para dar solución a esto existen dos servidores, también automáticos, que evalúan a estos métodos de predicción: EVA y LiveBench. Básicamente lo que hacen es enviar a los predictores secuencias de aquellas proteínas cuyas estructuras van a depositarse en PDB, los predictores devuelven las predicciones y estos métodos contrastan la estructura experimental con el modelo predicho, dando a través de una serie de medidas la bondad de esa predicción.
EVA, por ejemplo, cuenta con tres servidores, uno en la Universidad de Columbia en el laboratorio de Burkhard Rost (servidor central), otro en la Universidad de California-San Francisco en el laboratorio de Andrej Sali y otro en el CNB en Madrid en el laboratorio de Alfonso Valencia. Desde el servidor central se lanzan una serie de proteínas a los predictores semanalmente, luego se evalúan estas predicciones y los resultados finales se muestran al usuario en una web en el servidor central y en los mirrors. Se evalúan las siguientes categorías de predicción de estructura secundaria, diseño por homología, threading y predicción de contactos entre residuos.
Acudir a estos servidores de vez en cuando a ver las páginas de resultados nos llevaría a saber que predictores están funcionando mejor.

Ref. EVA: VA Eyrich, MA Marti-Renom, MS Madhusudhan, A Fiser, F Pazos, A Valencia, A Sali and B. Rost. EVA: continuous automatic evaluation of protein structure prediction servers. Bioinformatics 2001. 17, 1242-1243.
Ref. LiveBench: Janusz M. Bujnicki, Arne Elofsson, Daniel Fischer and Leszek Rychlewski. LiveBench-2:Large-Scale Automated Evaluation of Protein Structure Prediction Servers. Proteins 2001. Suppl 5, 184-191.

Además de esto, existen dos competiciones bianuales CASP(Critical Assessment of protein Structure Prediction) y CAFASP(Critical Assessment of Fully Automated protein Structure Prediction). Los participantes de CASP son grupos humanos de predicción que, usando métodos autómaticos varios y su propia experiencia en el campo para refinar los modelos producidos, hacen sus predicciones y las devuelven al servidor de CASP dentro de un límite de tiempo. En el caso de CAFASP, esta competición es sólo para evaluar a los métodos automáticos, el servidor de CAFASP lanza directamente a los predictores los target, y estos devuelven por correo electrónico los resultados, siendo todo automático. Al terminar la competición se celebra un congreso en Asilomar (California) donde se muestran los resultados de CASP y CAFASP. El pasado diciembre se presentaron los resultados de CASP5 y CAFASP3, en unos meses saldrá un suplemento especial de la revistaProteins donde se comentarán aquellos métodos que lo han hecho mejor, una forma más de saber el funcionamiento de estos predictores.

Refs. CASP4 and CAFASP2: Fourth Meeting on the Critical Assessment of Techniques for Protein Structure Prediction. Proteins 2001. Suppl 5, vol. 45.

Práctica de predicción de estructura

Target 1

O26773 -> 'Primary accession number' en swissprot.

Localizada la secuencia en formato fasta, lanzamos un blast de la secuencia contra la base de datos PDB en NCBI Blast

>Resultados para target 1<

Target 2

P44209 -> 'Primary accession number' en swissprot.
Secuencia en formato fasta.
Swissprot
NCBI Blast

Curso de doctorado de Bioinformática 2003. Universidad Autónoma de Madrid.
Osvaldo Graña
Protein Design Group