Exiten diversos métodos de Threading
disponibles públicamente como servidores web. Utilizan técnicas
distintas para proponer un modelo final para una secuencia de una proteína
target. A continuación se describen brevemente algunos de ellos (existen
más).
Métodos propios de Threading
Son métodos que mediante diversas técnicas intentan dar una
estructura posible a las secuencias de aquellas proteínas en las que
todavía no se ha resuelto su estructura.
3DPSSM
Busca homólogos remotos a una secuencia proteica, para ello combina
perfiles de secuencia con información estructural (potenciales de
solvatación e información de estructura secundaria) para realizar
el reconocimiento de plegamiento y la asignación de función.
Ref.:
Kelley LA, MacCallum RM, Sternberg
MJ. Enhanced genome annotation using structural profiles in the program 3D-PSSM.
J Mol Biol, 2000. 299(2):499-520.
SAMT99
Construye un alineamiento múltiple mediante una búsqueda iterativa
usando modelos ocultos de Markov para dar una predicción de estructura
secundaria que servirá para buscar en PDB.
Ref.:
Kevin Karplus, Birong Hu. Evaluation
of protein multiple alignments by SAM-T99 using the BAliBASE multiple alignment
test set. Bioinformatics, 2001. 17,713-720.
SAMT02
Nueva versión del servidor SAMT. Todavía no está publicado.
GenTHREADER
GenTHREADER combina varios métodos incluyendo alineamiento de la secuencia
target con la estructura del template (obteniendo de ahí la long.
de la secuencia target, la long. de la secuencia del template y la long.
del alineamiento), potenciales de solvatación y potenciales entre
pares. Finalmente evalúa el alineamiento usando una red neuronal.
Ref.:
David T. Jones. GenTHREADER: An Efficient
and Reliable Protein Fold Recognition Method for Genomic Sequences. J Mol
Biol, 1999. 287, 797-815.
FUGUE
Emplea tablas de sustitución específicas para ambientes y penalizaciones
para los gaps que son dependientes de estructura, donde los score para el
emparejamiento de aminoácidos y las inserciones y delecciones son
evaluadas dependiendo del ambiente local de cada aminoácido dentro
de una estructura conocida.
Ref.:
J. Shi, T. L. Blundell, and K. Mizuguchi
(2001). FUGUE: sequence-structure homology recognition using environment-specific
substitution tables and structure- dependent gap penalties. J. Mol. Biol., 310, 243-257.
RAPTOR
Realiza alineamientos target-template y busca el óptimo minimizando
una función de energía que considera los potenciales de contacto
entre residuos a través de una técnica conocida como 'programación
entera'.
Ref.: Jinbo Xu, Ming Li, Ying Xu. On the
power of integer programming approach to protein threading. Submited to RECOMB2003.
FFAS03
Es una variante de FFAS, el cual compara perfiles de secuencia entre sí.
Los perfiles para las familias de proteínas se generan de forma distinta
a como lo hace psi-blast, si bien, éste se usa para recoger las proteínas
de una familia. FFAS03 no está publicado.
Ref. FFAS:
Rychlewski L, Jaroszewski L,
Li W and Godzik A. Comparison of sequence profiles. Strategies for structural
predictions using sequence information. Protein Science 2000. 9, 232-241.
PROSPECT
No disponible bajo servidor web pero se puede descargar el programa desde
http://compbio.ornl.gov/structure/prospect/
La licencia de uso es gratuita para usuarios académicos.
Ref.:
Ying Xu and Dong Xu. Protein threading using PROSPECT: Design and
evaluation. Proteins 2000. 40:343-354.
Metaservidores de predicción o Metamétodos
Son servidores que para llevar a cabo sus predicciones estructurales utilizan
información proveniente de 2 o más de los métodos propios
de threading. Algunos simplemente buscan la predicción consenso entre
varios métodos y la seleccionan, otros aportan además información
adicional calculada por ellos mismos para tratar de mejorar la selección
de los modelos.
ROBETTA
Divide la secuencia target en dominios mediante un programa propio, y asigna
esos dominios para modelado por homología o para una predicción
de novo o
ab initio.
La asignación de dominios a una de esas 2 categorías se hace
en base a correr blast, psiblast y pcons2, para ver si encuentra posibles
'parents' en PDB. Si encuentra esos 'parents' potenciales en PDB para cada
dominio entonces los selecciona. Para los dominios 'huérfanos' utiliza
el método de predicción
ab
initio ROSETTA.
A su vez, esto va reforzado por una predicción de estructura secundaria
realizada con otro programa propio.
Ref. ROSETTA:
Simons KT et al. Assembly
of protein tertiary structures from fragments with similar local sequences
using simulated annealing and Bayesian scoring functions. J Mol Biol 1997.
268(1), 209-225.
Robetta no está todavía publicado.
LIBELLULA
Método que toma las predicciones hechas por SAMT99 y 3DPSSM para cada
target, calcula información adicional entre el target y el template
como la distribución de aminoácidos conservados y apolares
sobre el modelo, la compactación del plegamiento, la longitud del
target, del template y del alineamiento. Los datos calculados junto con el
e-value propuesto por cada uno de los servidores iniciales para el modelo
sirven como entrada a una red neuronal que clasifica de nuevo al template
como bueno o malo.
Ref.:
David Juan, Osvaldo Graña,
Florencio Pazos, Piero Fariselli, Rita Casadio and Alfonso Valencia. A neural
network approach to evaluate fold recognition results. Proteins, 2003. 50,
600-608.
PCONS
Es un metaservidor que devuelve, para una secuencia target, el consenso
de predicción obtenido por diveros servidores como FFAS, 3DPSSM, GenTHREADER,
INBGU, SAMT99, FUGUE y ORFeus. Para seleccionar los modelos consenso hace
uso de los e-values de los servidores y también realiza comparaciones
estructurales entre los modelos que éstos proponen.
Ref.:
Lundström J, Rychlewski L, Bujnicki
J, Elofsson A. Pcons: A neural-network-based consensus predictor that improves
fold recognition. Protein Sci. 2001. 10(11),2354-62.
Servidores que evalúan a los métodos
de predicción automáticos
Algo que es muy importante para los usuarios
(biólogos, etc) de estos métodos de predicción es saber
cuales de ellos producen los mejores resultados. Aunque esto parece obvio
no suele ser así, se tiende a usar aquellos métodos que cuentan
con interfaces más atractivas para mostrar sus resultados y esto no
implica que sean los que producen las mejores predicciones.
Para dar solución a esto existen dos servidores, también automáticos,
que evalúan a estos métodos de predicción: EVA y LiveBench. Básicamente lo
que hacen es enviar a los predictores secuencias de aquellas proteínas
cuyas estructuras van a depositarse en PDB, los predictores devuelven las
predicciones y estos métodos contrastan la estructura experimental
con el modelo predicho, dando a través de una serie de medidas la
bondad de esa predicción.
EVA, por ejemplo, cuenta con tres servidores, uno en la Universidad de Columbia
en el laboratorio de Burkhard Rost (servidor central), otro en la Universidad
de California-San Francisco en el laboratorio de Andrej Sali y otro en el
CNB en Madrid en el laboratorio de Alfonso Valencia. Desde el servidor central
se lanzan una serie de proteínas a los predictores semanalmente, luego
se evalúan estas predicciones y los resultados finales se muestran
al usuario en una web en el servidor central y en los mirrors. Se evalúan
las siguientes categorías de predicción de estructura secundaria,
diseño por homología, threading y predicción de contactos
entre residuos.
Acudir a estos servidores de vez en cuando a ver las páginas de resultados
nos llevaría a saber que predictores están funcionando mejor.
Ref. EVA: VA
Eyrich, MA Marti-Renom, MS Madhusudhan, A Fiser, F Pazos, A Valencia, A Sali
and B. Rost. EVA: continuous automatic evaluation of protein structure
prediction servers. Bioinformatics 2001. 17, 1242-1243.
Ref. LiveBench: Janusz M. Bujnicki, Arne Elofsson, Daniel Fischer
and Leszek Rychlewski. LiveBench-2:Large-Scale Automated Evaluation of Protein
Structure Prediction Servers. Proteins 2001. Suppl 5, 184-191.
Además de esto, existen dos competiciones bianuales CASP(Critical
Assessment of protein Structure Prediction) y CAFASP(Critical
Assessment of Fully Automated protein Structure Prediction). Los participantes
de CASP son grupos humanos de predicción que, usando métodos
autómaticos varios y su propia experiencia en el campo para refinar
los modelos producidos, hacen sus predicciones y las devuelven al servidor
de CASP dentro de un límite de tiempo. En el caso de CAFASP, esta
competición es sólo para evaluar a los métodos automáticos,
el servidor de CAFASP lanza directamente a los predictores los target, y
estos devuelven por correo electrónico los resultados, siendo todo
automático. Al terminar la competición se celebra un congreso
en Asilomar (California) donde se muestran los resultados de CASP y CAFASP.
El pasado diciembre se presentaron los resultados de CASP5 y CAFASP3, en
unos meses saldrá un suplemento especial de la revistaProteins donde se comentarán aquellos
métodos que lo han hecho mejor, una forma más de saber el funcionamiento
de estos predictores.
Refs. CASP4 and CAFASP2: Fourth Meeting on the Critical Assessment of
Techniques for Protein Structure Prediction. Proteins 2001. Suppl 5, vol.
45.
Práctica de predicción de estructura
Target 1
O26773 -> 'Primary accession number' en swissprot.
Localizada la secuencia en formato
fasta,
lanzamos un blast de la secuencia contra la base de datos PDB en
NCBI Blast
>Resultados para target 1<
Target 2
P44209 -> 'Primary accession
number' en swissprot.
Secuencia en formato
fasta.
Swissprot
NCBI Blast