Protein Design Group (CNB) Curso. 1D Prediction

Prácticas de Predicción de Características 1D

Como se recordará de la parte de teoría, las características 1D de una secuencia son aquellas que pueden ser representadas por un solo valor asociado a cada aminoácido (B. Rost). Estos son, por ejemplo, H -helix-, E -strand-, L -loop-, etc, para la Estructura Secundaria; buried o exposed (o porcentaje de accesibilidad) para la accesibilidad; ua serie de valores para la hidrofobicidad, etc.
En el siguiente ejemplo se muestra la salida típica de un programa que compara la estructuras secundaria y la accesibilidad observada y predicha, para un cierto péptido.

AA : Residuos de la secuencia
OBSsec: Estructura secundaria observada (E: sheet, H: helice)
OBSacc: Accesibilidad observada (e: exposed, b: buried)
PHDsec: Estructura secundaria predecida
PHDacc: Accesibilidad predecida

A continuación se recuerdan algunos servidores que pueden ser usados con las secuencias presentadas más abajo.

PredictProtein : Este servidor proporciona algunas herramientas necesarias para el análisis de secuencia y la predicción de estructura. Una vez que la secuencia es enviada al servidor, éste busca secuencias similares en la base de datos y predice aspectos de la estructura de esta proteína:

Busqueda de bases de datos:

generación de alineamientos múltiples de secuencia (MaxHom)
detección de motivos funcionales (PROSITE)
detección de "bias" en la composición (SEG)
detección de dominios (PRODOM)

Predicción de:

estructura secundaria (PHDsec, y PROFsec). PHDsec predice la estructura secundaria a partir de alineamientos múltiples de secuencias. Las predicciones se hacen a través de un sistema de redes neuronales (fiabilidad = 72%, Rost & Sander, PNAS, 1993 , 90, 7558-7562; Rost & Sander, JMB, 1993 , 232, 584-599; and Rost & Sander, Proteins, 1994, 19, 55-72).
accesibilidad al solvente por residuo (PHDacc, y PROFacc)
hélices transmembrana: locación y topología (PHDhtm, PHDtopology)
globularidad de la proteína (GLOBE)
regiones coiled-coil (COILS)
enlaces de cisteina (CYSPRED)

EJEMPLO DE SALIDA DE SERVIDOR PredictProtein.
OTRO EJEMPLO

JPred y JPred2: Jpred es un servidor que recoge una secuencia de proteína o un alineamiento múltiple para predecir la estructura secundaria. Trabaja combinando los resultados de varios métodos de predicción para generar un consensus. En el caso de una sola secuencia se genera un alineamiento automático a partir de una base de datos no redundante, se filtra con SCANPS y se alinean con CLUSTALW (v1.7).

EJEMPLO DE SALIDA.

PsiPred: PSIPRED incorpora redes neuronales "two feed-forward" que realizan un análisis sobre la salida de PSI-BLAST (Altschul et al., 1997). Alcanza valores de fiabilidad de Q3 = 77%. La Versión 2.0 incluye nuevos algoritmos que toman la media de 4 redes neuronales independientes, para aumentar la fiabilidad de la predicción.

EJEMPLO DE SALIDA.

META-server: este, como PredictProtein, es un META-SERVIDOR, que recoje la secuencia propuesta por el usuario (query) y la lanza a otros servidores. El META-server está conectado a PHD, PROF, JPred, DAS, SAM-T99 y otros servidores de predicción de estructura secundaria y terciaria.

Otras características 1D:

TMHMM: Predicción de hélices transmembrana (CBS, DK) [Ejemplo de Output]
COILS: Predicción de regiones "Coiled Coil" (ISREC, CH) [Ejemplo de Output ]
ExPASy ProtScale: Características de los residuos (hidrofobicidad, ...)
CBS: Predicción de sitios de fosforilación y glicosilación:
PredictProtein: Estructura secundaria, accesibilidad, hélices TM, "Coils", ...
ExPASy Proteomics tools: Otras herramientas de predicción/identificación, localización, péptidos señal, ...

Información funcional:

Familias funcionales: COGnitor
Motivos, Dominios, ... Pfam, PROSITE, InterPro

ProtFun, predicción de función a bajo nivel a partir de características 1D de proteínas.

Por último, no estaría mal visitar EVA, para comprobar que tal lo están haciendo los diferente servidores.

Ejercicios

¿Que características de la estructura secundaria o de 1D se pueden predecir para las siguientes secuencias?

Emplear las "url" que tenéis en la teoría o en la parte superior de este documento.

1. Coger las siguientes secuencias polipeptídicas en formato fasta y enviarlas a los diferentes servidores de predicción de estructura secundaria (PredictProtein, JPred, JPred2, PsiPred). Comparar los resultados obtenidos.

Después enviar la secuencia al servidor de predicción de péptidos señal (SignalP)

- Opcional: generar un alineamiento múltiple con alguna de las secuencias y enviarlo a aquellos servidores que te permite este tipo de input (JPred2 o PredictProtein Advanced submission form). Comparar el resultado con el generado por el servidor cuando se le envía solamente la secuencia.

>1_T0112
MASDNLSAVL YKQNDLRLEQ RPIPEPKEDE VLLQMAYVGI CGSDVHYYEH GRIADFIVKD PMVIGHEASG TVVKVGKNVK HLKKGDRVAV EPGVPCRRCQ FCKEGKYNLC PDLTFCATPP DDGNLARYYV HAADFCHKLP DNVSLEEGAL LEPLSVGVHA CRRAGVQLGT TVLVIGAGPI GLVSVLAAKA YGAFVVCTAR SPRRLEVAKN CGADVTLVVD PAKEEESSII ERIRSAIGDL PNVTIDCSGN EKCITIGINI TRTGGTLMLV GMGSQMVTVP LVNACAREID IKSVFRYCND YPIALEMVAS GRCNVKQLVT HSFKLEQTVD AFEAARKKAD NTIKVMISCR QG

>APTE_DROME

MGVCTEERPVMHWQQSARFLGPGAREKSPTPPVAHQGSNQCGSAAGANNNHPLFRACSSSSCPDICDHST

>AREA_EMENI

MSGIAQLRLSDRVSNTPTTTADTVSDAMNLDDFIIPFSPSDHPSPSTTKASEATTGAIPIKARRDQSASE

>ARG1_YEAST

MTSNSDGSSTSPVEKPITGDVETNEPTKPIRRLSTPSPEQDQEGDFEEEDDDDKFSVSTSTPTPTITKTK

2. Envía la siguiente secuencia al servidor de predicción de hélices transmembrana TMHMM, y a algun otro, y compara resultados.

>2_636 AA
MEGPAFSKPL KDKINPWGPL IILGILIRAG VSVQHDSPHQ VFNVTWRVTN LMTGQTANVT SLLGTMTDAF PKLYFDLCDL IGDDWDETGL GCRTPGGRKR ARTFDFYVCP GHTVPTGCGG PREGYCGKWG CETTGQAYWK PSSSWDLISL KRGNTPRNQG PCYDSSAVSS NIKGATPGGR CNPLVLEFTD AGKKASWDGP KVWGLRLYRS TGIDPVTRFS LTRQVLNIGP RVSIGPNPVI TDQLPPSRPV QIMLPRPPQP PPPGAASIVP ETAPPSQQPG TGDRLLNLVD GAYRALNLTS PDKTQECWLC LVAGPPYYEG VAILGTYSNH TSAPANCSVA SQHKLTLSEV TGQGLCVGAV PKTHQALCNT TQTSSRGSYY LVAPTGTMWA CSTGLTPCIS TTILNLTTDY CVLVELWPRV TYHSPSYVYG LFERSNRHKR EPVSLTLALL LGGLTMGGIA AGIGTGTTAL MATQQFQQLQ AAVQDDLREV EKSISNLEKS LTSLSEVVLQ NRRGLDLLFL KEGGLCAALK EECCFYADHT GLVRDSMAKL RERLNQRQKL FESTQGWFEG LFNRSPWFTT LISTIMGPLI VLLMILLFGP CILNRLVQFV KDRISVVQAL VLTQQYHQLK PIEYEP

3. Envía la siguiente secuencia a los servidores de predicción de fosforilación y glicosilación (NetOGly, NetPhos)

>3_41 AA
ASYDGHKLVAGYDFTPPSTPSTDDPNVCREYSYKLGTYGAP

NetOGlyc output

>4_153 AA
ASQKRPSQRHGSKYLATASTMDHARHGFLPRHRDTGILDSIGRFFGGDRGAPKNMYKDSHHPARTAHYGSLPQKSHGRTQ DENPVVHFFKNIVTPRTPPPSQGKGRKSAHKGFKGVDAQGTLSKIFKLGGRDSRSGSPKPELVISALIVESRR

NetPhos output

VOLVER