Protein Design Group (CNB) Curso. 1D Prediction

Predicción de Estructura Secundaria:

Características 1D

Amalia Muñoz (Centro Nacional de Biotecnología, Madrid).

Las características 1D de una secuencia son aquellas que pueden ser representadas por un solo valor asociado a cada aminoácido (B. Rost). Estos son, para la Estructura Secundaria (H -helix-, E -strand-, L -loop-, ...); para la accesibilidad (buried o exposed; o porcentaje de accesibilidad); para la hidrofobicidad, etc. Las características 1D de una secuencia son muy útiles para la predicción de la estructura 3D.

AA : Residuos de la secuencia
OBSsec: Estructura secundaria observada (E: sheet, H: helice)
OBSacc: Accesibilidad observada (e: exposed, b: buried)
PHDsec: Estructura secundaria predecida
PHDacc: Accesibilidad predecida

Programas y Servidores

PredictProtein : Este servidor proporciona algunas herramientas necesarias para el análisis de secuencia y la predicción de estructura. Una vez que la secuencia es enviada al servidor, éste busca secuencias similares en la base de datos y predice aspectos de la estructura de esta proteína:

Busqueda de bases de datos:

generación de alineamientos múltiples de secuencia (MaxHom)
detección de motivos funcionales (PROSITE)
detección de "bias" en la composición (SEG)
detección de dominios (PRODOM)
Predicción de:

estructura secundaria (PHDsec, y PROFsec)
accesibilidad al solvente por residuo (PHDacc, y PROFacc)
hélices transmembrana: locación y topología (PHDhtm, PHDtopology)
globularidad de la proteína (GLOBE)
regiones coiled-coil (COILS)
enlaces de cisteina (CYSPRED)

EJEMPLO DE SALIDA DE SERVIDOR PredictProtein.

Otros aspectos de la topología:

TMHMM: Predicción de hélices transmembrana (CBS, DK) [Ejemplo de Output]
COILS: Predicción de regiones "Coiled Coil" (ISREC, CH) [Ejemplo de Output ]
Características de los residuos (hidrofobicidad, ...): ExPASy ProtScale
Predicción de sitios de fosforilación y glicosilación: CBS
Estructura secundaria, accesibilidad, hélices TM, "Coils", ... : PredictProtein
Otras herramientas de predicción/identificación, localización, péptidos señal, ... ExPASy Proteomics tools

Información funcional:

Familias funcionales: COGnitor
Motivos, Dominios, ... Pfam, PROSITE, InterPro

PREDICCIÓN DE ESTRUCTURA SECUNDARIA:

Evaluation: EVA

PredictProtein (PHDsec)	PHDsec predice la estructura secundaria a partir de alineamientos múltiples de secuencias. Las predicciones se hacen a través de un sistema de redes neuronales (fiabilidad = 72%, Rost & Sander, PNAS, 1993 , 90, 7558-7562; Rost & Sander, JMB, 1993 , 232, 584-599; and Rost & Sander, Proteins, 1994, 19, 55-72).	Ejemplo [Output]
JPred	Jpred es un servidor que recoge una secuencia de proteína o un alineamiento múltiple para predecir la estructura secundaria. Trabaja combinando los resultados de varios métodos de predicción para generar un consensus. En el caso de una sola secuencia se genera un alineamiento automático a partir de una base de datos no redundante, se filtra con SCANPS y se alinean con CLUSTALW (v1.7).	Ejemplo [Output]
PsiPred	PSIPRED incorpora redes neuronales "two feed-forward" que realizan un análisis sobre la salida de PSI-BLAST (Altschul et al., 1997). Alcanza valores de fiabilidad de Q3 = 77%. La Versión 2.0 incluye nuevos algoritmos que toman la media de 4 redes neuronales independientes, para aumentar la fiabilidad de la predicción.	Ejemplo [Output]

Ejercicios

¿Que características de la estructura secundaria decir de las siguientes secuencias?

Emplear las "url" que tenéis en la teoría.

1. Coger las siguientes secuencias polipeptídicas en formato fasta y enviarlas a los diferentes servidores de predicción de estructura secundaria (PHD, JPred, PsiPred). Comparar los resultados obtenidos.

Después enviar la secuencia al servidor de predicción de péptidos señal (SignalP)

- Opcional: generar un alineamiento múltiple con alguna de las secuencias y enviarlo a aquellos servidores que te permite este tipo de input (JPred). Comparar el resultado con el generado por el servidor cuando se le envía solamente la secuencia.

>1_T0112 Ketose Reductase / Sorbitol Dehydrogenase, Bemisia argentifolii
MASDNLSAVL YKQNDLRLEQ RPIPEPKEDE VLLQMAYVGI CGSDVHYYEH GRIADFIVKD PMVIGHEASG TVVKVGKNVK HLKKGDRVAV EPGVPCRRCQ FCKEGKYNLC PDLTFCATPP DDGNLARYYV HAADFCHKLP DNVSLEEGAL LEPLSVGVHA CRRAGVQLGT TVLVIGAGPI GLVSVLAAKA YGAFVVCTAR SPRRLEVAKN CGADVTLVVD PAKEEESSII ERIRSAIGDL PNVTIDCSGN EKCITIGINI TRTGGTLMLV GMGSQMVTVP LVNACAREID IKSVFRYCND YPIALEMVAS GRCNVKQLVT HSFKLEQTVD AFEAARKKAD NTIKVMISCR QG

>APTE_DROME
MGVCTEERPVMHWQQSARFLGPGAREKSPTPPVAHQGSNQCGSAAGANNNHPLFRACSSSSCPDICDHST

>AREA_EMENI
MSGIAQLRLSDRVSNTPTTTADTVSDAMNLDDFIIPFSPSDHPSPSTTKASEATTGAIPIKARRDQSASE

>ARG1_YEAST
MTSNSDGSSTSPVEKPITGDVETNEPTKPIRRLSTPSPEQDQEGDFEEEDDDDKFSVSTSTPTPTITKTK

2. Envía la siguiente secuencia a los servidores de predicción de hélices transmembrana (TMHMM, PHD-TM)

>2_636 AA
MEGPAFSKPL KDKINPWGPL IILGILIRAG VSVQHDSPHQ VFNVTWRVTN LMTGQTANVT SLLGTMTDAF PKLYFDLCDL IGDDWDETGL GCRTPGGRKR ARTFDFYVCP GHTVPTGCGG PREGYCGKWG CETTGQAYWK PSSSWDLISL KRGNTPRNQG PCYDSSAVSS NIKGATPGGR CNPLVLEFTD AGKKASWDGP KVWGLRLYRS TGIDPVTRFS LTRQVLNIGP RVSIGPNPVI TDQLPPSRPV QIMLPRPPQP PPPGAASIVP ETAPPSQQPG TGDRLLNLVD GAYRALNLTS PDKTQECWLC LVAGPPYYEG VAILGTYSNH TSAPANCSVA SQHKLTLSEV TGQGLCVGAV PKTHQALCNT TQTSSRGSYY LVAPTGTMWA CSTGLTPCIS TTILNLTTDY CVLVELWPRV TYHSPSYVYG LFERSNRHKR EPVSLTLALL LGGLTMGGIA AGIGTGTTAL MATQQFQQLQ AAVQDDLREV EKSISNLEKS LTSLSEVVLQ NRRGLDLLFL KEGGLCAALK EECCFYADHT GLVRDSMAKL RERLNQRQKL FESTQGWFEG LFNRSPWFTT LISTIMGPLI VLLMILLFGP CILNRLVQFV KDRISVVQAL VLTQQYHQLK PIEYEP

PHD_TM output

3. Envía la siguiente secuencia a los servidores de predicción de fosforilación y glicosilación (NetOGly, NetPhos)

>3_41 AA
ASYDGHKLVAGYDFTPPSTPSTDDPNVCREYSYKLGTYGAP

NetOGlyc output

>4_153 AA
ASQKRPSQRHGSKYLATASTMDHARHGFLPRHRDTGILDSIGRFFGGDRGAPKNMYKDSHHPARTAHYGSLPQKSHGRTQ DENPVVHFFKNIVTPRTPPPSQGKGRKSAHKGFKGVDAQGTLSKIFKLGGRDSRSGSPKPELVISALIVESRR

NetPhos output

VOLVER