PREDICCIÓN DE ESTRUCTURA DE PROTEÍNAS.
  • A continuación se describen algunos pasos concretos a seguir para la predicción de la estructura tridimensional de una proteína problema. Para realizar la práctica correctamente es necesario disponer de un ordenador con conexión a internet, navegador y cuenta de correo electrónico. Los enlaces actualizados a los diferentes servidores utilizados en la misma así como una revisión de las secuencias problema propuestas y una colección de enlaces y software útiles se encuentran en la dirección:
 
 
 
Secuencia de la proteína problema:
  • La secuencia propuesta corresponde a una proteína para la que no se ha determinado aún, en Agosto de 2003, su estructura tridimensional mediante métodos experimentales. Debido al rápido crecimiento y evolución de las bases de datos y herramientas bioinformáticas, se actualizarán las secuencias problema y los enlaces de forma periódica.
 
>prot0
MASVRKAFPRRLVGLTSLRAVSTSSMGTLPKQVKIVEVGPRDGLQNEKSIVPTPVKIRLI
DMLSEAGLPVIEATSFVSPNWVPQMADHSDVLKGIQKFPGINYPVLTPNMKGFEEAVAAG
AKEVSVFGAVSELFTRKNANCSIEESFQRFAGVMQAAQAASISVRGYVSCALGCPYEGKV
SPAKVAEVAKKLYSMGCYEISLGDTIGVGTPGLMKDMLTAVMHEVPVTALGVHCHDTIGQ
ALANTLVALQMGVSVVDSSVAGLGGCPYAKGASGNLATEDLVYMLNGLGIHTGVNLQKLL
EAGDFICQALNRKTSSKVAQATCKL

 

1) Búsqueda de proteínas homólogas.

El primer paso es la búsqueda de proteínas homólogas utilizando sistemas basados en similitud de secuencia:
 


Copiar la secuencia anterior en la ventana central. Elegir el programa "blastp" y la base de datos "nrdb" (las diferentes opciones disponibles se pueden consultar en los enlaces contiguos).

  • ¿De qué proteína se trata?
  • ¿Cuál es la función de las proteínas homólogas a ella?
  • ¿Qué significa el gráfico de líneas que acompaña a los resultados?
  • Probar nuevas búsquedas modificando los parámetros "filter" y "Matrix"
Una vez obtenido el resultado, copiar las secuencias seleccionadas y salvarlas localmente en un archivo de texto.
 

2) Generación de un alineamiento múltiple.

Una cantidad notable de información puede obtenerse a partir del alineamiento múltiple de los miembros de una familia de proteínas. Se utilizará el servidor "ClustalW" del European Bioinformatics Institute:
 


Copiar las secuencias del paso anterior en la ventana central.
 

  • ¿Qué se puede comentar de la familia de proteínas?
  • ¿Hay algún parecido entre este resultado y el gráfico de líneas anterior?
  • ¿Se pueden localizar residuos conservados?
  • ¿Y residuos conservados específicos de subfamilias?


3) Características 1D. Predicción de estructura secundaria.

La predicción de la estructura secundaria y otras características de la proteína problema permite conocer datos importantes relacionados con su estructura y función. Se utilizará una serie de servidores de predicción de características de estructura:
 

  • ¿Qué se puede concluir de los resultados de los diferentes servidores acerca de la estructura y función de la proteína problema?
  • ¿Son los resultados idénticos? ¿Por qué?
  • Consultar en la página del sistema de evaluación contínua EVA la fiabilidad de cada uno de los servidores utilizados.
  • Información funcional: Abrir la página de búsquedas en la base de datos Pfam y localizar la familia a la que pertenece la secuencia problema. ¿Qué información estructural y funcional ofrece? Obtener la distribución en especies de la familia de proteínas. Obtener la distribución de dominios en los diferentes miembros de la misma.


4) Búsqueda de proteínas homólogas de estructura conocida.

Para la búsqueda de proteínas homólogas de estructura conocida utilizaremos de nuevo el servidor Blast del EMBL:
 


Copiar la secuencia problema en la ventana central. Elegir el programa "blastp" y, en esta ocasión, la base de datos "pdb" (la búsqueda se restringe a únicamente las proteínas de estructura tridimensional conocida presentes en la base de datos del Protein Data Bank).
 

  • ¿Tiene la proteína problema algún homólogo de estructura tridimensional conocida?
  • Si hay un resultado positivo (se considera como tal si al menos comparten un 30% de residuos alineados idénticos), se puede utilizar el servidor SwissModel (http://www.expasy.org/swissmod/SWISS-MODEL.html) de modelado por homología para obtener un modelo estructural de la proteína problema. Si no hay un resultado positivo claro, se puede intentar predecir el plegamiento de la proteína problema  utilizando técnicas de threading.


5) Acceso a servidores de threading.

Abrir las páginas de acceso de al menos tres de los siguientes servidores de reconocimiento de plegamiento:
 


Utilizar los cuestionarios de cada página para lanzar la búsqueda en los distintos servidores. Los resultados suelen obtenerse por e-mail y pueden tardar, dependiendo de la ocupación del sistema, entre unos minutos y varias horas.
 

  • ¿Hay coincidencia en los resultados de los distintos servidores?
  • ¿A qué puede deberse?
  • El grado de fiabilidad para cada uno de los resultados: ¿es similar en todos los servidores?
  • Consultar en la página del sistema de evaluación continua EVA la puntuación de cada uno de los servidores utilizados.


Construir una tabla con las 5 mejores predicciones de cada servidor. Consultar en la base de datos PDB la estructura de cada uno de ellos y compararla (bases de datos CATH, FSSP, SCOP).
 

  • ¿Cual es probablemente el plegamiento de la proteína problema?
  • ¿Podría adoptar otros plegamientos posibles?
  • Si se escogiese como proteína problema alguno de sus homólogos obtenidos en el primer paso de la práctica: ¿Se obtendría el mismo resultado? ¿Por qué?


6) Otras secuencias propuestas:
 

>prot1
MSRWKVVILCLLSFMFEIGHASFQCNPKTYDGAFLNIVCVCNATFCDEIEPIGEIAEGKA
IVYRSSLDGDRLKRMSMKMKEKLRKNESVNVTITIDASERFQNIFGFGGAFTDSAGDQFV
SLSETLQNYIVDSYFGKNGLEYNIGRVPIASCDFSTHEYSYDDVHDDFELKHFALPDEDL
KLKIPFIKKAIEKTEGNIQLFASPWSAPGWMKVTGRMRGGGAMRNDKRVYQAYADYFFKF
FEAYSSHAITFWGLTIQNEPSTGADMAWRWQTMNYTAETMRDFLKKYLGPKLKENKLTET
LKVMVLDDGRGLLPGWADTIFNDPEATKYADGVAVHWYGNLYSPAVLLDITQRHHPTKFI
FGTEACAGYAIHHGPLMGDWFTAENYASDIISDLNHHFTGWTDWNLCLDDMGGPTWVDNF
VDSPIIVNRTGQEFYKQPMFYAMGHFSKFLPRGSTRVFTKIEGNLAVSATSVVIEGGRRA
TVILSKASNSLLTRIVDSSTGFSIVLNLPPRSIHTVIWKKRK

>prot2
TTLSCKVTSVEAITDTVYRVRIVPDAAFSFRAGQYLMVVMDERDKRPFSMASTPDEKGFI
ELHIGASEINLYAKAVMDRILKDHQIVVDIPHGEAWLRDDEERPMILIAGGTGFSYARSI
LLTALARNPNRDITIYWGGREEQHLYDLCELEALSLKHPGLQVVPVVEQPEAGWRGRTGT
VLTAVLQDHGTLAEHDIYIAGRFEMAKIARDLFCSERNAREDRLFGDAFAFI

>prot3
RLSWYDPDFQARLTRSNSKCQGQLEVYLKDGWHMVCSQSWGRSSKQWEDPSQASKVCQRL
NCGVPLSLGPFLV TYTPQSSIICYGQLGSFSNCSHSRNDMCHSLGLTCLE

>prot4
MPVEKDLKTAYKALYDEKEPLKALHLYDEILKGSPTNLTALIFKAACLEKLYFGFSDWHSD
ATMENAKELLDKALMTAEGRGDRSKIGLVNFRYFVHFFNIKDYELAQSYFKKAKNLGYVDD
TLPLWEDRLETKLNKKNKKQKDSTNKHTIKPVESIENRGDNNSSHSPISPLKIETAPQESP
KFKIDWYQSSTSVTISLFTVNLPESKEQVNIYISPNDRRTLSISYQVPKSGSEFQYNAKLS
HEVDPKAVSLKIFPKKLEITLSKIDSTQWKKLEEDILTESSRLSDEGKNSDSATRLLSAET
ASKERLSYPSSSKKKIDWSKLDIDEEADEEAGSADSFFQKLYAGADPDTKRAMMKSFIESN
GTALSTDWEDVSKGTVKTSPPEGMEPKHW

>prot5
MSSGYSSLEEDEDFFFTARTSFFRRAPPGKSRSGQPDVEKEKETHNYLSKEEIKEKVHKYN
SAVTDKLKMTLNSNGIYTGFIKVQMELCKPAQPSPEPSSGGCMNTLHISSTNTVGEVIEAL
LRKFLVTESPTKFALYKRCHREDQVYACKLSDREHPLYLRLVAGPRTDTLSFVLREHEIGE
WEAFSLPELQNFLRILDKEEDEQLQSLKRRYTAYRQKLEEALGEVWKPG
 
 

 

Colecciones de enlaces y software útiles, así como acceso a la documentación de diferentes cursos de bioinformática se puede encontrar en la dirección:

 
 


 
Last update: Sep., 2003
 

BioInfo Lab.
Centro de Astrobiologia  (CSIC- INTA).
Ctra. Torrejon - Ajalvir, Km 4.
Torrejon de Ardoz, 28850 Madrid.
SPAIN.
Phone: (+34) 91 520 64 15
Fax: (+34) 91 520 16 21
Paulino Gómez-Puertas <pagomez@cnb.uam.es>