Patrones, perfiles y dominios - Familias de proteínas

Parte práctica

Escrito por Federico Abascal


En esta práctica veremos cuatro casos prácticos, cada uno de los cuales intenta ilustrar alguno de los conceptos de
"patrones", "perfiles", "familias" y "dominios".

 
Enlaces:
 
Enlaces varios: Servidores de búsqueda de patrones:
Servidores de búsqueda de perfiles y perfiles-HMM:
Más enlances aquí.
 



1) RPE_YEAST, de Saccharomyces cerevisiae, que está anotada como: "Ribulose-phosphate 3-epimerase".

En este ejercicio intentaremos construir un patrón para describir una familia. Además practicaremos con los distintos programas y bases de datos relacionados con los patrones.

Supongamos que hemos hecho una búsqueda con BLAST, con la secuencia de una proteína que queremos estudiar:

>mi_proteina
MVKPIIAPSI LASDFANLGC ECHKVINAGA DWLHIDVMDG HFVPNITLGQ PIVTSLRRSV
PRPGDASNTE KKPTAFFDCH MMVENPEKWV DDFAKCGADQ FTFHYEATQD PLHLVKLIKS
KGIKAACAIK PGTSVDVLFE LAPHLDMALV MTVEPGFGGQ KFMEDMMPKV ETLRAKFPHL
NIQVDGGLGK ETIPKAAKAG ANVIVAGTSV FTAADPHDVI SFMKEEVSKE LRSRDLLD
y después, con los resultados hemos construido un alineamiento múltiple tal que:
a) A partir de este alineamiento construye un patrón que pueda describir a esta familia de proteínas y haz una búsqueda con él. Aquí tenéis una lista de servidores para hacer búsquedas con patrones.

 
Si ya habéis terminado, o si los servidores están saturados, podéis ver los dos ejemplos siguientes:
un ejemplo de patrón: H-x-D-[IVM]-[ME]-D-x(1,2)-[FY]
aquí tenéis los resultados.
otro ejemplo de patrón: [FVLYI]-H-x-D-[IVM]-[ME]-D-x(1,2)-[FY]-x(2)-N
aquí tenéis los resultados.
Cuestiones:
¿qué tipo de proteínas obtenéis buscando con los patrones?
¿cuáles creéis que podrían ser homólogas?
¿se encuentran más proteínas que usando BLAST (con BLAST básicamente se encuentran "Ribulose-phosphate 3-epimerases", "D-allulose-6-phosphate 3-epimerases" y "Hypothetical proteins")?


b) Construcción automática de un patrón con Pratt

Ahora,  en lugar de construir un patrón manualmente, generaremos uno automáticamente con Pratt: http://www.ebi.ac.uk/pratt/, con las secuencias de  prueba.faa
 

¿Qué obtenemos?
Algo asi:
Best Patterns before refinement:
                             fitness     hits(seqs)    Pattern
                        1:   16.1802     16(  16)   H-x-D-x(2)-D-x(4,5)-N
                        2:   12.0102     16(  16)   D-x(2)-D-x(4,5)-N
                        3:    7.8401     17(  16)   V-x(2,3)-T
                        4:    7.8401     19(  16)   D-x(4,5)-N
                        5:    7.8401     33(  16)   L-x(2,3)-D
                        6:    7.8401     23(  16)   S-x(0,1)-L
                        7:    7.8401     21(  16)   S-x(1,2)-L
                        8:    7.3401     25(  16)   D-x(1,3)-L
                        9:    7.3401     28(  16)   D-x(2,4)-H
                       10:    7.3401     18(  16)   M-x(3,5)-V
                       11:    7.3401     23(  16)   L-x(1,3)-F
 

Best Patterns (after refinement phase):
                             fitness     hits(seqs)    Pattern
                    A   1:   23.2043     16(  16)   H-x-D-[IMV]-x-D-x(4,5)-N-x-[ASTV]-[FILMV]
                    B   2:   19.0342     16(  16)   D-[IMV]-x-D-x(4,5)-N-x-[ASTV]-[FILMV]
                    C   3:   16.7715     18(  16)   D-x(2,4)-H-x-[DTV]-x(3)-[AGNSTV]-x(2)-[GILPV]-x(2)-[IL]
                    D   4:   12.1179     18(  16)   M-x(3,5)-V-x-[ENR]-x-[ASTV]
                    E   5:   11.7492     16(  16)   D-x(4,5)-N-x-[AGSTV]-[FILMV]
                    F   6:    7.8401     17(  16)   V-x(2,3)-T
                    G   7:    7.8401     33(  16)   L-x(2,3)-D
                    H   8:    7.8401     23(  16)   S-x(0,1)-L
                    I   9:    7.8401     21(  16)   S-x(1,2)-L
                    J  10:    7.3401     25(  16)   D-x(1,3)-L
                    K  11:    7.3401     23(  16)   L-x(1,3)-F

Podéis probar a hacer alguna búsqueda con alguno de esos patrones para ver qué tal funcionan.

c) ¿Existe un patrón para esta familia en prosite?
 
(Para averiguarlo podríamos hacerlo de distintas maneras. A través de SRS (o directamente de Swiss-Prot), o buscando con una secuencia de las del alineamiento en Prosite, o buscando por palabras clave en Prosite, etcétera...)
Si ya habéis terminado: La respuesta es sí, existe tal patron, y es éste:
[LIVMF]-H-[LIVMFY]-D-[LIVM]-x-D-x(1,2)-[FY]-[LIVM]-x-N-x-[STAV]
aquí tenéis los resultados que se obtendrían buscando con él.
y aquí el enlace a la documentacion de PROSITE para este patrón.
Cuestiones:
¿encontráis diferencias significativas con los resultados de vuestros patrones?
¿existe algún otro patrón para describir esta familia?
¿que podéis decir de la especificidad del otro patrón?
d) ¿Existe algún hmm en Pfam para describir esta familia?
(Se puede averiguar de muchas maneras distintas: búsqueda de homologías, consultando los "enlaces cruzados" entre las bases de datos, etc...)
Si ya habéis terminado: La respuesta es sí. El pfam Ribul_P_3_epim. Echad un vistazo a la información que ofrece Pfam.
 

Cuestiones:

¿Cuántas proteínas presentan dicho dominio?


e) ¿Creéis que en el caso de esta familia resulta útil disponer de un patrón que la describa?

(pensad en cosas como ¿ayuda el patrón a detectar miembros de la familia que sean homólogos remotos (búsqueda con el patrón, búsqueda con BLAST)? ¿da información (el patrón) de las características funcionales de estas proteínas? etc.)

2) Y1333_MYCTU, de Mycobacterium tuberculosis, que está anotada como: "Hypothetical protein Rv1333".

En este ejercició intentaremos ilustrar que los métodos basados en perfiles son capaces de detectar más homólogos que los métodos simples como p.e. BLAST.

En este caso intentaremos proponer una posible función para esta proteína que hemos obtenido de Swiss-Prot.

a) Primero obtendremos la secuencia de esta proteína a partir de su identificador en swiss-prot (Y1333_MYCTU):  

abre la página de Swiss-Prot de http://us.expasy.org/sprot/ y busca "Y1333_MYCTU" ("quick search"). Aparecerá primero un link al numero de accesion P64811. Desde alli entras en la pagina Swiss-Prot de esta proteína. Al final de la página hay un enlace que dice "P64811 in FASTA format". Pincha en ese enlace.
 

La secuencia:
>sw|P64811|Y1333_MYCTU Hypothetical protein Rv1333.
MNSITDVGGIRVGHYQRLDPDASLGAGWACGVTVVLPPPGTVGAVDCRGGAPGTRETDLL
DPANSVRFVDALLLAGGSAYGLAAADGVMRWLEEHRRGVAMDSGVVPIVPGAVIFDLPVG
GWNCRPTADFGYSACAAAGVDVAVGTVGVGVGARAGALKGGVGTASATLQSGVTVGVLAV
VNAAGNVVDPATGLPWMADLVGEFALRAPPAEQIAALAQLSSPLGAFNTPFNTTIGVIAC
DAALSPAACRRIAIAAHDGLARTIRPAHTPLDGDTVFALATGAVAVPPEAGVPAALSPET
QLVTAVGAAAADCLARAVLAGVLNAQPVAGIPTYRDMFPGAFGS


b) Ahora podemos hacer una búsqueda BLAST para ver si se conoce la función de alguno de los homólogos.

Servidores de BLAST: EMBL, NCBI, EBI.
 
Pasos a seguir usando el servidor de BLAST del NCBI:
Ve a la página de BLAST del NCBI, que está en:
http://www.ncbi.nlm.nih.gov/BLAST/.
program=blastp (para comparar proteínas con proteínas)
database=nrdb (contiene todas las proteínas conocidas pero ha eliminado aquellas que se parecen más de un 95%).
Choose filter="low complexity" (SEG)
descriptions=250
alignments=100
Pincha en "BLAST!".

Resultados: podéis encontrarlos aquí (y los resultados que obtendríamos si no usásemos el filtrado de SEG) (y los resultados con la versión de BLAST del EMBL: con SEG / sin SEG)


Cuestiones:

¿Qué proteínas aparecen? ¿Nos aportan alguna información sus anotaciones? ¿Qué significan las "X" que véis en los alineamientos? ¿Merece la pena usar el filtrado en este caso?


c)  Ya que la mayoría de los homólogos no tienen una función descrita, podemos intentar buscar homólogos remotos utilizando búsquedas con perfiles.

Existen muchas formas posibles de hacer esto. Por ejemplo: podríamos obtener las secuencias de los homólogos que han aparecido usando BLAST y construir un alineamiento múltiple. Con este alineamiento podríamos construir un perfil o un perfil de tipo HMM y hacer nuevas búsquedas en las bases de datos de secuencias.

Lo más sencillo es utilizar PSI-BLAST ya que él mismo se encarga de obtener las secuencias, alinearlas y construir un perfil para nuevas búsquedas.

Pasos a seguir usando el servidor de PSI-BLAST del NCBI:
Ve a la página inicial de BLAST del NCBI, que está en: http://www.ncbi.nlm.nih.gov/BLAST/. Allí ve a "Protein BLAST / PSI- and PHI-BLAST".
Pega la secuencia en el campo "Search".
Descriptions=500
Alignments=100
Format for PSI-BLAST -> with inclussion threshold = 1e-05 (=0.00001)
Dale a "BLAST!"

Al cabo de un rato pincha en "format" y en otra ventana aparecerán los resultados de la primera ronda. Échales un vistazo y cuando termines: selecciona las proteínas que quieres que se utilicen para construir el perfil y pincha en "Run PSI-BLAST iteration 2".

Otra vez, al cabo de un rato, pincha en "format" y en otra ventana aparecerán los resultados de la segunda ronda.
Y así sucesivamente.
Resultados de la primera ronda, de la segunda y de la tercera ronda.
 
Cuestiones:
¿Conseguimos encontrar más homólogos con PSI-BLAST? ¿Son más claras sus anotaciones? ¿Qué hipótesis acerca de la función de la proteína podríamos proponer?

Por otra parte, en la tercera ronda, las proteínas que aparecen al principio de la lista (que está ordenada según la puntuación) tienen porcentajes de identidad de secuencia muy bajos con respecto a Y1333_MYCTU, sin embargo los e-values son muy buenos, y en cambio, las proteínas que son más parecidas a Y1333_MYCTU (mayor % de identidad) tienen e-values peores. ¿Por qué?


d) Búsqueda en Pfam.

Ahora veremos qué obtendríamos si comparásemos la secuencia de Y1333_MYCTU con los perfiles-HMM de Pfam.
Pasos a seguir:
Ve a la página de Pfam, que está en: http://www.sanger.ac.uk/Pfam/.
Ve "Protein Search". Una vez allí:
pega la secuencia.
E-value=10
Dale a "Search Pfam".

Resultados de la búsqueda en Pfam (online)
 

Cuestiones:
¿Cuántos dominios tiene esta proteína? ¿En qué zona de la proteína se localizan? ¿Qué función tienen? ¿Qué podemos decir de la función de la proteína?

Cuestiones respecto al dominio "peptidasa_S58": ¿cuántas proteínas presentan este dominio? ¿con qué otros dominios puede aparecer asociado?
 

e) Búsqueda usando el paquete HMMer.
El programa hmmpfam ya lo hemos probado a través de la web. Podríamos probar a utilizar el programa hmmsearch con cualquiera de las secuencias que hemos usado con PSI-BLAST. (El paquete de programas de HMMer se puede descargar desde aquí).
Para ello (como ejemplo tomaremos el caso ya visto de Y1333_MYCTU):
 


 

3) Proteína del gen csf de Bos taurus (Granulocyte colony-stimulating factor precursor)

En esta práctica intentaremos ilustrar el papel de las familias de proteínas en el análisis de secuencias.

a) Primero: obtención de la secuecia aminoacídica correspondiente a este gen:

Pasos a seguir:
Ve al servidor de SRS del EBI: http://srs6.ebi.ac.uk/.
Selecciona "Library Page" desde "Quick Text Search".
Selecciona algunas bases de datos de proteínas (aún no sabemos en qué base de datos está). P.e. selecciona: Swiss-prot, SpTrEMBL y TrEMBL (updates). O selecciona Uniprot para todos las proteinas.
Pincha en "Standard Query".
Busca por: "GeneName=csf" y "Organism name=Bos taurus". Pincha en "submit query".
Y ahora selecciona la "View" de tipo "FastaSeqs" y pincha en "view".
La secuencia:
>sw|P35833|CSF3_BOVIN Granulocyte colony-stimulating factor precursor (G-CSF).
MKLMVLQLLLWHSALWTVHEATPLGPARSLPQSFLLKCLEQVRKIQADGAELQERLCAAH
KLCHPEELMLLRHSLGIPQAPLSSCSSQSLQLTSCLNQLHGGLFLYQGLLQALAGISPEL
APTLDTLQLDVTDFATNIWLQMEDLGAAPAVQPTQGAMPTFTSAFQRRAGGVLVASQLHR
FLELAYRGLRYLAEP
b) Búsqueda PSI-BLAST con la secuencia de swiss::CSF3_BOVIN.
Podéis hacer la búsqueda PSI-BLAST vosotros mismos (siguiendo los pasos del ejemplo anterior) o, para ahorrar tiempo, consultar los resultados en este fichero.

Intenta comprender qué ha sucedido a lo largo de las distintas rondas.

Cuestiones:

-¿Qué nos ha permitido averiguar PSI-BLAST?
-En la segunda ronda aparece una proteína con una anotación diferente: "Q90YI0 (Q90YI0) Interleukin-6 precursor". Ésta tiene una identidad del 20% con respecto a la "query", sin embargo tiene un e-value bastante significativo: ¿por qué?
-¿Qué consecuencias tiene la inclusión de esta nueva secuencia en el perfil?
-¿Por qué en la última ronda las proteínas "interleukin..." tienen mejores e-values que las proteínas "granulocyte..."?

-Todas las proteínas que aparecen tienen un origen evolutivo común, pero ¿realizan la misma función? ¿qué subfamilias podéis identificar?
¿Cómo creéis que la existencia de subfamilias con funciones distintas puede afectar a la predicción de función a partir de homólogos?

 
c) Búsqueda en bases de datos de familias: Pfam e InterPro.
 
Búsqueda en Pfam.
Pasos a seguir:
repite los pasos del ejemplo anterior.
El resultado de la búsqueda es éste (online)

Cuestiones:

-Lee la documentación de Pfam correspondiente al dominio de esta proteína. ¿Qué subfamilias se agrupan en esta entrada?
-Por otra parte, en el resultado de la búsqueda (online) vemos que tiene un parecido remoto (e-value de 0.39 y 5.6) con las familias IL-11 e IL-12. ¿Crees que este parecido refleja una origen común de ambos grupos de proteínas (las que están en el grupo IL-6+gcsf+etcétera y las de los grupos IL11 e IL12)? Formas de determinarlo: viendo el alineamiento múltiple, viendo si las estructuras de las proteínas de ambos grupos se parecen, etcétera.
 
Búsqueda en InterPro.
Breve introducción acerca de InterPro: hemos visto que en Pfam se describe un grupo que contiene varias subfamilias. En otras bases de datos de estas características (Prosite, SMART, PRINTS, ProDom, TIGRFAMs...) los grupos pueden aparecer definidos a otros niveles. Por ejemplo, puede ocurrir que un grupo de Pfam se corresponda con varios grupos de PRINTS. Y puede ocurrir que un grupo de Prosite se corresponda con varios de Pfam. Cada base de datos refleja la jerarquía de relaciones en superfamilias-familias-subfamilias a un nivel distinto. En InterPro se ponen en conjunto los datos de las distintas bases de datos. Por ejemplo, para las proteínas kinasas existe esta jerarquía:

P.e. el IPR00719 (el nodo superior) está definido por un dominio de ProDom (PD000001), también por uno de Pfam (PF00069) y por otros dos: un patrón y un perfil de Prosite (PS00107 y PS50011).
P.e. el nodo de las "Tyrosine protein kinases", el IPR001245, está definido por una entrada de Prints (PR00109), otra de Prosite (PS00109) y otra de SMART (SM00219).
etcétera.


Búsqueda con la secuencia de gscf en InterPro
Pasos a seguir:
Ve a InterProScan, que está en: http://www.ebi.ac.uk/InterProScan/.
Pega la secuencia de la proteína gscf.
Escribe una dirección de e-mail cualquiera (da igual)
Y dale a "Submit job".
El resultado de la búsqueda lo puedes encontrar aquí.

Cuestiones:

-¿Con qué entradas de InterPro tiene parecidos?
-De los dos parecidos que aparecen ¿qué jerarquía hay entre ellos? P.e. ¿alguno engloba a los otros?
-En este caso: ¿Nos sirve la información de InterPro para determinar a qué subfamilia pertenece la proteína?


 

4) ICE9_HUMAN, de Homo Sapiens; esta proteína es la precursora de la caspasa-9.

Con este ejemplo trataremos de ilustrar la importancia de tener en cuenta la organización multidominio de las proteínas.

a) obtenemos la secuencia de ICE9_HUMAN:

esto lo podemos hacer como en el caso del primer ejemplo, a partir de su identificador de Swiss-Prot: ICE9_HUMAN.
La secuencia es:
>ICE9_HUMAN
MDEADRRLLR RCRLRLVEEL QVDQLWDALL SRELFRPHMI EDIQRAGSGS RRDQARQLII
DLETRGSQAL PLFISCLEDT GQDMLASFLR TNRQAAKLSK PTLENLTPVV LRPEIRKPEV
LRPETPRPVD IGSGGFGDVG ALESLRGNAD LAYILSMEPC GHCLIINNVN FCRESGLRTR
TGSNIDCEKL RRRFSSLHFM VEVKGDLTAK KMVLALLELA QQDHGALDCC VVVILSHGCQ
ASHLQFPGAV YGTDGCPVSV EKIVNIFNGT SCPSLGGKPK LFFIQACGGE QKDHGFEVAS
TSPEDESPGS NPEPDATPFQ EGLRTFDQLD AISSLPTPSD IFVSYSTFPG FVSWRDPKSG
SWYVETLDDI FEQWAHSEDL QSLLLRVANA VSVKGIYKQM PGCFNFLRKK LFFKTS


b) hacemos BLAST:

El resultado sería éste.
Echa un vistazo a qué proteínas aparecen y al gráfico en el que se muestran qué zonas son las que han alineado.

Cuestiones:

-¿Te dice algo el gráfico que indica qué zonas han alineado? ¿Podrías relacionar lo que ves con la presencia de distintos dominios en la proteína?


c) Búsqueda en Pfam:

El resultado sería éste.

Cuestiones:

-¿Cuántos dominios presenta esta proteína?
-¿Qué función tiene cada uno de estos dominios? ¿Qué sentido puede tener que estos dominios aparezcan juntos?
-Para cada uno de los dominios, mira la organización de dominios de las proteínas, para ver con qué otros dominios pueden asociarse. Pasos a seguir: Ve a "domain organisation", marca "full" y luego dale a "Graphic".
*Cuestión: ¿con qué otros dominios se asocian?.
*Cuestión: sabemos que esta proteína interacciona con apaf-1 (se dice en la entrada de Swiss-Prot). Buscando con SRS en Swiss-Prot por "description=apaf-1" + "organism name=Homo sapiens", identificamos la entrada correspondiente a apaf-1, que es la de APAF_HUMAN. ¿cómo crees que se produce la interacción entre ambas proteínas (caspasa-9 y apaf-1)?

[CARD, dominios; caspase, dominios]

Cuando hayas terminado trata de comprender...:
-...qué implicación tiene en el análisis de secuencias que a lo largo de la evolución se haya producido tal barajado de dominos.
-...qué consecuencias tiene a la hora de predecir la función de las proteínas.
-...cómo puede afectarnos ese barajado de dominios a la hora de construir alineamientos múltiples de proteínas.


d) Construcción de un perfil a partir de un alineamiento múltiple y búsqueda con ese perfil:

Una vez que hemos comprendido que cuando queremos analizar una proteína multidominio es mejor identificar sus dominios, generaremos un perfil para un alineamiento múltiple de dominios CARD y haremos una búsqueda con él. Usaremos el servidor Bioccelerator. (Esto es equivalente a lo que hacemos con PSI-BLAST, pero es un método un poco 'más mejor' y además vamos a decirle nosotros a partir de qué alineamiento tiene que construir el perfil)

Pasos a seguir:

1.- A partir de un alineamiento múltiple, por ejemplo el del dominio CARD que podemos obtener en pfam (lo salvamos como fasta), tenemos que construir un perfil o PSSM (position specific scoring matrix). Usamos el programa "ProfileWeight". Una vez generada la matriz PSSM (el perfil) la guardamos en un fichero.

En la matriz podemos observar cómo aquellas secuencias más divergentes tienen pesos mayores.

Sequence Weights:
   1 CED4_CAEEL/3-90   100
   2 RIK2_HUMAN/436-524    94
   3 CRAD_HUMAN/2-89    92
   4 ICE2_HUMAN/16-104    54
   5 ICE2_CHICK/8-96    62
   6 ICE9_HUMAN/2-92    83
   7 CED3_CAEVU/3-91    56
   8 CED3_CAEEL/3-91    58
   9 Q66677/22-110    89
  10 APAF_HUMAN/2-90    96
  11 ICEB_MOUSE/2-94    79
  12 ICE5_HUMAN/44-132    69
  13 ICED_BOVIN/2-91    62
  14 ICE4_HUMAN/2-91    65
  15 BIR2_MOUSE/437-525    58
  ...etc.


2.- Seguidamente podemos buscar con ese perfil en una base de datos de secuencias. Para ello pinchamos en el enlace "profilesearch". Una vez allí, debemos cargar la matriz (en "upload file"). Luego establecemos las penalizaciones por abrir y extender un gap a 11 y 1, respectivamente (por poner un ejemplo).

3.- Finalmente, buscamos y obtenemos esto.


Cuestiones:

-Compara el resultado de la búsqueda con el perfil al resultado de buscar con BLAST con una de las secuencias del alineamiento, con ICE2_HUMAN:
>ICE2_HUMAN/16-104
HPHHQETLKKNRVVLAKQLLLSELLEHLLEKDIITLEMRELIQAKVGSFSQNVELLN
LLPKRGPQAFDAFCEALRETKQGHLEDMLLTT
-¿Qué método es capaz de detectar mayor cantidad de homólogos?




 
volver al índice
ir a la teoría (patrones)
ir a la teoría (familias)