volver al índice
ir a la práctica

 

Análisis de secuencias: motivos y perfiles
Parte teórica

Federico Abascal



 
 




 
Limitación de los métodos de comparación entre pares de secuencias
 
Los métodos como BLAST son muy útiles como un primer paso en el análisis de secuencias, por dos razones: porque generalmente un análisis de este tipo lo comenzamos con una sola secuencia y porque son muy rápidos. Sin embargo tienen serias limitaciones para encontrar homólogos remotos, que son aquéllos que comparten un mismo origen evolutivo pero que han divergido mucho y su identidad de secuencia está por debajo del ~25% (es un porcentaje aproximado, en realidad depende de cada caso). Tales porcentajes de identidad aparecen por azar en las enormes bases de datos y por eso no son distinguibles las homologías.  Es decir, los métodos de comparación entre pares de secuencias (como BLAST) nos dicen poco acerca de la historia evolutiva de las proteínas.
¿Por qué tienen esa limitación? Estos métodos de comparación de pares de secuencias determinan las puntuaciones (scores) entre dos secuencias a partir de matrices de substitución generales, como por ejemplo BLOSUM62, en las que se establecen cuáles son los aminoácidos que menos varían, qué mutaciones son las más frecuentes, etcétera. Sin embargo ésa es una aproximación limitada ya que las distintas posiciones de las secuencias tienen mayor o menor importancia dependiendo de su relación con la función: p.e., los aminoácidos de los centros activos de las enzimas varían menos (los cambios en ellos son seleccionados negativamente y no pasan a la siguiente generación). Por otra parte, en una determinada posición de la proteína se tolerarán de forma distinta las posibles sustituciones, pero las matrices del tipo de BLOSUM son generales y no tienen en cuenta las particularidades de cada familia de proteínas.

Por ejemplo, si dos proteínas se parecen en un 15 o un 20% de su secuencia (es decir, sólo coinciden en uno de cada 5 ó 6 aminoácidos) no sabremos si son homólogas, pero si resulta que este parecido se concentra en los residuos funcionales de la proteína (p.e. en el centro activo), la probabilidad de que tengan un origen evolutivo común es mayor. ¿Cómo podemos saber si las identidades se concentran en esos residuos importantes? Es lo que veremos hoy. La fuente principal son los alineamientos múltiples.

Estos aspectos son los que han motivado el surgimiento de métodos de comparación de secuencias (y de búsqueda de homólogos) más sofisticados, entre los que destacamos los patrones, los perfiles y los HMMs (hidden markov models o modelos de Markov ocultos).

En esta clase explicaremos estos métodos y también los recursos que podemos encontrar en la web para utilizarlos. Asimismo, veremos que existen muchas bases de datos que utilizan estos métodos y ofrecen mucha información. Posteriormente hablaremos de las familias de proteínas, del interés que tiene su clasificación y estudio y de cómo los perfiles y otros métodos nos ayudan a identificar las familias dentro del océano de secuencias que conocemos.
 

Secuencias consenso y expresiones regulares

Cuando consultamos la literatura referente a estos aspectos que vamos a tratar de las proteínas, encontramos que existe cierta laxitud y, a veces también mal uso, respecto a algunos términos como son "motivo" o "dominio". El segundo, el término dominio, lo introduciremos más adelante.

Motivo: si observamos un alineamiento múltiple de proteínas homólogas veremos que algunas columnas varían bastante, mientras que otras están más conservadas. Cuando observamos ciertas columnas cercanas con una alta conservación, es decir, cuando encontramos trocitos de las secuencias que se conservan más que otros y que podrían caracterizar funcionalmente a las proteínas, entonces solemos hablar de MOTIVOS. (ver ejemplo en el alineamiento de más arriba)

Los alineamientos múltiples son la fuente principal para determinar qué partes de la secuencia son más importantes para su función o estructura, y existen diversas aproximaciones para utilizar esta información.

Secuencias consenso:

La aproximación más sencilla y básica para utilizar la ingente información que contiene un alineamiento múltiple es derivar a partir de éste una secuencia consenso, que viene a indicar qué aminoácido es más frecuente en cada posición del alineamiento.
Ejemplo:
AGTVATVSC
AGTSATHAC
IGRCARGSC
IGEMARLAC
IGDYARWSC
.........
IGTVARVSC <= Ejemplo de secuencia consenso
Supuestamente, si ahora buscamos con esta secuencia con un método simple como BLAST, seremos capaces de encontrar más homólogos que si lo hacemos con alguna de las secuencias reales que conforman el alineamiento múltiple.
Esta aproximación desperdicia mucha de la información del alineamiento múltiple, como quedará de manifiesto al estudiar los siguientes métodos. Por ejemplo, seguimos sin saber qué posiciones son más importantes, o por ejemplo, qué variaciones se permiten en determinadas posiciones: en la primera posición vemos que tanto A como I parecen frecuentes, pero sólo se selecciona I. Parece también que la segunda posición, la G, está totalmente conservada, pero en la secuencia consenso nada indica que esa G caracterice mejor a la familia que la I anterior.
Patrones - Expresiones regulares:
Las expresiones regulares se utilizan en muchos ámbitos de la informática. Por ejemplo cuando buscamos archivos "*.txt", estamos buscando todos aquellos que terminen en ".txt". Eso es una expresión regular simple.

Estas expresiones o patrones se pueden utilizar para caracterizar motivos, indicando qué posiciones son más importantes y cuáles pueden variar y qué variaciones pueden sufrir. Primero veremos cómo hablar en el lenguaje de las expresiones regulares.

 
¿Cómo expresarse "regularmente"? (el código usado en PROSITE, una base de datos de motivos)
Así, a partir del alineamiento anterior:
Ejemplo:
AGTVATVSC
AGTSATHAC
IGRCARGSC
IGEMARLAC
IGDYARWSC
.........
IGTVARVSC <= Ejemplo de secuencia consenso
podríamos generar el siguiente patrón:
[AI]-G-X-X-A-[RT]-[SA]-C
 
Cuando construyamos una expresión regular deberemos tener en cuenta determinados aspectos. Una expresión regular ideal permitirá encontrar a todos los homólogos sin incluir a proteínas no relacionadas. Desafortunadamente, esto no siempre es posible.
Se puede intuir fácilmente que la construcción de un patrón no tiene reglas claras: por ejemplo, en la posición 3 en lugar de X podríamos haber puesto [VSCMY]. Consideramos que es mejor poner X en lugar de [VSCMY] porque ésa parece una posición muy variable y posiblemente cuando conozcamos nuevas proteínas de esa familia alguna tendrá allí algún aminoácido distinto de [VSCMY].
Las expresiones regulares han de ser lo más cortas posibles para evitar ese tipo de situaciones, pero han de ser suficientemente largas para que no aparezcan demasiado frecuentemente por azar, es decir, para que sean específicos de la familia. En cuanto a la penúltima posición observamos que hay serinas y alaninas, pero quizás allí también deberíamos poner una X: siempre es una elección complicada y muchas veces hay que seguir el método de ensayo y error, es decir, ir probando y corrigiendo.
Afortunadamente, existen bases de datos como PROSITE donde expertos construyen patrones para los distintos motivos conocidos. Esto lo hacen consultando la bibliografía y analizando alineamientos múltiples. Luego ensayan los patrones sobre Swiss-Prot para estudiar su sensibilidad y especificidad. No está de más saber construirlos, especialmente en aquellos casos en que el patrón que nos interesa no está descrito en PROSITE.
Los patrones que encontramos en prosite se corresponden con centros activos de enzimas, sitios de modificaciones post-traduccionales, sitios de unión de ligandos, etcétera. Ya lo veremos.
La limitación básica de los patrones es la dificultad de definirlos y que son muy estrictos (aunque existen sistemas que pueden buscar con patrones tolerando errores). Básicamente existen dos estados: posiciones importantes y posiciones no importantes (por ejemplo las marcadas como "x"), pero en el mundo real existe una mayor graduación.

 
 

Perfiles

Primeramente definiremos el concepto de dominio, ya que tiene bastante relación con los perfiles, los cuales usualmente cubren una mayor parte de las secuencias que los motivos. Este concepto de dominio se utiliza con cierta flexibilidad pero generalmente define una unidad estructural independiente. Sin embargo, en estudios genéticos de deleción a veces se utiliza como sinónimo de la parte mínima de la secuencia capaz de realizar la función estudiada. En las bases de datos de dominios como PFam, un dominio se suele corresponder con el núcleo del dominio estructural, aquella zona más similar entre todas las proteínas de una familia, aunque no tiene por qué coincidir exactamente con los límites del dominio estructural.

Un perfil es una matriz de sustitución específica para cada posición de la secuencia (position specific scoring matrix). Esta matriz, en lugar de tener como dimensiones 20x20, tiene como dimensiones 20xL, siendo L la longitud del alineamiento múltiple. A partir del alineamiento múltiple se construye dicha matriz teniendo en cuenta la frecuencia de los aminoácidos en cada posición así como sus propiedades físico-químicas (es decir, combina la información del alineamiento múltiple con la información de una matriz del tipo de BLOSUM).

Existen distintos métodos para construir estas matrices. El método clásico es el de Gribskov y colaboradores. Es el método que por ejemplo se emplea en PROSITE (donde además de patrones se utilizan perfiles para describir algunas familias), aunque con algunas modificaciones.

A continuación se muestra un alineamiento múltiple y cómo se construiría el perfil según el método empleado en PROSITE.
 

                  F   K   L   L   S   H   C   L   L   V
                  F   K   A   F   G   Q   T   M   F   Q
                  Y   P   I   V   G   Q   E   L   L   G
                  F   P   V   V   K   E   A   I   L   K
                  F   K   V   L   A   A   V   I   A   D
                  L   E   F   I   S   E   C   I   I   Q
                  F   K   L   L   G   N   V   L   V   C
 

          A     -18 -10  -1  -8   8  -3   3 -10  -2  -8

          C     -22 -33 -18 -18 -22 -26  22 -24 -19  -7
          D     -35   0 -32 -33  -7   6 -17 -34 -31   0
          E     -27  15 -25 -26  -9  23  -9 -24 -23  -1
          F      60 -30  12  14 -26 -29 -15   4  12 -29
          G     -30 -20 -28 -32  28 -14 -23 -33 -27  -5
          H     -13 -12 -25 -25 -16  14 -22 -22 -23 -10
          I       3 -27  21  25 -29 -23  -8  33  19 -23
          K     -26  25 -25 -27  -6   4 -15 -27 -26   0
          L      14 -28  19  27 -27 -20  -9  33  26 -21
          M       3 -15  10  14 -17 -10  -9  25  12 -11
          N     -22  -6 -24 -27   1   8 -15 -24 -24  -4
          P     -30  24 -26 -28 -14 -10 -22 -24 -26 -18
          Q     -32   5 -25 -26  -9  24 -16 -17 -23   7
          R     -18   9 -22 -22 -10   0 -18 -23 -22  -4
          S     -22  -8 -16 -21  11   2  -1 -24 -19  -4
          T     -10 -10  -6  -7  -5  -8   2 -10  -7 -11
          V       0 -25  22  25 -19 -26   6  19  16 -16
          W       9 -25 -18 -19 -25 -27 -34 -20 -17 -28
          Y      34 -18  -1   1 -23 -12 -19   0   0 -18

 

Como se puede apreciar, los pesos para cada aminoácido para cada columna no sólo se corresponden con sus frecuencias, sino también con sus propiedades físico-químicas, ya que se utiliza la información contenida en matrices como BLOSUM62 para completar la información. Por ejemplo, la A (alanina) de la tercera columna recibe una puntuación menor (-1) que la M (metionina) (+10), a pesar de que no haya ninguna metionina. Esto es porque la M es más parecida en sus propiedades a L, I, V y F que la alanina.

Los perfiles también son capaces de incluir información de inserciones y deleciones.

Alineamiento de una secuencia con un perfil:

                            S   E   Q   U   E   N   C   E
                          .   .   .   .   .   .   .   .   .
                       p
                          .   .   .   .   .   .   .   .   .
                       r    \
                          .   . _ . _ .   .   .   .   .   .
                       o                \
                          .   .   .   .   .   .   .   .   .
                       f                    \
                          .   .   .   .   .   .   .   .   .
                       i                      |
                          .   .   .   .   .   .   .   .   .
                       l                        \
                         .   .   .   .   .   .   .   .   .
                       e
                          .   .   .   .   .   .   .   .   .
 

Es similar al alineamiento de dos secuencias, pero no se comparan pares de aminoácidos o posiciones sino que cada aminoácido de la secuencia se compara con cada posición del perfil. Es decir, la puntuación no se obtiene de una matriz como BLOSUM, sino que viene implícita en el perfil con el que estamos alineando nuestra secuencia.

El camino definido mediante las líneas horizontales, verticales y diagonales describe el alineamiento:
 

S E Q U E - N
r - - o f i l
La puntuación del alineamiento se obtiene sumando las puntuaciones que da el perfil para cada posición.
Por ejemplo, para el caso anterior:
                  F   K   L   L   S   H   C   L   L   V
                  F   K   A   F   G   Q   T   M   F   Q
                  Y   P   I   V   G   Q   E   L   L   G
                  F   P   V   V   K   E   A   I   L   K
                  F   K   V   L   A   A   V   I   A   D
                  L   E   F   I   S   E   C   I   I   Q
                  F   K   L   L   G   N   V   L   V   C

          A     -18 -10  -1  -8   8  -3   3 -10  -2  -8
          C     -22 -33 -18 -18 -22 -26  22 -24 -19  -7
          D     -35   0 -32 -33  -7   6 -17 -34 -31   0
          E     -27  15 -25 -26  -9  23  -9 -24 -23  -1
          F      60 -30  12  14 -26 -29 -15   4  12 -29
          G     -30 -20 -28 -32  28 -14 -23 -33 -27  -5
          H     -13 -12 -25 -25 -16  14 -22 -22 -23 -10
          I       3 -27  21  25 -29 -23  -8  33  19 -23
          K     -26  25 -25 -27  -6   4 -15 -27 -26   0
          L      14 -28  19  27 -27 -20  -9  33  26 -21
          M       3 -15  10  14 -17 -10  -9  25  12 -11
          N     -22  -6 -24 -27   1   8 -15 -24 -24  -4
          P     -30  24 -26 -28 -14 -10 -22 -24 -26 -18
          Q     -32   5 -25 -26  -9  24 -16 -17 -23   7
          R     -18   9 -22 -22 -10   0 -18 -23 -22  -4
          S     -22  -8 -16 -21  11   2  -1 -24 -19  -4
          T     -10 -10  -6  -7  -5  -8   2 -10  -7 -11
          V       0 -25  22  25 -19 -26   6  19  16 -16
          W       9 -25 -18 -19 -25 -27 -34 -20 -17 -28
          Y      34 -18  -1   1 -23 -12 -19   0   0 -18

supongamos que queremos alinear la secuencia FKTLGCCLLV:
El mejor alineamiento será:
                  F   K   L   L   S   H   C   L   L   V
                  F   K   A   F   G   Q   T   M   F   Q
                  Y   P   I   V   G   Q   E   L   L   G
                  F   P   V   V   K   E   A   I   L   K
                  F   K   V   L   A   A   V   I   A   D
                  L   E   F   I   S   E   C   I   I   Q
                  F   K   L   L   G   N   V   L   V   C

                  F   K   T   L   G   C   C   L   L   V
Y la puntuación:  60  25 -6   27  28 -26  22  33  26 -16
lo cual suma en total: 173.

Éste es un caso sencillo, sin incluir 'gaps', es decir, sin inserciones ni deleciones.

Cada puntuación tiene un significado estadístico, es decir, se pueden obtener p-values o e-values.

Los perfiles sin embargo son sensibles a determinados problemas. Por ejemplo, si existe un sesgo en la representación de las secuencias del alineamiento, es decir, si hay muchas secuencias demasiado parecidas y sólo unas pocas un poco más divergentes, entonces el perfil dará preferencia a encontrar secuencias del primer tipo. Existen formas de corregir estos sesgos, por ejemplo dando distintos pesos a las secuencias.

Por otra parte, en algunos casos es mejor usar patrones, especialmente cuando queremos describir motivos pequeños en los que no debería haber variaciones, por ejemplo, sabemos que en dicho motivo en la posición x debe haber un glutamato (E) y como tal lo expresamos en la expresión regular. Sin embargo, la flexibilidad del perfil podría tolerar que en esa posición un aspártico (D) obtuviera una puntuación positiva (E y D son muy parecidos en sus propiedades físico-químicas).

La limitación más importante de los perfiles es que el sistema de puntuación que emplean tiene una base estadística pobre.
 

Perfiles HMM

Los modelos de Markov ocultos (HMMs: hidden Markov models) se desarrollaron inicialmente para el reconocimiento automático de voz. Este problema es similar al del reconocimiento de relaciones evolutivas entre las proteínas. Lo que se hacía era fragmentar el mensaje hablado en trocitos (frames) o sonidos aislados (de 10-20 milisegundos). Cada trocito o frame era automáticamente asignado a una de 256 categorías de sonido predefinidas (a la que más se pareciera). El resultado de esto era una cadena o larga secuencia de etiquetas de categorías a partir de las cuales realizar el reconocimiento de voz automático, detectando qué fonemas y qué palabras se han dicho. El problema es que existen grandes variaciones en la pronunciación, también en la duración de las distintas partes de la palabra.

Un HMM se entrena a partir de diversas observaciones en las que esperamos que las posibles variaciones se hayan producido, por ejemplo, para reconocer la palabra "vaca" u "otorrinolaringólogo" se debe entrentar el HMM a partir de muchas muestras de "vaca" y "otorrinolaringólogo", pronunciadas en distintos contextos o por distintas personas. El resultado es una estructura del siguiente modo:






Un HMM está compuesto por una serie de nodos o estados cada uno de los cuales emite símbolos (una de las 256 categorías de sonido o uno de los 20 aminoácidos, por ejemplo) con una probabilidad dada (¡como en los perfiles!). Los distintos estados están conectados ¡secuencialmente! existiendo probabilidades de transición entre ellos. Además existen probabilidades de inserción y deleción (en realidad éstas también se consideran estados). Eso es lo que son básicamente los HMMs, cuya principal ventaja es que tienen una base probabilística muy sólida.

Una vez entrenado un HMM para "vaca", cada vez que alguien diga algo y lo convirtamos en una cadena de etiquetas podremos determinar con qué probabilidad esa cadena podría ser emitida por el HMM de "vaca". En el caso de las secuencias lo tenemos más fácil incluso, ya que éstas ya vienen en forma de cadenas o secuencias.

Un ejemplo:





Por último señalar que éste es sólo un ejemplo del amplio abanico de aplicación de los HMMs, que pueden construirse con muy variadas arquitecturas y aplicarse para solucionar muy diversos problemas:





Búsquedas con secuencias intermedias (ISS: intermediate sequence searches)

Este método no utiliza información de qué posiciones son más importantes, ni utiliza alineamientos múltiples. Sin embargo, puede superar algunas de las limitaciones que tienen los métodos de búsquedas simples (BLAST, FASTA, ...).

Recordemos la limitación de BLAST: que no es capaz de distinguir entre parecidos que son reflejo de una relación de homología y parecidos que se producen al azar cuando el % de identidad está por debajo del ~25% (aprox.).

¿Cómo consiguen las búsquedas con secuencias intermedias superar esta limitación? Gracias a que la homología entre las proteínas presenta la propiedad transitiva, esto es: si la proteína A es homóloga a la proteína B, y B es homóloga a C, entonces A también es homóloga a C (aunque A y C no se parezcan). Esto sólo es cierto cuando las zonas homólogas se corresponden, es decir, sólo se aplica a nivel de dominios.
 
 





Por tanto, si realizamos búsquedas recursivas con los homólogos que vamos encontrando quizás seamos capaces de encontrar homólogos remotos, pero su éxito depende de que existan secuencias intermedias a distancias suficientemente cercanas (por ejemplo con % de identidad de secuencia > 30%). El método es como ir saltando de secuencia en secuencia. Más adelante veremos que, además de la detección de homólogos remotos, este método tiene otras utilidades para clasificar las proteínas en familias.

Ejemplo:






Algunas bases de datos de patrones, perfiles y hmms. Prosite y Pfam.

A continuación describiremos las bases de datos PROSITE y PFam, de forma que podamos realizar la práctica con ellas. En la siguiente lección hablaremos de las familias de proteínas y en ese contexto volveremos a hablar de esas bases de datos y de otras similares.
 

Prosite.

La versión 17.39, del 06 de marzo de 2003, contiene 1173 entradas de documentación, las cuales describen 1609 patrones, reglas (rules) y perfiles. En http://us.expasy.org/prosite/prosuser.html hay una descripción de la base de datos.

Y en http://us.expasy.org/cgi-bin/nicedoc.pl?PDOC50020 hay un ejemplo de una entrada de documentación.

La construcción de los patrones es manual: a partir de revisiones bibliográficas acerca de familias de proteínas, se consultan los alineamientos múltiples y se derivan expresiones regulares. La eficiencia (sensibilidad/especificidad) de estos patrones es comprobada aplicándolos a las secuencias de la base de datos Swiss-Prot (la cual está anotada por expertos). Si el patrón no es satisfactorio se intenta refinar. En este procedimiento se intenta generar patrones los más cortos posibles.

En Prosite también existen perfiles. Se construyen a partir de alineamientos múltiples.

Existen dos tipos de entradas en Prosite: las que definen los patrones y los perfiles y las que contienen la documentación.

La estructura de una entrada de Prosite es ésta:

   ID  Identification                     (Begins each entry; 1 per entry)

   AC  Accession number                   (1 per entry)
   DT  Date                               (1 per entry)
   DE  Short description                  (1 per entry)
   PA  Pattern                            (>=0 per entry)
   MA  Matrix/profile                     (>=0 per entry)
   RU  Rule                               (>=0 per entry)
   NR  Numerical results                  (>=0 per entry)
   CC  Comments                           (>=0 per entry)
   DR  Cross-references to SWISS-PROT     (>=0 per entry)
   3D  Cross-references to PDB            (>=0 per entry)
   DO  Pointer to the documentation file  (1 per entry)
   //  Termination line                   (Ends each entry; 1 per entry)
 
Un ejemplo de patrón:
   ID   T4_DEIODINASE; PATTERN.
   AC   PS01205;
   DT   NOV-1997 (CREATED); JUL-1999 (DATA UPDATE); JUL-1999 (INFO UPDATE).
   DE   Iodothyronine deiodinases active site.
   PA   R-P-L-[IV]-x-[NS]-F-G-S-[CA]-T-C-P-x-F.
   NR   /RELEASE=40.7,103373;
   NR   /TOTAL=16(16); /POSITIVE=16(16); /UNKNOWN=0(0); /FALSE_POS=0(0);
   NR   /FALSE_NEG=0; /PARTIAL=0;
   CC   /TAXO-RANGE=??E??; /MAX-REPEAT=1;
   CC   /SITE=12,active_site;
   DR   P49894, IOD1_CANFA, T; O42411, IOD1_CHICK, T; P49895, IOD1_HUMAN, T;
   DR   Q61153, IOD1_MOUSE, T; O42449, IOD1_ORENI, T; P24389, IOD1_RAT  , T;
   DR   P79747, IOD2_FUNHE, T; Q92813, IOD2_HUMAN, T; Q9Z1Y9, IOD2_MOUSE, T;
   DR   P49896, IOD2_RANCA, T; P70551, IOD2_RAT  , T; O42412, IOD3_CHICK, T;
   DR   P55073, IOD3_HUMAN, T; P49898, IOD3_RANCA, T; P49897, IOD3_RAT  , T;
   DR   P49899, IOD3_XENLA, T;
   DO   PDOC00925;
   //
 
Un ejemplo de perfil:
   ID   HSP20; MATRIX.
   AC   PS01031;
   DT   JUN-1994 (CREATED); JUN-1994 (DATA UPDATE); NOV-1995 (INFO UPDATE).
   DE   Heat shock hsp20 proteins family profile.
   MA   /GENERAL_SPEC: ALPHABET='ACDEFGHIKLMNPQRSTVWY'; LENGTH=97;
   MA   /DISJOINT: DEFINITION=PROTECT; N1=2; N2=96;
   MA   /NORMALIZATION: MODE=1; FUNCTION=GLE_ZSCORE;
   MA    R1=239.0; R2=-0.0036; R3=0.8341; R4=1.016; R5=0.169;
   MA   /CUT_OFF: LEVEL=0; SCORE=400; N_SCORE=10.0; MODE=1;
   MA   /DEFAULT: MI=-210; MD=-210; IM=0; DM=0; I=-20; D=-20;
   MA   /M: SY='R'; M=-12,-44,-11,-13,-13,-22,-2,-7,18,-12,5,-3,-11,0,21,-6,-5,-11,-16,-34;
   MA   /M: SY='D'; M=1,-41,17,16,-41,-3,3,-11,-1,-22,-12,8,-7,12,-7,0,-2,-19,-53,-36;
   MA   /M: SY='D';  M=2,-37,15,13,-36,2,5,-15,-3,-26,-17,10,-6,7,-10,3,2,-17,-53,-28;
   MA   /M: SY='P'; M=1,-41,6,8,-38,-4,2,-20,9,-30,-14,6,13,9,8,3,0,-22,-48,-45;
   MA   /M: SY='D'; M=2,-43,23,20,-42,2,9,-18,2,-30,-18,14,-5,14,-6,2,0,-21,-57,-35;
   MA   /M: SY='D'; M=4,-34,9,8,-34,6,0,-17,5,-29,-14,8,-1,5,1,5,2,-17,-47,-38;
   MA   /M: SY='F'; M=-28,-32,-38,-38,50,-42,-1,2,-11,6,-6,-21,-35,-27,-27,-24,-23,-14,-3,47;
   MA   /M: SY='Q'; M=0,-33,-2,-7,-26,-9,-4,1,1,-10,1,-1,-5,2,0,-2,1,0,-44,-37;
   MA   /M: SY='L'; M=-13,-36,-34,-37,23,-31,-21,28,-15,29,24,-24,-25,-24,-27,-20,-10,22,-33,0;
   MA   /M: SY='K'; M=-8,-32,-5,-5,-19,-16,3,-11,13,-19,-2,1,-9,2,12,-3,-3,-15,-32,-28;
   MA   /M: SY='L'; M=-10,-39,-30,-32,15,-26,-20,20,-16,27,20,-21,-20,-21,-27,-17,-9,16,-32,-5;
   MA   /M: SY='D'; M=3,-48,33,27,-51,4,6,-19,0,-35,-22,18,-10,13,-13,2,0,-16,-65,-41;
   MA   /I: MI=-55; MD=-55; I=-5;
   MA   /M: SY='V'; D=-5; M=-3,-33,-23,-32,-5,-19,-21,28,-16,26,30,-17,-14,-15,-19,-12,-1,30,-48,-28;
   MA   /I: MI=-55; MD=-55; I=-5;
   MA   /M: SY='P'; D=-5; M=1,-2,-1,0,-3,0,0,-1,-1,-2,-2,0,4,0,0,1,0,-1,-4,-4;
   MA   /I: MI=-55; MD=-55; I=-5;
   ..
   ... Some lines omitted..
   ..
   MA   /M:  SY='K'; M=-11,-52,1,-1,-1,-17,2,-18,43,-28,3,9,-10,8,33,-2,-1,-23,-33,-43;
   MA   /I: MI=*; MD=*; I=0;
   NR   /RELEASE=40.7,103373;
   NR   /TOTAL=181(180); /POSITIVE=176(175); /UNKNOWN=5(5); /FALSE_POS=0(0);
   NR   /FALSE_NEG=0; /PARTIAL=4;
   CC   /MATRIX_TYPE=protein_domain;
   CC   /SCALING_DB=reversed;
   CC   /AUTHOR=P_Bucher;
   CC   /TAXO-RANGE=A?EP?; /MAX-REPEAT=2;
   DR   P30223, 14KD_MYCTU, T; P46729, 18K1_MYCAV, T; P46730, 18K1_MYCIT, T;
   DR   P46731, 18K2_MYCAV, T; P46732, 18K2_MYCIT, T; P12809, 18KD_MYCLE, T;
   DR   P80485, ASP1_STRTR, T; O30851, ASP2_STRTR, T; P02497, CRA2_MESAU, T;
   DR   P24622, CRA2_MOUSE, T; P24623, CRA2_RAT  , T; P15990, CRA2_SPAEH, T;
   ..
   ... Some lines omitted..
   ..
   DR   P96193, IBPB_AZOVI, T; P29210, IBPB_ECOLI, T; P29778, OV21_ONCVO, T;
   DR   P29779, OV22_ONCVO, T; Q06823, SP21_STIAU, T; P34328, YKZ1_CAEEL, T;
   DR   P12812, P40_SCHMA , T;
   DR   P81083, HS11_PINPS, P; P81161, HS2M_LYCES, P; P30220, HS3E_XENLA, P;
   DR   Q9QUK5, HSB7_RAT  , P;
   DR   Q29438, ODFP_BOVIN, ?; Q14990, ODFP_HUMAN, ?; Q61999, ODFP_MOUSE, ?;
   DR   Q29077, ODFP_PIG  , ?; P21769, ODFP_RAT  , ?;
   DO   PDOC00791;
 
Un patrón y un perfil pueden corresponderse con un mismo documento de Prosite, ya que una familia puede haber sido definida tanto con un perfil como con un patrón.
La línea "CC /TAXO-RANGE" puede resultarnos útil para discriminar falsas conexiones, falsas homologías. Si una proteína de un eucariota presenta un patrón x que tiene un rango taxonómico P (es decir, que sólo está en bacterias), entonces el hecho de que encontremos el patrón en la secuencia del eucariota probablemente sea fruto del azar y no tenga un significado biológico.
Código empleado en el campo "TAXO-RANGE":
'A': archaea
'B': bacteriofagos
'E': eucariotas
'P': procariotas o bacterias
'V': virus de eucariotas
En cuanto a las entradas de documentación, como podemos observar, contienen mucha información (online http://us.expasy.org/cgi-bin/nicedoc.pl?PDOC50020).


(hay más información del formato de PROSITE aquí).
Tour: Prosite: (browse, search, scanprosite, motifscan, pratt)
 

Pfam

Pfam (http://www.sanger.ac.uk/Software/Pfam/index.shtml) es una base de datos de perfiles tipo HMM. Se divide en dos partes: pfam-A y pfam-B. La primera se construye manualmente: cada vez que se identifica una nueva familia de proteínas un experto elabora un HMM diagnóstico: un HMM capaz de detectar a todas las otras proteínas de la familia y sólo a éstas. Por otra parte, como pfam-A sólo cubre el 73% de Swiss-Prot y TrEMBL, existe pfam-B. Ésta se genera automáticamente a partir de aquellos perfiles que existen en PRODOM (también generados automáticamente) que no se corresponden con ningún pfam-A. Un 20% de las proteínas de Swiss-Prot y TrEMBL presentan al menos un pfam-B.

Pfam-A contiene 5193 familias de proteínas (bastante más que Prosite).

Pfam trabaja con dominios, es decir, cada perfil HMM se corresponde con un dominio, aunque no necesariamente cumplan la definición de dominio estructural independiente, sino más bien suelen ser regiones características de una determinada familia de proteínas.

Además de las ventajas que de por sí tiene esta clasificación, pfam resulta útil para:

-analizar los alineamientos múltiples que contiene.
-estudiar la organización de dominios de las proteínas.
-examinar la distribución filogenética de las proteínas que presentan el dominio.
-también permite ver la estructura tridimensional de los dominios, cuando ésta se conoce.
-y, de las más importantes, permite buscar con una secuencia de una proteína empleando los métodos de HMM, que hoy por hoy son los más eficaces en el análisis de secuencias.
Tour: Pfam: (browse, protein search, dna search, taxonomy). En el ejemplo de CARD (http://www.sanger.ac.uk/cgi-bin/Pfam/getacc?PF00619) podemos ver algunas de las características de una entrada de Pfam.


PSI-BLAST y HMMer
 

1.- PSI-BLAST y PHI-BLAST

A los programas de BLAST, PSI-BLAST, PHI-BLAST.... se puede acceder desde el sitio del NCBI.

Podéis encontrar un interesante tutorial sobre PSI-BLAST en el NCBI, en: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/psi1.html.
PSI-BLAST (o Position Specific Iterated BLAST) es un programa muy útil y rápido. En su forma básica de funcionamiento lo que hace es realizar un simple BLAST con una secuencia y, a partir de los resultados, construye un perfil o PSSM. Entonces, la siguiente búsqueda la realiza con ese perfil, lo que permitirá encontrar,  idealmente, nuevos homólogos, homólogos remotos. Con esos nuevos homólogos genera un nuevo perfil, el cual, idealmente, contendrá mayor cantidad de información y podrá realizar otra búsqueda. Es un proceso iterativo.

Además de este modo de funcionamiento básico a partir de una secuencia, PSI-BLAST también puede iniciarse con un alineamiento múltiple.

Ejecutarlo localmente, por línea de comandos, puede resultar un poco tedioso, y resulta más sencillo utilizar el servidor del NCBI, que además ofrece algunas ventajas: por ejemplo, permite seleccionar cuáles de los homólogos deberán ser utilizados para construir el perfil.

Ejemplo (el que se sigue en el tutorial del NCBI)
>gi|2501594|sp|Q57997|Y577_METJA PROTEIN MJ0577
MSVMYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLNKSVEEFE
NELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDIIIMGSHGKTNLKEILLG
SVTENVIKKSNKPVLVVKRKNS
 

PHI-BLAST (Pattern-Hit Initiated BLAST): permite realizar búsquedas que son mezcla de búsquedas de patrones y alineamiento de secuencias. Se inicia con una secuencia y un patrón (que presenta dicha secuencia y que es característico de dicha familia). Lo que hace es buscar todas aquellas secuencias que presenten ese patrón, pero para descartar aquellas ocurrencias del patrón que se producen al azar (especialmente con patrones cortos), además comprueba que las regiones vecinas al patrón sean parecidas entre las secuencias.

Instalación local

El software de BLAST, PSI-BLAST, PHI-BLAST y otros programas se puede obtener desde aquí. (windows, linux, etc.) (incluye documentación de cómo instalarlo y utilizarlo).
Otros programas del paquete:

2.- El paquete HMMer.

Este paquete HMMer sirve para utilizar HMMs en análisis de secuencias. Permite realizar múltiples tareas: construir un HMM a partir de un alineamiento múltiple, buscar con un HMM en una base de datos de secuencias, buscar con una secuencia en una base de datos de HMMs, etcétera. Dado el alto coste computacional de estas tareas, sólo se puede utilizar localmente, aunque existen algunos subprogramas que se pueden usar en la web: por ejemplo, el programa hmmpfam, que sirve para buscar con una secuencia contra una base de datos de HMMs, se puede usar en Pfam.
Instalación local
Se puede instalar en muchos sistemas, aunque quizás sea más fácil en Linux u otros sistemas Unix que en Windows.
Programas del paquete (*: los básicos):
Si ya tenemos un alineamiento, y queremos construir un HMM y buscar homólogos en una base de datos de secuencias los pasos a seguir son:
hmmbuild => hmmcalibrate => hmmsearch


3.- Resumen.


 



 

Familias de proteínas. Clasificación de proteínas.
 

Introducción

Hasta ahora, en los apartados anteriores, en las que hemos explicado los conceptos de patrones y perfiles, hemos utilizado frecuentemente el concepto de familia de proteínas. De hecho hemos descrito dos bases de datos (Prosite y Pfam) que tienen como uno de sus principales objetivos clasificar las proteínas.

También hemos hablado de cómo evolucionan las proteínas y de que cuando dos proteínas tienen un origen evolutivo común decimos que son "homólogas". Hemos visto la utilidad de las herramientas del tipo HMMer o PSI-BLAST para identificar homologías remotas.

Sin embargo, el concepto de homólogos se queda corto cuando queremos clasificar las proteínas. A lo largo de la evolución, a través de procesos de duplicación génica y divergencia, y también mediante el barajado de dominios, aparecen nuevas subfamilias de proteínas, con nuevas funciones.
 
 

Ejemplo hipotético de evolución de una proteína

Supongamos que en organismo ancestral se produce una duplicación de un hipotético gen que codifica para una proteína de secuencia:

A T F Y A G C D E L
y supongamos que esta proteína une e hidroliza glucosa, y que el aminoácido más importante para reconocer la glucosa es la Cisteína de la posición séptima.
Tras la duplicación tendremos:
A T F Y A G C D E L
A T F Y A G C D E L
Tras unos "añitos", las secuencias habrán divergido. Aquí puede ocurrir que una de las copias degenere y acabe perdiéndose, convirtiéndose en un pseudogén. Sin embargo, supongamos que las dos copias todavía son capaces de dar lugar a proteínas, de secuencias:
A T F Y A G C D E L (secuencia original)
A L F Y A G C E E L (secuencia uno)
A S Y Y A G C D E I (secuencia dos)
(han divergido bastante, con respecto al original y entre sí). Supongamos que aún son capaces de realizar la función original (o quizás una de ellas ya no sea capaz). Supongamos ahora que en la secuencia "dos", se produce una mutación en la séptima Cisteína, cambiando a Glicina, y supongamos que gracias a esa mutación, la proteína sigue siendo capaz de hacer hidrólisis pero ahora en lugar de reconocer Glucosa, reconoce Ribosa. Ya tenemos una nueva proteína con una nueva función. La situación es:
A T F Y A G C D E L (secuencia original)
A L F Y A G C E E L (secuencia uno)
A S Y Y A G G D E I (secuencia dos)
Si es útil tener esa nueva proteína probablemente el organismo con dicha mutación será seleccionado positivamente. Supongamos ahora que pasan muchos años y esta especie da lugar a otras muchas, entonces observaremos que algunas especies habrán perdido una o las dos proteínas, otras habrán sufrido alguna nueva duplicación, y a lo mejor la mayoría ha conservado ambos genes, pero las secuencias habrán continuado divergiendo.
Supongamos que tenemos un alineamiento múltiple:
1 2 3 4 5 6 7 8 9 10
A L F Y A G C E E L (secuencia original uno)
A L F Y A G C E E L
A I F R A G C E E T
A I F R A G C E E L
A V F Y A G C E E L
A S Y Y A G G D E I (secuencia original dos)
A S Y Y A G G D E I
A T Y Y D G G D E I
A T Y L A G G D E I
A S R L A G G D E I
A S Y Y A G G D E I
En este alineamiento observaremos posiciones totalmente conservadas, que posiblemente tengan que ver con la función de hidrólisis (como la sexta posición donde hay Glicina), posiciones que son reflejo de la distinta especificidad por ribosa o glucosa (C/G en la séptima posición), posiciones variables y posiciones que son específicas de cada tipo de proteína pero que no tienen que ver con la especificidad por ribosa o glucosa, sino que reflejan la historia evolutiva (ejemplo: la posición octava E/D).
Es decir, el hecho de que las proteínas de tipo dos (las que unen ribosa) se parezcan más entre sí no sólo es reflejo de las restricciones funcionales (conservación de la séptima G), sino también de dónde vienen (de la "secuencia original dos"; conservación de, por ejemplo, la octava E). Las proteínas de una misma familia o subfamilia se parecen más entre sí que con respecto a las de otras familias o subfamilias homólogas.

 

La situación actual. "Lo que vemos en las bases de datos".

La situación actual encaja bastante bien con ese modelo hipotético: observamos que en un grupo de proteínas homólogas en el que hay proteínas que tienen funciones distintas, las que tienen una misma función son más parecidas entre sí que con respecto a las otras.

Pero para describir las relaciones entre las proteínas vemos que se nos queda corto el concepto de homólogos, por lo que a veces hablamos en términos de superfamilias, familias y subfamilias y otras veces hablamos de ortólogos y parálogos.
 
 

 

Ortólogos y parálogos

Los ortólogos son aquellos genes que provienen de un mismo gen (son homólogos) y cuya divergencia se debe a un proceso de especiación. En palabras más sencillas, son ortólogos aquellos genes (o proteínas) que tienen la misma identidad en distintas especies.
Por ejemplo son ortólogos los genes de la isomerasa de glucosa-6P de Bacillus subtilis y de Escherichia coli.
Los parálogos son aquellos genes cuyo último ancestro común es distinto, es decir, la relación de ortología se ha roto (como son homólogos sí comparten el "primer" ancestro común). Por ejemplo las proteínas tripsina, quimiotripsina, elastasa y trombina.
Con respecto al ejemplo que pusimos anteriormente, las proteínas de tipo dos son ortólogas entre sí, y las del tipo uno también. Sin embargo, las del tipo dos son parálogas respecto a las del tipo uno.








In-paralogs y out-paralogs: rara vez las relaciones evolutivas son tan simples como en el ejemplo de los tipos uno y dos. Muchas veces las duplicaciones no dan lugar a nuevas proteínas con nuevas funciones, sino que los genes duplicados conservan su función y siguen perteneciendo al grupo original. En esos casos, para referirnos a las relaciones entre estos genes procedentes de duplicaciones recientes se habla de in-paralogs, para distinguirlos de los otros. La razón para hacer esta distinción es que los in-paralogs suelen conservar las características de la proteína de la que proceden, mientras que los out-paralogs no. 
Por ejemplo, en el ser humano hay diversas copias del gen de ras, implicado en transducción de señales. Estas proteínas conservan más o menos la función original, aunque cada una se expresa en distintos tejidos, bajo distintas condiciones... Son in-paralogs. Por otra parte, las proteínas rab son parientes de las ras, y son out-paralogs.

Superfamilias, familias y subfamilias
Una superfamilia es un conjunto de proteínas con un origen evolutivo común, un conjunto de homólogos. Las superfamilias se pueden dividir, más o menos arbitrariamente, según lo grandes que sean, en familias y subfamilias. Son conceptos paralelos a los de ortólogos y parálogos: las proteínas de una misma subfamilia son ortólogas entre sí (también puede haber in-paralogs), mientras que son parálogas de las de otras subfamilia que pertenezca a la misma superfamilia.

 

El interés de analizar la organización en familias de las proteínas

El objetivo más frecuente cuando estudiamos una proteína es llegar a conocer su función y averiguar cómo se las apaña para llevarla a cabo. Como hemos visto, conocer cuáles son sus homólogos nos puede ayudar, pero también es importante conocer cuáles pertenecen a su misma familia o subfamilia, de modo que, por ejemplo, podamos encontrar una correlación entre la conservación de determinados residuos en la subfamilia y características funcionales específicas de ésta. O por ejemplo, una correlación en la organización de dominios.


Alineamiento de proteínas de unión a ATP. Algunos residuos están conservadas en todas las familias mientras que otros varían mucho.
Y otros presentan un patrón de conservación dependiente de cada familia.
En la superfamilia hay: chaperones (dnak), proteínas implicadas en la formación del septo bacteriano (ftsA, mreB), hexokinasas (hxk), actina (act)...




La forma más frecuente de hacer este tipo de análisis es construyendo un árbol filogenético (esto lo veréis otro día). El problema de los árboles es que uno tiene que buscar los homólogos, alinearlos, construir el árbol... y además de que esto puede llevar bastante tiempo, a veces los árboles resultantes no son buenos, especialmente si hay proteínas demasiado divergentes o si hay dominios no homólogos en las proteínas que intentamos alinear. Además, si queremos comparar dos genomas y ver qué funciones tiene uno y cuáles el otro (quizás intentándolo correlacionarlo con características fenotípicas de los organismos) debemos conocer las relaciones de ortología. Y esto no podemos hacerlo manualmente construyendo árboles para tantos genes. Por eso (entre otras razones) existen numerosas bases de datos y métodos para estudiar la organización de las familias de proteínas.

Las distintas bases de datos y los distintos métodos afrontan el problema de forma diferente, persiguiendo diversos objetivos. Unas aproximaciones tratan de encontrar grupos de ortólogos. Otras aproximaciones, grupos de homólogos. Etcétera.

En esta clase describiremos algunas bases de datos de clasificación de proteínas y los métodos que se emplean para construirlas.
 

Pfam y Prosite

Estas dos bases de datos ya las hemos explicado en la clase anterior. Se construyen a partir de perfiles-HMM una, y a partir de patrones y perfiles simples la otra.

La limitación básica que tienen es que no son consistentes en el nivel de definición de los grupos: en unos casos el grupo definido en estas bases de datos se corresponderá con una subfamilia, en otros casos con una familia o en otros con una superfamilia. Por ejemplo, en PROSITE existe un patrón para describir la superfamilia de las proteínas que unen ATP/GTP, que es enorme. En Pfam, sin embargo, existen diversos dominios para las distintas familias que unen ATP/GTP: la familia ras, la familia de factores de elongación de la traducción,  etc, etc. Por otra parte, la familia ras de Pfam bien podría haberse subclasificado en las subfamilias rho, rab, ran...
Sin embargo, esto frecuentemente no resta utilidad a Pfam, que es una de las bases de datos más empleadas. Es sólo que no afronta a fondo el problema de la clasificación de proteínas. Una de sus ventajas es que no clasifica proteínas sino dominios, que es la unidad evolutiva básica.





Blocks

(http://www.blocks.fhcrc.org/)
Podríamos dar toda una clase sobre las cosas que se pueden hacer con BLOCKS, pero sólo daremos una visión general. Existe un útil tutorial en BLOCKS.
Esta base de datos se construye a partir de familias descritas en InterPro (ver más adelante) y Prints (ver más adelante). A partir de los alineamientos de las proteínas de estas familias, se buscan motivos que estén conservados y que no presenten inserciones ni deleciones (bloques; blocks). En un segundo paso, se determina cuál es el mejor conjunto de motivos (o bloques) que definen a las proteínas de la familia. Estos motivos se corresponden con sitios activos, sitios de unión de substratos y cofactores y sitios con importantes implicaciones estructurales.
Esta clasificación tiene algunas ventajas porque permite que fácilmente veamos cuáles son las pequeñas zonas conservadas que son características de una familia. También es interesante para determinar si una proteína de la familia carece de alguno de los motivos.

Lo mejor de BLOCKS es el interfaz web que ofrece, permite realizar múltiples consultas, ver los perfiles de los motivos, construir árboles, buscar con los motivos en otras bases de datos...

Tour: buscaremos por "keyword", introduciendo "cytosine and methylase", gracias a lo cual obtendremos la entrada IPB001525 (se corresponde con la entrada IPR001525 de InterPro). Si hacemos click en ella veremos: una serie de motivos IPB001525A, IPB001525B, IPB001525C, IPB001525D, IPB001525E y IPB001525F. Podemos ver la longitud de cada uno y algunas otras características.

Por otra parte podemos  ver la distribución de los motivos en todas las proteínas (pinchando en Block Map).

IPB001525: C-5 cytosine-specific DNA methylase
6 distinct blocks in 158 sequences
MTA1_ARTLU|P31974  ( 521) -A-----BB-CCC---DDD--------------------------EE-F-----
MTB6_BACSP|P43420  ( 315) A-----BB-CCC--DDD----------EE-F--
MTB1_BACBR|P34905  ( 374) -A------BB-CCC--DDD-----------EE-F----
MTD2_HERAU|P25265  ( 354) -A-----BB-CCC--DDD------------EE--F---
MTA1_RUEGE|P94147  ( 429) A-----BB-CCC--DDD---------------------EE-F--
(...)
También podemos ver gráficamente los perfiles para cada motivo, pinchando en "Logos".
O también podemos ver un árbol de las secuencias (pinchando en ProWeb TreeViewer).
También, pinchando en "Structures" (cuando se conoce la estructura tridimensional de alguna de las proteínas) podemos ver la distribución de los motivos de BLOCKS en la estructura (los motivos están coloreados; también observamos la cadena de ADN a la que se unen estas proteínas).

Además, podemos utilizar una entrada de BLOCKS para buscar en bases de datos de secuencias, usando alguno de estos caminos:

Además de todo esto que podemos hacer a partir de un BLOCK, podemos buscar con secuencias de aminoácidos o de nucleótidos.
También podemos construir BLOCKS con "Block Maker". En el tutorial se explican estos aspectos.
 

Prints

(http://bioinf.man.ac.uk/dbbrowser/PRINTS/)
Aquí tenéis un tutorial sobre PRINTS.
El enfoque de esta base de datos es similar al de BLOCKS. Agrupa las proteínas en superfamilias, familias y subfamilias de acuerdo a la presencia de conjuntos de pequeños motivos, a la "huella digital" (fingerprint) que caracteriza a una familia de proteínas.
¿Cómo se construye la base de datos?: a partir de alineamientos múltiples se derivan automáticamente perfiles para motivos conservados. Con éstos se realizan búsquedas en las bases de datos de secuencias. Con las nuevas proteínas se mejoran los motivos, se construyen de nuevo perfiles para cada motivo y se realizan nuevas búsquedas. Finalmente, se obtiene para la familia en cuestión, una lista de motivos que caracterizan de forma óptima a la familia y una lista de las proteínas que los presentan, indicando qué proteínas presentan todos los motivos y cuáles sólo algunos.

Un par de ejemplos de fingerprints: FASRECEPTOR y IL1BCENZYME.
También existe un enlace para ver la estructura tridimensional y dónde se localizan los motivos del 'fingerprint'.

Se pueden realizar búsquedas con FPScan para determinar a qué fingerprints se parece una determinada secuencia. Aquí tenéis un ejemplo, el resultado de buscar con swiss:RASH_HUMAN.
 

Smart

(http://smart.embl-heidelberg.de/; mirror en http://smart.ox.ac.uk/)
Smart Modular Architecture Research Tool  ]
La versión 3.5, de febrero de 2003, contiene 654 dominios.  Los dominios se construyen de forma parecida a Pfam: se elaboran HMMs semilla para determinados dominios y con esos HMMs se busca en las bases de datos para anotar las proteínas.
Para cada dominio se muestra información de en qué especies está presente, con qué otros dominios aparece, la localización, enlaces a la estructura tridimensional, etcétera. Muy parecido a Pfam.

Quizás la característica más particular de SMART es que pone el énfasis en definir los dominios móviles de eucariotas, es decir, aquellos dominios más promiscuos como SH2, SH3, dominio plecstrina, etcétera los cuales aparecen en muy diversas combinaciones. Además ofrece un servicio de búsqueda de proteínas según la organización de dominios que tengan. Por ejemplo, podemos buscar todas aquellas proteínas que tengan los dominios CARD y CASc pero que no tengan el dominio BIR.

La definición de los dominios puede variar de una base de datos a otra. Por ejemplo, según Pfam hay 137 proteínas que tienen el dominio caspasa, mientras que en SMART son sólo 127.
 
 

PRODOM (y ProDom-CG)

[http://prodes.toulouse.inra.fr/prodom.html]
Hay un tutorial en http://prodes.toulouse.inra.fr/prodom/2002.1/documentation/help.php.

También es una base de datos de dominios. Su peculiaridad más sobresaliente es que la clasificación se hace automáticamente, usando el programa MKDOM2. La idea es que la secuencia más corta (siempre y cuando no sea un fragmento de una proteína) se corresponderá con un dominio. Con esa secuencia se inicia un PSI-BLAST iterativo y con los segmentos homólogos de otras proteínas ya tenemos definido un dominio. Estos segmentos son "eliminados" de la base de datos. Los segmentos de esas proteínas que no sean homólogos permanecen en la base de datos. Con la siguiente secuencia más corta se inicia otra vez el proceso. Y así sucesivamente hasta que no queden secuencias en la base de datos.

En las últimas versiones también se generan los dominios a partir de los que ya están descritos en Pfam-A. Y también algunos dominios son corregidos manualmente por expertos. A partir de estos dominios se realizan búsquedas PSI-BLAST del mismo modo que con los dominios descritos automáticamente.

El resultado son 305.465 dominios (de un total de una base de datos de unas 400.000 secuencias). Y existen 108.076 familias de proteínas con al menos dos dominios.

Esta base de datos puede resultar útil en aquellos casos en que no exista una definición de un dominio dado en otras bases de datos como Pfam, Prosite o Smart.

ProDom-CG (CG: complete genome) es un subconjunto de ProDom para los proteomas correspondientes a genomas ya secuenciados.

ProDom es la fuente de información que se utiliza para construir el suplemento Pfam-B.
 

InterPro

[http://www.ebi.ac.uk/interpro/]
Hay documentación en: http://www.ebi.ac.uk/interpro/user_manual.html?

Hemos visto que son muchas las bases de datos de dominios y motivos, que cada una describe distintos niveles de la organización de las proteínas (y muchas veces de una forma que no es consistente), que cada una usa distintos métodos... por eso se decidió crear InterPro, que es una base de datos que se construye a partir de Pfam, SMART, Prosite, Prints, ProDom y TIGRFams.

 
Database Version Entries
SWISS-PROT 41.0 122564
PRINTS 35.0 1750
TrEMBL 23.0 830525
Pfam 8.0 5193
PROSITE patterns 17.37 1605
PROSITE preprofiles N/A 150
ProDom 2002.1 1021
InterPro 6.0 7751
Smart 3.4 654
TIGRFAMs 2.1 1614

La versión de InterPro 6.0 contiene 7751 entradas (1748 dominios, 5841 familias, 147 'repeats' y 15 sitios de modificación post-transduccional).
Hay 3.408.359 conexiones entre las 953.089 secuencias de Swiss-Prot + TrEMBL y las 7751 entradas de InterPro.
El 87% de las proteínas de Swiss-Prot (y el 75% de las de TrEMBL) tienen al menos una conexión con InterPro.
 
 

 
Lo que InterPro entiende por familias, dominios, repeticiones ('repeats') y modificaciones post-transduccionales
 
  • Familia: es un grupo de proteínas relacionadas evolutivamente y que tienen uno o más dominios o repeticiones en común. Una familia puede contener un 'motivo' que la defina.
  • Dominio: un dominio es una unidad estructural independiente. Una entrada de InterPro del tipo dominio se puede usar como diagnóstico de la presencia de un dominio, pero no tiene por qué definir correctamente los límites del dominio.
  • Repetición: es una corta región que no tiene entidad estructural independiente, es decir, se requiere la presencia de varias repeticiones para dar lugar a un dominio. Ejemplo: el dominio WD40 está constituido por 6 ú 8 copias de la repetición WD40.
  • Modificación post-transduccional (PTM): se refiere a motivos de secuencia que son reconocidos en la célula para que se produzcan PTMs sobre la proteína, como por ejemplo N-glicosilaciones, farnesilaciones, etc... Las proteínas que son agrupadas de acuerdo a un PTM no tienen por qué compartir un origen evolutivo.

  •  

     
     
     

    Las familias se pueden dividir según relaciones de 'padres' e 'hijos', en familias y subfamilias (PARENT/CHILD relationships).

    Por otra parte, en las entradas de dominios, hay un campo de 'contains/found in' para indicar si alguna familia ha sido caracterizada por este dominio.

    Ejemplo: el dominio CARD. En su entrada se indica que hay 117 proteínas que tienen este dominio. También se indica que los dominios correscpondientes en Pfam, Prosite y Smart (PF00619, PS50209 y SM00114) contienen 82, 115 y 72 proteínas, respectivamente.
    También se muestra una descripción de la función de este dominio.

    En el enlace "overview" (y en "...sorted by name" y en "detailed") se muestra gráficamente en qué regiones de cada una de las 117 proteínas aparece cada uno de los dominios Pfam, Prosite y Smart. También se muestra qué otros dominios presentan cada una de las 117 proteínas.  Vemos que entre esas proteínas algunas presentan el dominio "proteína kinasa", otras el dominio "caspasa", etcétera. En "detailed" se muestra lo mismo pero más ampliamente. Por ejemplo, en la parte de "overview" vemos esto para la proteína RIK2_HUMAN:

    Vemos que la proteína PIAP_PIG tiene varios dominios. Los dos primeros (los azules) son "BIR repeats" (si ponemos el ratón encima aparece una etiqueta que lo indica), luego está el dominio CARD y luego el dominio Zn-finger de tipo RING.

    Y en "detailed" vemos esto:

    Vemos que en el caso de la proteína PIAP_PIG el dominio CARD se encuentra con los tres marcadores: Pfam, Prosite y Smart (no ocurre lo mismo con todas las proteínas que según interPro tienen este dominio). Las repeticiones BIR se encuentran con 4 marcadores (PF0065, PS01282, PS50143 y SM00238). Los dominios Zn-finger se encuentran con tres marcadores. Al lado de cada marcador vemos con qué entrada de InterPro se corresponde.

    En el enlace "table", vemos qué regiones de cada una de las 117 proteínas se corresponden con cada una de las "signatures".




    En la tabla además vemos cuáles de las "signatures" (marcadores) aparecen en cada proteína. En PIAP_PIG aparecen las tres, pero en NOL3_HUMAN, por ejemplo, no aparece el de Pfam. También se indica mediante las letras "T", "F" y "?", si la relación es correcta (T, true), incorrecta (F, false) o no se sabe (?).

    El caso de PIAP_PIG: ¿qué función podría tener?. Esta proteína está anotada en Swiss-Prot como un posible inhibidor de la apoptosis. El dominio CARD es un dominio de interacción entre proteínas. Normalmente interacciona con otros dominios CARD, los cuales están presentes en caspasas, kinasas, etc. (las caspasas son las principales ejecutoras del plan apoptótico de la célula). Por otra parte, el dominio BIR (que está constituido por varias repeticiones BIR) confiere resistencia a apoptosis. Además, BIR normalmente aparece asociado al dominio Zn-RING finger, el cual está implicado en interacciones proteína-proteína.
    De forma rápida hemos podido hacernos una idea de la función de esta proteína y de qué dominios tiene y qué rol puede que desempeñen. Posiblemente, de confirmarse que esta proteína es inhibidora de la apoptosis, lo haga interfiriendo en la maquinaria apoptótica, quizás uniéndose a ella a través del dominio CARD, y usando el Zn-RING finger para alguna otra interacción. Este tipo de dedos de Zinc están asociados a muchos procesos celulares, como por ejemplo a la ubiquitinación (etiquetado de proteínas para su destrucción), ya que puede interaccionar con enzimas ubiquitinadoras, pero no sabemos si éste es el caso.
     

    Clasificación jerárquica en InterPro
    Por ejemplo, para las proteínas kinasas existe esta jerarquía:

    P.e. el IPR00719 (el nodo superior) está definido por un dominio de ProDom (PD000001), también por uno de Pfam (PF00069) y por otros dos: un patrón y un perfil de Prosite (PS00107 y PS50011).
    P.e. el nodo de las "Tyrosine protein kinases", el IPR001245, está definido por una entrada de Prints (PR00109), otra de Prosite (PS00109) y otra de SMART (SM00219).
    etcétera.
     



    COGs: Clusters of Orthologous Groups (grupos de ortólogos)

    [http://www.ncbi.nlm.nih.gov/COG/]
    La documentación de COGs se encuentra en este enlace.

    COGs se refiere a "clusters of orthologous groups", es decir a grupos de genes ortólogos. Su objetivo es clasificar en tales grupos las proteínas de aquellos microorganismos de los que se conoce el genoma al completo. En la última versión había 43 genomas.

    En este momento están diseñando una nueva versión de COGs que también será extensible a organismos pluricelulares como Arabidopsis thaliana, Caenorhabditis elegans, Drosophila melanogaster o Homo sapiens.

    Clasificar las proteínas en grupos de ortólogos es muy útil para predecir la función de las mismas, ya que ésta se suele conservar en los ortólogos y entonces, conociendo la función de al menos una de las proteínas del grupo, podemos saber cuál es la función de las otras.

    Además, para comparar genomas también es necesario conocer las relaciones de ortología, ya sea para comparar el contenido de los genomas o para comparar su organización.
     
     
       
      Identifiación de ortólogos basada en best bidirectional hits (BBHs)

      La idea del método de 'best bidireccional hits (BBHs)' o mayores parecidos en las dos direcciones es que si una proteína de un genoma es la más parecida de otra en otro genoma, y viceversa (bidireccional), entonces es muy probable que ambas sean ortólogos. Por ejemplo, supongamos que tenemos dos genomas X e Y, y en cada uno de ellos hay dos proteínas homólogas A1 y A2 que proceden de una duplicación ancestral en un genoma 0 (A en la figura). Si ninguno de los dos genomas X e Y sufre una deleción, el método funcionará correctamente (caso B). Si se produce  una deleción dependiendo de a qué genes afecte el método funcionará bien (C) o mal (D).


     
    El método de determinación de grupos de ortólogos de COGs:

    Es un método semiautomático, después de aplicar el método que a continuación se describe, se realiza una corrección de los resultados.

    • Lo primero que se hace es determinar los BeTs (best bidirectional hits): para cada proteína se determina cuál es la más parecida en cada uno de los otros genomas.
    • Fusión de in-paralogs: Como los in-paralogs (las duplicaciones recientes dentro de una misma especie) pueden crear confusión (puede que no tenga sentido determinar con cuál de los in-paralogs se ha de establecer el BBH; puede que sea imposible determinarlo), lo que se hace es fusionarlos, tomándolos como si fueran uno solo. El criterio para la fusión es que su parecido sea más elevado entre ellos que con respecto a cualquier otro gen de otro genoma.
    • Con las relaciones de BeTs se construye un grafo a partir del cual se buscan patrones consistentes de BeTs. El más sencillo de éstos es un triángulo de genes procedentes de tres linajes diferentes. 
    • Los triángulos que comparten dos vértices (un lado) se unen. Este procedimiento supuestamente resulta en grupos de ortólogos.
    • En muchos casos, dos o más grupos de ortólogos quedan unidos. En esos casos se construye un árbol filogenético y se separan manualmente.

    • Finalmente, se asigna una función particular a cada COG y también una clase funcional general.

    El sitio web de COGs ofrece muchas herramientas para consultar los resultados.

    Se pueden buscar COGs por "palabras clave", por representación filogenética (p.e. obtener todos aquellos COGs en los que hay arqueas pero no bacterias), por clase funcional, por ruta metabólica, etcétera.

    Una vez identificado un COG de interés (ejemplo) podemos ver qué función tiene o qué genomas están representados en él.


    En COGs también existen herramientas para comparar genomas. Por ejemplo viendo su organización estructural, como en el ejemplo anterior. También hace un análisis de componentes principales basado en la co-ocurrencia de los genomas en los COGs.
     

    Por otra parte, si queremos clasificar una secuencia podemos utilizar el programa COGNITOR (ayuda). Podemos buscar con swiss:DNAK_ECOLI.

    >DNAK_ECOLI|P04475|Chaperone protein dnaK (Heat shock protein 70) (Heat shock 70 kDa protein) (HSP70).
         GKIIGIDLGT TNSCVAIMDG TTPRVLENAE GDRTTPSIIA YTQDGETLVG QPAKRQAVTN
         PQNTLFAIKR LIGRRFQDEE VQRDVSIMPF KIIAADNGDA WVEVKGQKMA PPQISAEVLK
         KMKKTAEDYL GEPVTEAVIT VPAYFNDAQR QATKDAGRIA GLEVKRIINE PTAAALAYGL
         DKGTGNRTIA VYDLGGGTFD ISIIEIDEVD GEKTFEVLAT NGDTHLGGED FDSRLINYLV
         EEFKKDQGID LRNDPLAMQR LKEAAEKAKI ELSSAQQTDV NLPYITADAT GPKHMNIKVT
         RAKLESLVED LVNRSIEPLK VALQDAGLSV SDIDDVILVG GQTRMPMVQK KVAEFFGKEP
         RKDVNPDEAV AIGAAVQGGV LTGDVKDVLL LDVTPLSLGI ETMGGVMTTL IAKNTTIPTK
         HSQVFSTAED NQSAVTIHVL QGERKRAADN KSLGQFNLDG INPAPRGMPQ IEVTFDIDAD
         GILHVSAKDK NSGKEQKITI KASSGLNEDE IQKMVRDAEA NAEADRKFEE LVQTRNQGDH
         LLHSTRKQVE EAGDKLPADD KTAIESALTA LETALKGEDK AAIEAKMQEL AQVSQKLMEI
         AQQQHAQQQT AGADASANNA KDDDVVDAEF EEVKDKK

    ProtoMap

    [http://protomap.cornell.edu/]
    Una introducción y un tour por ProtoMap.
     
    ProtoMap es una base de datos que ofrece una clasificación jerárquica del espacio de secuencias. El método es totalmente automático.

    La clasificación se realiza en función de las distancias entre las secuencias, en función de cuánto se parecen.

    Se realiza una búsqueda mediante Smith & Waterman, BLAST y FASTA para cada  una de las secuencias de Swiss-Prot+TrEMBL. De este modo se obtiene una medida de la distancia entre todas las proteínas.

    Estos resultados se representan mediante un grafo en el que los nodos son las proteínas y los nodos están unidos por arcos cuando alguno de los métodos ha encontrado un parecido. El peso de los arcos viene dado por el e-value asociado a tal parecido de secuencia. 

    En este grafo las proteínas que se parezcan más estarán más cerca entre sí (ejemplo). El objetivo ahora es encontrar un algoritmo de clustering (agrupamiento) capaz de identificar automáticamente los grupos de secuencias que existen en dicho mapa.
     

    El algoritmo de clustering:

    El algoritmo funciona de forma recursiva. Aplicando un umbral cada vez más suave se van obteniendo grupos más grandes. Es equivalente a ir uniendo subfamilias en familias y éstas en superfamilias.

    0º.- Obtención de distancias entre secuencias => grafo
    1º.- Agrupamiento de secuencias claramente relacionadas (e-value < 1e-100)
    2º.- Inicialización de T = 1e-95.
    3º.- Cálculo de distancias entre los distintos grupos o clusters:
    -Se halla la media geométrica de los e-values entre cada par de clusters. En los casos en que no hay arcos, se asigna un e-value de 1.
    4º.- Si la media geométrica de los e-values es menor que la raíz cuadrada de T, se unen los clusters.
    5º.- Se relaja el umbral T: T = T*1e+05.
    6º.- Si T > 1 => FIN. Si no => se vuelve al punto 3º.


    La aplicación de distintos T secuencialmente (1e-95 -> 1e-90 -> 1e-85 ... 1e-00=1) resulta en una clasificación jerárquica de las proteínas.
     

    Problemas de esta aproximación:

    -la propia limitación de los métodos de comparación entre pares de secuencia, que tienen un menor poder de discriminación de homologías remotas. Sin embargo la comparación entre pares de secuencias tiene la ventaja de que ofrece una medida de la distancia evolutiva entre las secuencias (no así la comparación entre un perfil y una secuencia) lo cual permite aplicar el método de agrupamiento automático.

    -la propiedad transitiva de la homología entre las proteínas se aplica sin tener en cuenta la naturaleza multidominio de las mismas, por lo que en un mismo cluster puede haber proteínas que no tengan un mismo origen.
     

    Interfaz web:

    Se puede clasificar una nueva secuencia (realizando una búsqueda) o bien se puede navegar por la jerarquía de clusters, buscando por "keywords", "accession number", etc. Se puede seleccionar también el nivel al que queremos acceder, desde 1e-0 hasta 1e-100, desde grupos más grandes a grupos más pequeños.
     

    Ejemplo: swiss:RASH_HUMAN.

    Buscando con el identificador de swiss-prot averiguamos que esta proteína, en el nivel 1e-0, se encuentra en el cluster 18, que contiene 976 proteínas. También vemos con qué otros clusters tiene arcos el nodo de rash_human.
    Si vamos al cluster 18 veremos qué proteínas hay en él, su función, su origen filogenético (virus, eucariotas, bacterias, etc). También vemos qué patrones y perfiles de Prosite están presentes en las proteínas del grupo.

    También podemos:

    Cuestión práctica: ¿Hay alguna relación evolutiva entre la proteína ras/p21 de humanos y el factor de elongación de la traducción EF-Tu de E. coli?
    Estas son sus secuencias:
    >RASH_HUMAN|P01112|Transforming protein P21/H-RAS-1 (C-H-RAS).
         MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG
         QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHQYREQI KRVKDSDDVP MVLVGNKCDL
         AARTVESRQA QDLARSYGIP YIETSAKTRQ GVEDAFYTLV REIRQHKLRK LNPPDESGPG
         CMSCKCVLS
    >EFTU_ECOLI|P02990|Elongation factor Tu (EF-Tu) (P-43).
         SKEKFERTKP HVNVGTIGHV DHGKTTLTAA ITTVLAKTYG GAARAFDQID NAPEEKARGI
         TINTSHVEYD TPTRHYAHVD CPGHADYVKN MITGAAQMDG AILVVAATDG PMPQTREHIL
         LGRQVGVPYI IVFLNKCDMV DDEELLELVE MEVRELLSQY DFPGDDTPIV RGSALKALEG
         DAEWEAKILE LAGFLDSYIP EPERAIDKPF LLPIEDVFSI SGRGTVVTGR VERGIIKVGE
         EVEIVGIKET QKSTCTGVEM FRKLLDEGRA GENVGVLLRG IKREEIERGQ VLAKPGTIKP
         HTKFESEVYI LSKDEGGRHT PFFKGYRPQF YFRTTDVTGT IELPEGVEMV MPGDNIKMVV
         TLIHPIAMDD GLRFAIREGG RTVGAGVVAK VLS
    Si queréis podéis probar con BLAST para determinar esta cuestión. Pero os adelanto que el mejor alineamiento local que obtendréis será muy pequeño y poco significativo (=no distinguible de un parecido al azar entre el millón de proteínas conocidas):
    ras : ESRQAQDLARSYGIPYI
    eftu: QTREHILLGRQVGVPYI
    ¿Podríamos haber detectado la relación evolutiva entre rash_human y EF-Tu de ecoli usando Pfam?

    Los perfiles y los HMMs permiten determinar relaciones evolutivas distantes porque incorporan información precisa de la familia en cuestión, como por ejemplo que los residuos X e Y sean un Trp y una Lys, dando más importancia a la conservación de éstos que a la de otros.

    1º. Id a Pfam y pinchad en el enlace de 'protein search'.

    2º. Pegad la secuencia de rash_human y poned el 'E-value cutoff level' a 100. Obtendréis esto.

    MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG
    QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHQYREQI KRVKDSDDVP MVLVGNKCDL
    AARTVESRQA QDLARSYGIP YIETSAKTRQ GVEDAFYTLV REIRQHKLRK LNPPDESGPG
    CMSCKCVLS
    3º. Haced lo mismo con eftu_ecoli en otra ventana. Obtendréis esto.
    SKEKFERTKP HVNVGTIGHV DHGKTTLTAA ITTVLAKTYG GAARAFDQID NAPEEKARGI
    TINTSHVEYD TPTRHYAHVD CPGHADYVKN MITGAAQMDG AILVVAATDG PMPQTREHIL
    LGRQVGVPYI IVFLNKCDMV DDEELLELVE MEVRELLSQY DFPGDDTPIV RGSALKALEG
    DAEWEAKILE LAGFLDSYIP EPERAIDKPF LLPIEDVFSI SGRGTVVTGR VERGIIKVGE
    EVEIVGIKET QKSTCTGVEM FRKLLDEGRA GENVGVLLRG IKREEIERGQ VLAKPGTIKP
    HTKFESEVYI LSKDEGGRHT PFFKGYRPQF YFRTTDVTGT IELPEGVEMV MPGDNIKMVV
    TLIHPIAMDD GLRFAIREGG RTVGAGVVAK VLS
    ¿Qué conclusión podéis sacar? ¿Es capaz de detectar la relación evolutiva? ¿Sale el dominio característico de cada una de estas proteínas en la lista de 'matches' del otro? ¿Con qué E-value? ¿Son iguales estos E-values? ¿Por qué?


     
     
    volver al índice
    ir a la práctica