Alineamiento de secuencias. Búsqueda de parecidos. Alineamientos múltiples. Práctica.

volver al índice

ir a la teoría

Alineamiento de secuencias. Búsqueda de parecidos. Alineamientos múltiples.
Parte práctica

Federico Abascal

Enlaces:

Alinear dos secuencias: Lipman and Pearson's Align program, bl2seq. Smith&Waterman.

BLAST: EMBL, EBI, NCBI. (Blast-info, Blast-tutorial).

Descargarlo e instalarlo

ClustalW: ch.EMBNET.org, crick.genes.nig.ac.jp, NPS@, EBI, GenomeNet.

Descargarlo e instalarlo

cómo ejecutarlo localmente

Bases de datos: Swiss-Prot, EMBL; SRS-EBI, SRS-EMBL.

Visor de alineamientos múltiples: Belvu - descargarlo e instalarlo para linux (sitio ftp, para otras plataformas distintas de linux)

Primer ejercicio. Alineamiento de dos secuencias

Haz un alineamiento de estas dos secuencias usando el servidor del EMBL-EBI:

>RPE_YEAST
     MVKPIIAPSI LASDFANLGC ECHKVINAGA DWLHIDVMDG HFVPNITLGQ PIVTSLRRSV
     PRPGDASNTE KKPTAFFDCH MMVENPEKWV DDFAKCGADQ FTFHYEATQD PLHLVKLIKS
     KGIKAACAIK PGTSVDVLFE LAPHLDMALV MTVEPGFGGQ KFMEDMMPKV ETLRAKFPHL
     NIQVDGGLGK ETIPKAAKAG ANVIVAGTSV FTAADPHDVI SFMKEEVSKE LRSRDLLD
>RPE_MYCPN
     MLNLVVNREI AFSLLPLLHQ FDRKLLEQFF ADGLRLIHYD VMDHFVDNTV FQGEHLDELQ
     QIGFQVNVHL MVQALEQILP VYLHHQAVKR ISFHVEPFDI PTIKHFIAQI KQAGKQVGLA
     FKFTTPLVNY ERLVQQLDFV TLMSVPPGKG GQAFNSAVFN NLKQAHKYHC SIEIDGGIKL
     DNIHQIQDDV NFIVMGSGFI KLERWQRQQL LKTNQ

Prueba a hacer un alineamiento global (opción "needle") y uno local (opción "water"). ¿Observas diferencias? ¿Crees que estas dos secuencias están relacionadas?

Prueba a obtener el alineamiento utilizando distintas matrices de sustitución y distintas penalizaciones para la apertura y extensión de gaps. Por ejemplo, prueba con BLOSUM62 y BLOSUM40. ¿Observas diferencias? (podéis ver los resultados aquí)

¿Cómo podríamos estar más seguros de cuál es el mejor alineamiento? ¿cómo obtenerlo?

Segundo ejercicio. Búsqueda de parecidos en una base de datos. BLAST.

Haz una búsqueda BLAST de RPE_YEAST.
Utiliza los servidores de BLAST del EMBL o del EBI, ya que permiten obtener más fácilmente las secuencias de las proteínas homólogas.

En BLAST-EMBL:

database=Swiss-Prot (nrdb95 es más completa, pero encontraríamos demasiados homólogos que complicarían el análisis).
filter=none
descriptions=250
alignments=250

Si pinchamos en "Get selected sequences" obtendremos la secuencia de las proteínas que hemos marcado (por defecto vienen marcadas las que tienen mejores p-values). Las podéis encontrar en este fichero.

Podéis probar a utilizar el BLAST del NCBI (el del EMBL es la versión WU-BLAST, que es un poco distinta) y ver qué os sale.

Resultados BLAST-EMBL. Resultados BLAST-NCBI.

Respecto a las dos proteínas que alineamos anteriormente, ¿qué e-value tienen?

Tercer ejercicio. Alineamiento múltiple de las secuencias encontradas con BLAST.
En este ejercicio haremos un alineamiento múltiple de los homólogos que hemos encontrado. Utilizaremos ClustalW.
Podemos hacerlo a través de la red o bien instalarlo y ejecutarlo localmente.

A través de la web:

Servidores: ch.EMBNET.org, crick.genes.nig.ac.jp, NPS@.
Lo más importante es cambiar el formato de salida:
output format= GCG (ó GCG-msf, que es lo mismo).

Localmente:

Descargarlo e instalarlo; cómo ejecutarlo localmente.

Finalmente obtendréis un fichero más o menos como éste.
Con belvu veréis algo como esto. (descargar e instalar belvu para linux).

Practicad un poco con belvu, mirad el árbol de neighbor joining, ordenad las secuencias según distintos criterios, eliminad secuencias redundantes, etc...

Cuarto ejercicio. Cuestión teórica: ¿qué información sale a la luz cuando hacemos un alineamiento múltiple?

Quinto ejercicio. Identificación de regiones codificantes utilizando BLAST. (Ramón Alonso Allende)

>human
AGCTTTCTTCTTTTCCCTGTTGCTCAAATAAATAGTGTTCTTTGCTCAAA
CCCCCTTTCCCTCCTCCTTCTGCAATCTCAGCGCCTAGCGAAATCTGTTT
TCTTCATTGTAACCTCAGCTTCACCGCAATTAATTTTTTTTCCCTCTGGT
CACAAGATAATTCCTGACGCCAGTGAGTCTGGAGGTCAGACGAACAGCAA
ATTGGGGAACAAGGCGGCACTAATTCCTTACAAGTTCCTTGAAAAATCTT
TCGCTTAAAAAAAACGGGGGGTGGGGGGAGCTTCTTTGCTGTTCAGGGAT
TTATGCCTCGCGGAGCTGTGGCTCGAACCAGTGTTGGCTAAGGCGGACTG
GCAGGGGCAGGGAAGCTCAAAGATCTGGGGTGCTGCCAGGAAAAAGCAAA
TTCTGGAAGTTAATGGTTTTGAGTGATTTTTAAATCCTTGCTGGCGGAGA
GGCCCGCCTCTCCCCGGTATCAGCGCTTCCTCATTCTTTGAATCCGCGGC
TCCGCGGTCTTCGGCGTCAGACCAGCCGGAGGAAGCCTGTTTGCAATTTA
AGCGGGCTGTGAACGCCCAGGGCCGGCGGGGGCAGGGCCGAGGCGGGCCA
TTTTGAATAAAGAGGCGTGCCTTCCAGGCAGGCTCTATAAGTGACCGCCG
CGGCGAGCGTGCGCGCGTTGCAGGTCACTGTAGCGGACTTCTTTTGGTTT
TCTTTCTCTTTGGGGCACCTCTGGACTCACTCCCCAGCATGAAGGCGCTG
AGCCCGGTGCGCGGCTGCTACGAGGCGGTGTGCTGCCTGTCGGAACGCAG
TCTGGCCATCGCCCGGGGCCGAGGGAAGGGCCCGGCAGCTGAGGAGCCGC
TGAGCTTGCTGGACGACATGAACCACTGCTACTCCCGCCTGCGGGAACTG
GTACCCGGAGTCCCGAGAGGCACTCAGCTTAGCCAGGTGGAAATCCTACA
GCGCGTCATCGACTACATTCTCGACCTGCAGGTAGTCCTGGCCGAGCCAG
CCCCTGGACCCCCTGATGGCCCCCACCTTCCCATCCAGGTAAGCCTCGAA
GTCGGGACAGGGCTGAACACCCAGGCAAGGATGCTGCGGGACCCTCGGAG
CTCCCGATTGCCTCGCGTAACTCTTCCCTCTTTTCCTCTAATCAGACAGC
CGAGCTCGCTCCGGAACTTGTCATCTCCAACGACAAAAGGAGCTTTTGCC
ACTGACTCGGCCGTGTCCTGACACCTCCAGGTGAGTATCTCCTCTCTTGG
AGAGGGAGGTTTAAACGGCAAGTCCTGGAGTTGGCAGACGTTTTGAAAAA
TTGCCACTCACTCGGTTTAGGGAAACTGAGGCCAGAGAGGGACAAGTGAC
TTGCCCATGGTTGCATCAAATGAATGGCAGAGTCAGTTTCCATGTGATGT
GCATTTAAGCCTTAATGCGCCTGGCCCTGCCTCCGCAGTGGCCGAGGTCT
GGCAAGTAGACATGGTCCGACTAAATACAAGTCTTTCTGTTCCATGTTGT
ATAGGAGCTGTCTTCGGCAGCCCCCTCCCAGCTAGTGTCAATTCCAAGTA
GGAGGGGTAGCGCAACGTCCGCCTGTGGTCTTTGGCGCCAACTGGGTGGG
GGCAGCGTGGGGGGCGGAGTTATCAGGCTGGAGGTACAGACCAAGTTTCC
TCCCTGGCGCCGGCCAGTCTGCGGACGGCCCCCGCCTCGGCACGCTCGGC
GGAAACTGACTGCTCCTTGGTCTTCTTTCCTCCCCCGCCCAGAACGCAGG
TGCTGGCGCCCGTTCTGCCTGGGACCCCGGGAACCTCTCCTGCCGGAAGC
CGGACGGCAGGGATGGGCCCCAACTTCGCCCTGCCCACTTGACTTCACCA
AATCCCTTCCTGGAGACTAAACCTGGTGCTCAGGAGCGAAGGACTGTGAA
CTTGTGGCCTGAAGAGCCAGAGCTAGCTCTGGCCACCAGCTGGGCGACGT
CACCCTGCTCCCACCCCACCCCCAAGTTCTAAGGTCTTTTCAGAGCGTGG
AGGTGTGGAAGGAGTGGCTGCTCTCCAAACTATGCCAAGGCGGCGGCAGA
GCTGGTCTTCTGGTCTCCTTGGAGAAAGGTTCTGTTGCCCTGATTTATGA
ACTCTATAATAGAGTATATAGGTTTTGTACCTTTTTTACAGGAAGGTGAC
TTTCTGTAACAATGCGATGTATATTAAACTTTTTATAAAAGTTAACATTT
TGCATAATAAACGATTTTTAAACACTTGTGTATATGATGACACCCGTCTC
CATTAAGTACTAATGATGCTTTCTCGCACATGGCCGAATTTTGGGAGCTT
TGGGAAAGTGAACTTGCTTATTCTACGAGAGGGAAATGAAAAACTGCCTG
GTTGAGAGGGGATGGGGTGGAGAGAGAAGGGTTCATGATGGGAGTCTCAT
GTCCATTGAGGGATGGGTGCAGAGAAAAGTTCTGGCTCTGCCTCATTATT
TCAGAGATGAAACCAGAGACTGGTGCAAGCT

Vemos si hay evidencias de transcripción de algún fragmento de nuestra secuencia. Para ello usaremos la herramienta de BLAST contra una base de datos de EST (expresed sequence tag).

    * Entramos en la pagina web del Blast del NCBI y pinchamos en "Standard nucleotide-nucleotide BLAST [blastn]
    * Copiamos nuestra secuencia y la pegamos en la caja de "search"
    * Elegimos la base de datos de "est" en el apartado "Choose database". En el caso de la secuencia de humano, elegimos la de ESTs de humanos
    * El resto se deja como está y pulsamos "BLAST!"
    * Después de un rato debería salir un resultado semejante a este

Cuestiones: ¿qué es un EST?, ¿crees que la secuencia de ADN podría contener algún gen?, de ser así: ¿qué estructura tendría ese gen aproximadamente?

Otra cuestión: Si no hubiese librerías de ESTs y tuvieses una secuencia de ADN ¿se te ocurre alguna forma de determinar si contiene un gen esa secuencia utilizando BLAST?

volver al índice

ir a la teoría