Práctica Eucariotas

Vamos a analizar con diferentes herramientas de prediccion de genes una secuencia del genoma humano y una de A.thaliana. Intentaremos ver donde están los exones y los intrones, si hay una región promotora en la secuencia y decidiremos de entre todas las estructuras génicas propuestas por las diferentes aplicaciones, cual nos parece mejor.

Sequencia 1: Sequencia 2:
>human
AGCTTTCTTCTTTTCCCTGTTGCTCAAATAAATAGTGTTCTTTGCTCAAA 
CCCCCTTTCCCTCCTCCTTCTGCAATCTCAGCGCCTAGCGAAATCTGTTT
TCTTCATTGTAACCTCAGCTTCACCGCAATTAATTTTTTTTCCCTCTGGT 
CACAAGATAATTCCTGACGCCAGTGAGTCTGGAGGTCAGACGAACAGCAA 
ATTGGGGAACAAGGCGGCACTAATTCCTTACAAGTTCCTTGAAAAATCTT 
TCGCTTAAAAAAAACGGGGGGTGGGGGGAGCTTCTTTGCTGTTCAGGGAT 
TTATGCCTCGCGGAGCTGTGGCTCGAACCAGTGTTGGCTAAGGCGGACTG 
GCAGGGGCAGGGAAGCTCAAAGATCTGGGGTGCTGCCAGGAAAAAGCAAA 
TTCTGGAAGTTAATGGTTTTGAGTGATTTTTAAATCCTTGCTGGCGGAGA 
GGCCCGCCTCTCCCCGGTATCAGCGCTTCCTCATTCTTTGAATCCGCGGC 
TCCGCGGTCTTCGGCGTCAGACCAGCCGGAGGAAGCCTGTTTGCAATTTA 
AGCGGGCTGTGAACGCCCAGGGCCGGCGGGGGCAGGGCCGAGGCGGGCCA 
TTTTGAATAAAGAGGCGTGCCTTCCAGGCAGGCTCTATAAGTGACCGCCG 
CGGCGAGCGTGCGCGCGTTGCAGGTCACTGTAGCGGACTTCTTTTGGTTT 
TCTTTCTCTTTGGGGCACCTCTGGACTCACTCCCCAGCATGAAGGCGCTG 
AGCCCGGTGCGCGGCTGCTACGAGGCGGTGTGCTGCCTGTCGGAACGCAG 
TCTGGCCATCGCCCGGGGCCGAGGGAAGGGCCCGGCAGCTGAGGAGCCGC 
TGAGCTTGCTGGACGACATGAACCACTGCTACTCCCGCCTGCGGGAACTG 
GTACCCGGAGTCCCGAGAGGCACTCAGCTTAGCCAGGTGGAAATCCTACA 
GCGCGTCATCGACTACATTCTCGACCTGCAGGTAGTCCTGGCCGAGCCAG 
CCCCTGGACCCCCTGATGGCCCCCACCTTCCCATCCAGGTAAGCCTCGAA 
GTCGGGACAGGGCTGAACACCCAGGCAAGGATGCTGCGGGACCCTCGGAG 
CTCCCGATTGCCTCGCGTAACTCTTCCCTCTTTTCCTCTAATCAGACAGC 
CGAGCTCGCTCCGGAACTTGTCATCTCCAACGACAAAAGGAGCTTTTGCC 
ACTGACTCGGCCGTGTCCTGACACCTCCAGGTGAGTATCTCCTCTCTTGG 
AGAGGGAGGTTTAAACGGCAAGTCCTGGAGTTGGCAGACGTTTTGAAAAA 
TTGCCACTCACTCGGTTTAGGGAAACTGAGGCCAGAGAGGGACAAGTGAC 
TTGCCCATGGTTGCATCAAATGAATGGCAGAGTCAGTTTCCATGTGATGT 
GCATTTAAGCCTTAATGCGCCTGGCCCTGCCTCCGCAGTGGCCGAGGTCT 
GGCAAGTAGACATGGTCCGACTAAATACAAGTCTTTCTGTTCCATGTTGT 
ATAGGAGCTGTCTTCGGCAGCCCCCTCCCAGCTAGTGTCAATTCCAAGTA 
GGAGGGGTAGCGCAACGTCCGCCTGTGGTCTTTGGCGCCAACTGGGTGGG 
GGCAGCGTGGGGGGCGGAGTTATCAGGCTGGAGGTACAGACCAAGTTTCC 
TCCCTGGCGCCGGCCAGTCTGCGGACGGCCCCCGCCTCGGCACGCTCGGC 
GGAAACTGACTGCTCCTTGGTCTTCTTTCCTCCCCCGCCCAGAACGCAGG 
TGCTGGCGCCCGTTCTGCCTGGGACCCCGGGAACCTCTCCTGCCGGAAGC 
CGGACGGCAGGGATGGGCCCCAACTTCGCCCTGCCCACTTGACTTCACCA 
AATCCCTTCCTGGAGACTAAACCTGGTGCTCAGGAGCGAAGGACTGTGAA 
CTTGTGGCCTGAAGAGCCAGAGCTAGCTCTGGCCACCAGCTGGGCGACGT 
CACCCTGCTCCCACCCCACCCCCAAGTTCTAAGGTCTTTTCAGAGCGTGG 
AGGTGTGGAAGGAGTGGCTGCTCTCCAAACTATGCCAAGGCGGCGGCAGA 
GCTGGTCTTCTGGTCTCCTTGGAGAAAGGTTCTGTTGCCCTGATTTATGA 
ACTCTATAATAGAGTATATAGGTTTTGTACCTTTTTTACAGGAAGGTGAC 
TTTCTGTAACAATGCGATGTATATTAAACTTTTTATAAAAGTTAACATTT 
TGCATAATAAACGATTTTTAAACACTTGTGTATATGATGACACCCGTCTC 
CATTAAGTACTAATGATGCTTTCTCGCACATGGCCGAATTTTGGGAGCTT 
TGGGAAAGTGAACTTGCTTATTCTACGAGAGGGAAATGAAAAACTGCCTG 
GTTGAGAGGGGATGGGGTGGAGAGAGAAGGGTTCATGATGGGAGTCTCAT 
GTCCATTGAGGGATGGGTGCAGAGAAAAGTTCTGGCTCTGCCTCATTATT 
TCAGAGATGAAACCAGAGACTGGTGCAAGCT
>Arabidopsis 
GCCATATTGC TTTCCTCTTT AGCCAAATTG CGTGTTAATA TCCTTCCCGT  
TGCATTTGAT TCTATATCTT GTTTCTGTTT GATTTTTATG CATCTGTCAC  
CTCCATGATA GTTTCTCTTG GTTAATGGCT GAAACAAGTT TAGTTTTGGA  
TAGAGAATCA AAGAGTCTCT TCTTGTTCGT TTGTATCTTT CCTCTTGCGG  
TATATGTTGA AGAACTTTAG GGAAACAAAG TGAATGAAAG CTAAGAGTTT  
TTTTTATGAC CAAAGGCAAA ACAAAAAGTG AAGAATATTC CTTTGGAAAG  
TTTTGAAAGG GAAATACATA TAGGATATTA ACTAGGCGAA TGGAATTTTT  
TCACTCATAC AGAGTCATTT TCTGTATATA TAACTTAGTG ATTGTGAGTT  
CTCATATTGC TTCTATGTAA CACTCCTTGT AAAGCTAAAT AGCCCTTTTG  
TGCTAAGTCT CTGATATCTA TTGTTATCTT CTCAATACTG CACTTGTTCA  
ATGACACTTG CTAGCGATTT TGGTTTTCCA TCCGCTATAT CTTCATCTTT  
TACAATTCTA GAAGAGAGAT ACCACAATAA CTTTCCTAAC ACTTTGTGTG  
TTTCATCAGG ACAGGAATCG ATGAATAACA ACCCCGTCCC CTGTCAGGTG  
TTTCCTCTGG TCTCTGGTGG TAGTTCTGGT GGGAATTTGT TTTCATCTTC  
TTCCGGATTC TGCAATGGTG TCTATGTTTC ATCTTCCTCC CAGGCACGGC  
CATCTGTTTC TACCGTGCCA AGAGACAGAA TTACTGTTGC TCACGTCTCT  
GGTGAAGGGC AGAGGCAGGA ATGCCCTGTG GAAACACATT CCTTGCAATT  
GATCAATCAA CCTCAAGAAC AGAAAATTAT GACTTGGTCT TCAGACCAGA  
TTCGGGGCTT CTTCGATTTT CCTGTTCCAG ATCCACAAGC AGCGAGCAGC  
AGAACTATGG TTTCATCCAA GGAAGTGCTT TCAAAATGCG AATGGCCAGA  
CTGGGCGGAT CAGTTGATCT CTGATGATAG TCTTGAACCA AATTGGTCGG  
AGCTTCTAGG TGATCCTAAT GTACTCAATC TATATTCAAA GGTTCGTTTC  
TTTCAGCTAA ATATGAATCT CTACGCTTAT TTCAGCTAAA TATGATTCTT  
CTATTAAGAC TGACTCTGAT AATGTCTTAC AGATAGAAAC ACAGTCTTCT  
GATATAGCAA GGCAAGAGAT CGTCTTTAGA AATCAGCATC AGGTGGATCC  
ATCAATGGAG CCGTTTAATG CCAAAAGCCC ACCAGCTAGT TCAATGACAT  
CTAAGCAAAG AATGCGTTGG ACACCAGAAC TTCATGAAGC ATTTGTCGAA  
GCTATCAATC AGCTCGGTGG TAGTGAACGT GCGTATGCCC TTTTTTTTTC  
CTTCTCATGC CTGCAAAATT TAGCTGAACA ACTTATTATT ATTCTCTTGG  
CTTATAATTT CAAACCACAG GAGCCACCCC TAAGGCTGTT TTGAAGCTCA  
TCAATAGCCC TGGGTTGACC GTTTATCATG TCAAAAGCCA TTTGCAGGTT  
ACTATTCTCC ATCTATGTTT TCGGTTTGTA TGCTTACAGC TCATCTTAAA  
CGTCTTTATA TTATTGGCTT GTCCAGAAAT ACAGAACTGC AAGGTATAAA  
CCAGAGCTTT CCAAAGATAC AGGTACTTGA GGCATCTAAG GATTCAAACT  
GTCTTCTCAA TATTTCACAT AAGCTTATTA TACTTTGGAA ACATAATGGC  
ATTTAAAAGA CTCTTGTGTG ATGAAACACG TCTTTATACA TAATCAGCTT  
TTCTTCTTGG ACAGAAGAAC CTCTAGTAAA GAATTTGAAA ACCATTGAAG  
ATATCAAATC TCTTGACTTG AAGACGTAAG GAACATTTTA CTTCTCTGTC  
AGAACAGACT AAGTATCACC TAGGATAATA TTTCTTCATA TCTAAGATTT  
TTTTTTTTTA TTCTTCTTCA GGAGCATTGA AATCACTGAA GCTCTCCGGT  
TACAGATGAA AGTTCAAAAA CAACTCCACG AGCAACTTGA GGTATAATAA  
TTCAAACTGC CTAAAAGAAG CTTTTATAAA ACAAAACAGT GTCCTTTCCT  
CTTCATTTGT CTGATTTCTT AGTTTTTGGT TTTAGCTGGT GATTTTGATC  
TTATATTGGT CTTAATACAA TGCAGATCCA AAGATCACTG CAGTTACAAA  
TCGAAGAACA AGGTCGGTAT CTTCAGATGA TGATTGAGAA ACAACAGAAG  
ATGCAAGAGA ACAAAAAAGA CTCTACTTCC TCATCATCAA TGCCAGAAGC  
TGACCCTTCA GCTCCATCAC CAAACCTTTC ACAACCTTTC CTCCATAAAG  
CAACCAATTC AGAACCATCA ATAACTCAGA AACTGCAGAA TGGTTCTAGC  
ACAATGGATC AAAGTGAATC TACTTCTGGG ACTAGTAATA GAAAACGGGT  
TAGAGAAGAT TAGACATCTC ATGAGTATGA TCCAAAGATG TTGCAAACAT  
ATGTAATTGT GTATATAAAA TTGAAAATAT CACAGCAGCA AGAAAATGAA  
AATTTCTTCT TAATGGAGAT GACGTGGACA AATCACTGTC GAGTTGGAAT  
GTTGTCGGCT GATGAGTCAG CAATTTAGAT GACGTGGCTA AAGAACATCC  
TTATTTATGA CGTAATTAAT AATGATCTCT CGAAATGCGT CTTTTCTTCG  
TCTGTTCTAT CTTCTTTACC AATTTCTGCA ATTCTGGAGA AGCTAAAGGT  
CTCAATCTCT CAGTCAAAAA CAAAAGGTCT CTCCTTTATT AAACTATCTA  
TCACTAACTA GAAGAAGAGA TTAGAGGAGG AGGAAGAAGA TGTTGTTTCA  
GGTGGGAGGT GAAGGCACAC GCCCCACCTT CTTTGAGATG GCTGCTGCTC  
AGCAACTTCC TGCTAGCCTT CGCGCCGCTC TCACCTATTC CCTCGGCGTA  
TAATGCCCTT CTC
Pasos:

Existen varios servidores de predicción de genes. Cada uno de ellos basa la busqueda en propiedades o algoritmos diferentes generando en ocasiones resultados distintos. En general es conveniente consultar a varios de ellos para tener una idea clara de la estructura génica de la secuencia.

  1. Vemos si hay evidencias de transcripción de algún fragmento de nuestra secuencia. Para ello usaremos la herramienta de BLAST contra una base de datos de EST (expresed sequence tag). Generalmente son fragmentos pequeños de genes. En esta búsqueda nos interesará el mejor alineamiento posible de la sequencia de EST con nuestra secuencia del gen. Lo ideal es encontrar un EST que alinee con nuestro gen con un valor de e-value muy muy bajo.
    - Entramos en la pagina web del Blast del NCBI y pinchamos en "Standard nucleotide-nucleotide BLAST [blastn]
    - Copiamos nuestra secuencia y la pegamos en la caja de "search"
    - Elegimos la base de datos de "est" en el apartado "Choose database". En el caso de la secuencia de humano, elegimos la de ESTs de humanos
    - El resto se deja como está y pulsamos "BLAST!"
    Después de un rato debería salir un resultado semejante a este
  1. Vemos si hay evidencias de transcripción de algún fragmento de nuestra secuencia.
    Seguimos los mismos pasos que los descritos para la secuencia humana, aunque en éste caso la base de datos seleccionada debe ser "est" o "est-others". Después de un rato debería salir un resultado semejante a este

¿Qué podemos deducir de este resultado?
¿Qué significan, en el gráfico, las líneas negras discontinuas que vemos entre las lineas rojas?
¿Sería suficiente con este resultado para conocer la estructura génica de nuestra secuencia?
  1. El número de ESTs producidos en estos últimos años ha sido enorme y en algunos casos podrían cubrir el genoma entero. Aunque podamos haber solucionado nuestro problema con un simple blast contra EST, hacemos trabajar a los siguientes servidores para que nos den su visión de la disposición de los exones, intrones y promotores.


  1. Hacemos trabajar a algún otro servidor para que nos den su visión de la disposición de los exones, intrones y promotores.
Con estos resultados, ¿podemos hacernos una idea de dónde están mis exones en la sequencia?
Para esto lo mejor es coger una hoja e ir dibujando de forma orientativa la localización de los exones por cada programa.
¿Hay diferencias entre lo que nos indica el alineamiento con EST y lo que nos dan los diferentes programas?
¿Hay diferencias entre los programas?
  1. Usaremos Proscan para buscar posibles promotores.
    ¿Hay algún promotor interesante? results.
  1. Usaremos Proscan para buscar posibles promotores.
    ¿Hay algún promotor interesante? results.
  1. Ahora vamos a repetir el proceso en un metaserver. Los metaservers son servidores que utilizan varias aplicaciones sobre la secuencia que le demos. En algunos casos devuelven los resultados de todos los servidores a los que han consultado y en otros integran las respuestas en un único resultado.
    Vamos a METAGENE
    • Escribimos nuestro correo electrónico en el campo correspondiente. No es obligatorio pero si conveniente
    • Insertamos la secuencia en "Sequence"
    • Pasamos a Sequence analysis options - Orientation y Fetures: todo seleccionado
      - Engine Select: todo seleccionado
      - Ebest: Human y Both seleccionados
      - GeneFinder: FGENE y Human seleccionado
      - GeneID: Human seleccionado
      - GeneMark: H.sapiens W size 96 Threshold 0.5 ORFs y Regions seleccionado
      - Genei: Human or other seleccionado
      - GeneScan: Vertebrate seleccionado
      - Genview: Human seleccionado
      - Grail: Human seleccionado
      - Nnpp: Eukaryote seleccionado
      - ProScan: ---
    • Submit
  2. Para ver los resultados hacemos click en el enlace "Current Search Results". Esto nos llevará a una página donde tendremos la oportunidad de ver el resultado de cada servidor en detalle. Lo más conveniente es apretar donde pone "click here to annotate the results" Esto nos abre una ventana donde compara los resultado de todos los servidores. En el menu pinchamos en tools y seleccionamos analysis y luego statistics.
    ¿Vemos algo nuevo?
    Fijarse en lo que dice Ebest.
Nota: GeneBuilder también es una herramienta muy compoleta de análisis. No consulta a varios predictores de genes pero si busca ESTs y tiene un entorno gráfico con mucha información. Es sencillo e intuitivo, prueba a usarlo con este ejemplo en el día de la práctica libre.
  1. Metaserver
    Vamos a METAGENE
    • Escribimos nuestro correo electrónico en el campo correspondiente. No es obligatorio pero si conveniente
    • Insertamos la secuencia en "Secuence"
    • Pasamos a Sequence analysis options - Orientation y Fetures: todo seleccionado
      - Engine Select: quitamos geneID y geneview
      - Ebest: Others y Both seleccionados
      - GeneFinder: FGENE y Plant seleccionado
      - GeneMark: A.thaliana W size 96 Threshold 0.5 ORFs y Regions seleccionado
      - Genei: Human or other seleccionado
      - GeneScan: Arabidopsis seleccionado
      - Grail: Arabidopsis seleccionado
      - Nnpp: Eukaryote seleccionado
      - ProScan: ---
    • Submit
  2. Para ver los resultados hacemos click en el enlace "Current Search Results". Esto nos llevará a una página donde tendremos la oportunidad de ver el resultado de cada servidor en detalle. Lo mas conveniente es apretar donde pone "click here to annotate the results" Esto nos abre un ventana donde compara los resultado de todos los servidores. En el menu pinchamos en tools y seleccionamos analysis
    ¿Vemos algo interesante?
  1. Otras cosillas que podemos mirar en la secuencia son los posibles codones de iniciación. AUG evaluator.
    Simplemente elegimos la especie e insertamos la secuencia en el campo correspondiente. (res)
    ¿Hay algún codon de iniciación excelente? (res)
    ¿Dónde está el mejor codon de iniciación y a que valor de threshold lo encontramos? (res)
    ¿Concuerda con nuestro análisis?


  2. Yá lo último: ¿Se puede detectar alguna isla GpC que coincida con el principio del gen?

Manuel José Gómez Rodriguez y Ramón A-Allende