GeneQuiz: es un sistema automático que mantiene bases de datos de genomas anotados. Tambien permite a usuarios externos el enviar secuencias para su análisis, desde una interfaz web (como ésta).Los resultados que obtenemos en GeneQuiz al analizar una secuencia pueden verse en los dos siguientes ejemplos:
También podemos examinar los resultados de los análisis de genomas realizados con GeneQuiz.Ejemplo1 Ejemplo2
2 CONSULTAS EN SUBTILIST. BÚSQUEDA DE MOTIVOS
Nos conectamos a SubtiList,
la base de datos del Instituto Pasteur sobre Bacillus subtilis.
SigB es el gen que codifica para el factor Sigma B, subunidad de la RNA polimerasa que controla la expresión de un cierto número de genes, en respuesta a condiciones de estres. Sigma B determina el reconocimiento de promotores con la secuencia consenso: -35 (AGGTTT) y -10 (GGGTAT).Para intentar identificar genes, en B. subtilis, controlados por Sigma B vamos a utilizar la opción "Search Pattern", en el panel de la izquierda.
Completamos algunos de los campos que aparecen en el panel superior derecho:
¿Cuantos genes aparecen?1st Part: AGGTTT. Number of mismatch: 1. Number of letters; min: 15 - max: 17 (puede ser una buena distancia entre las cajas -35 y -10). 2nd Part: GGGTAT. Number of mismatch: 0 (normalmente está mejor conservada la caja -10). Especificamos entonces que queremos ocurrencias en regiones intergénicas, de todo el genoma, y presionamos en "Submit".
Sería interesante probar con numeros diferentes de mismatches y de distancias entre las cajas -10 y -35.
Para hacernos ahora una idea del número de genes anotados como dependientes de Sigma B, volvemos al panel de la izquierda, y en el campo "Free text", escribimos "sigma-B". Presionamos después "Search".En el panel superior derecho apareceá una lista de genes, cuyas entradas contienen la palabra "sigma-B". Haciendo click en los nombres de los genes aparece su anotación en el panel inferior.
¿Son TODOS los genes dependientes de Sigma B?
Además de la anotación, el panel inferior ofrece la posibilidad de producir un mapa de la región, o producir una lista, que contiene el gen. Tambien se puede obtener la secuencia del gen o de la proteína seleccionada.
Prueba estas opciones.
Intenta buscar otros motivos u otros genes.
Las mismas opciopnes están disponibles en las otras bases de datos del Instituto Pasteur.
3 ENSEMBL: BUSQUEDA MEDIANTE BLAST Y CONSULTAS
Usando ENSMBL, vamos a intentar confirmar el modelo para un gen humano que hemos producido anteriormente, en la práctica de Detección y Modelado de Genes.
Nos conectamos a ENSMBL, la base de datos de genomas eucariotas del EBI. Seleccionamos "Human" y, en la siguiente página, "Blast".
Abrimos otra ventana con la página de la práctica de Detección y Modelado de Genes (esta), y copiamos la secuencia de DNA. La pegamos en la ventana para hacer búsquedas de Blast con ENSMBL, y presionamos "Search". Aparece una ventana que permite recuperar los resultados. Pueden tardar un poco. En el resultado, aparece una lista de las secuencias parecidas encontradas, debajo del esquema del complemento cromosomal humano. Las secuencias más parecidas debieran estar mapeadas sobre un cromosoma, con una caja roja. Poniendo el ratón sobre la caja roja, podemos obtener:
- Los alineamientos.
- La "ContigView"
El la ContigView aparecen tres paneles:
- Localización sobre el cromosoma
- Vista de la región (Overview).
- Vista detallada.
En el panel de Vista Detallada, una linea representa la posición de los Blast Hits. Haz zoom en esa ventana, manteniendolos centrados.
Podrás entonces identificar el nombre del gen.
Pasando el cursor sobre el icono del gen podrás entonces, entre otras cosas:
- Obtener información sobre los transcritos predichos y compara con el modelo que propusimos anteriormente.
- Obtener información sobre la proteína.
- Obtener información de apoyo ("Supporting evidence") de la estructura del gen, en cuanto a cDNAs o ESTs que corresponden con la zona.
Si en la parte superior de la Vista Detallada presionas "Export - Gene List", tendras la opción de obtener una lista con información sobre la región, en cuanto a
- Genes conocidos
- Genes relacionados con enfermedades
- Homólogos en ratón
- SNPs
- y más.
4 HERRAMIENTAS PARA LA COMPARACION DE GENOMAS
En esta parte visitaremos alguno de los servidores que nos permiten realizar comparaciones entre varios genomas.
Entre los mas interesantes se encuentran:
Realizaremos el siguiente ejercicio:
- En la página de entrada del servidor, en el recuadro donde se nos pide el nombre del gen, introduciremos ftsA. Este gen esta ampliamente distribuido en bacterias, formando parte de un cluster o agrupamiento de proteínas implicadas en la division celular. Tras pulsar 'Exec', nos aparece una lista de genes homologos a ftsA en distintos organismos. Podemos inspeccionar cada una de los genes pulsando en cada enlace, y entrar a la parte comparativa mediante el botón 'Create form', y pulsar 'Cluster' al final de la nueva página que aparece. Esto nos da una tabla de los genes encontrados. Dicha tabla podría tener más de una fila si se hubiera detectado más de una familia de proteínas. Pulsando en las letra 'M' que hay al principio de la tabla, enmarcada en amarillo, se produce un mapa comparativo de todos los organismos. Seleccionando "Draw cluster tree", y habiendo seleccionado una de las familias (si existe), se producirá un dendrograma que resume la relación entre los distintos homólogos.
Ejercicios:
- Uso de la información de clusters, grupos de genes conservados entre genomas. Abrimos KEGG ('Open KEGG'), y en el menu de opciones que aparece, seleccionamos 'Identify gene clusters in two genomes' en el apartado 2-1. Seleccionamos 'Escherichia coli' como primer organismo, y 'Rickettsia prowazekii' como segundo. Esto nos hallará las regiones de genes conservados entre esos dos organismos. Cambiamos además el número de genes que permitimos que se intercalen en el cluster, poniendo '3' en ambos recuadros de 'Specify maximum gaps between genes'. Tras pulsar 'Exec', nos aparece una página en la que seguiremos el enlace que nos lleva a los primeros 10 clusters: 'Gene Cluseters: 1 - 10'. El tercer cluster muestra un grupo de tres genes conservados entre las dos bacterias. Entre ellos hay un par de genes (b0083-RP568) que no presentan homología entre si. La primera es la proteina ftsL, implicada tambien en división celular. Sobre la segunda no se conoce nada. De acuerdo a la información posicional y a la conservación del cluster en otros organismos (si se quiere comprobar, lanzar E. coli contra H. influenzae o contra B. subtilis), se puede proponer que RP568 cumple la función de ftsL.
- Uso de la información metabólica: Volvemos atras, hasta el menu de opciones, y en el apartado 1-1, seleccionamos 'Metabolic pathways', y despues 'Glycolysis'. Nos aparece el mapa consenso de la glicólisis. Seleccionamos ahora 'Pyrococcus abysii' y pulsamos 'Exec'. Vemos que este organismo posee la parte baja de la glicólisis salvo la enzima 5.4.2.1 (Fosfoglicerato mutasa). Esta enzima no ha sido identificada en el conjunto de genes de este organismo, pero evidentemente debe existir para que funcione la glicólisis. Una de las proteínas no identificadas debe llevar a cabo esta actividad.
Ejercicio:
- Vamos a utilizar COGs (Cluster of Orthologous Groups). El enlace se encuentra a la derecha de la página a la que se accede después de marcar "Entrez" y "Genomes". Esta es una base de datos de genes/proteínas homólogos (ortólogos) entre diferentes genomas.
Por ejemplo, podemos introducir ftsA en el recuadro que nos pregunta 'gene name' y observar la distribución de este gen en los diferentes genomas. Esta información se puede usar para decubrir patrones anormales de distribución filogenética, que puedan dar pistas sobre la presencia de determinado gen no identificado, o sobre eventos evolutivos de interes.Si desde la misma página marcamos "Gene context" obtenemos una idea de la conservación del vecindario del gen en distints genomas.
- Pulsar ahora en 'Phylogenetic patterns', desde la págima principal de COGs. Esto nos da la lista de distribución de los grupos en las especies (Cada especie es una letra, de acuerdo a la clave de la primera página. los taxones superiores son: A=Arqueas, B=Bacterias, E=Eucariotas). Algunas distribuciones inusuales señalan casos interesantes.
Por ejemplo, entre las proteínas universalmente conservadas (AEB), aparece una distribución . Pinchamos en la linea en la que aparecen todas las especies (la primera). Pinchando en una de las especies de la linea de phy (letras en rojo) obtenemos los COGs con representantes en todas las especies marcadas menos en la que hemos pinchado. Pinchamos en la x. Esto quiere decir que alguno de estos grupos, correspondientes a proteínas universales, no aparece en Rickettsia prowazekii. En este caso, vemos que estas ausencias corresponden a proteínas de glicólisis. Rickettsia es un parásito (provoca el tifus), y no necesita la glicólisis ya que aprovecha las capacidades energéticas del organismo parasitado.
Con este ejercicio acabamos la práctica. Si nos sobra tiempo, podemos visitar de modo libre los sitios que hemos conocido hoy.