PRACTICA DE ANALISIS Y COMPARACION DE GENOMAS

J. Tamames, Ramón A.-Allende y M. Gómez

1 HERRAMIENTAS PARA EL ANALISIS DE GENOMAS: GeneQuiz

GeneQuiz: es un sistema automático que mantiene bases de datos de genomas anotados. Tambien permite a usuarios externos el enviar secuencias para su análisis, desde una interfaz web (como ésta).
Los resultados que obtenemos en GeneQuiz al analizar una secuencia pueden verse en los dos siguientes ejemplos:

Ejemplo1 Ejemplo2

También podemos examinar los resultados de los análisis de genomas realizados con GeneQuiz.

2 HERRAMIENTAS PARA LA COMPARACION DE GENOMAS

En esta parte visitaremos alguno de los servidores que nos permiten realizar comparaciones entre varios genomas. Entre los mas interesantes se encuentran:

MGDB, Microbial genome database. Este servidor nos permite encontrar los genes/proteinas homológos al nuestro en otros genomas, y comparar facilmente su posicion y características.

Realizaremos el siguiente ejercicio:

En la página de entrada del servidor, en el recuadro donde se nos pide el nombre del gen, introduciremos ftsA. Este gen esta ampliamente distribuido en bacterias, formando parte de un cluster o agrupamiento de proteínas implicadas en la division celular. Tras pulsar 'Exec', nos aparece la lista de genes homologos a ftsA en los distintos organismos. Podemos inspeccionar cada una de ellas pulsando en cada enlace, y entrar a la parte comparativa mediante el botón 'Create form', y pulsar 'Cluster' en la página nueva que aparece. Esto nos da un mapa comparativo de los genes encontrados. Podemos pulsar en las letras'M' enmarcadas en amarillo para ver un mapa comparativo de todos los organismos.

KEGG. Este servidor posee realmente mucha información, y ademas muy util (las dos cosas no siempre van unidas). Es un servidor de datos de metabolismo, genomas completos, genes homólogos entre genomas, genes relacionados con enfermedades, etc.

Ejercicios:

Uso de la información de clusters, grupos de genes conservados entre genomas. Abrimos KEGG ('Open KEGG'), y en el menu de opciones que aparece, seleccionamos 'Identify gene clusters in two genomes' en el apartado 2-1. Seleccionamos 'Escherichia coli' como primer organismo, y 'Rickettsia prowazekii' como segundo. Esto nos hallará las regiones de genes conservados entre esos dos organismos. Cambiamos además el número de genes que permitimos que se intercalen en el cluster, poniendo '3' en ambos recuadros de 'Specify maximum gaps between genes'. Tras pulsar 'Exec', nos aparece una página en la que seguiremos el enlace que nos lleva a los primeros 10 clusters: 'Gene Cluseters: 1 - 10'. El tercer cluster muestra un grupo de tres genes conservados entre las dos bacterias. Entre ellos hay un par de genes (b0083-RP568) que no presentan homología entre si. La primera es la proteina ftsL, implicada tambien en división celular. Sobre la segunda no se conoce nada. De acuerdo a la información posicional y a la conservación del cluster en otros organismos (si se quiere comprobar, lanzar E. coli contra H. influenzae o contra B. subtilis), se puede proponer que RP568 cumple la función de ftsL.

Uso de la información metabólica: Volvemos atras, hasta el menu de opciones, y en el apartado 1-1, seleccionamos 'Metabolic pathways', y despues 'Glycolysis'. Nos aparece el mapa consenso de la glicólisis. Seleccionamos ahora 'Pyrococcus abysii' y pulsamos 'Exec'. Vemos que este organismo posee la parte baja de la glicólisis salvo la enzima 5.4.2.1 (Fosfoglicerato mutasa). Esta enzima no ha sido identificada en el conjunto de genes de este organismo, pero evidentemente debe existir para que funcione la glicólisis. Una de las proteínas no identificadas debe llevar a cabo esta actividad.

NCBI: El último servidor a visitar sera el del NCBI, otro repositorio de información muy completo, que incluye todo tipo de informacion genómica, software, etc.

Ejercicio:

Vamos a utilizar COGs (Cluster of Orthologous Groups). El enlace se encuentra a la derecha de la pagina. Esta es una base de datos de genes/proteínas homólogos (ortólogos) entre diferentes genomas. Por ejemplo, podemos introducir ftsA en el recuadro que nos pregunta 'gene name' y observar la distribución de este gen en los diferentes genomas. Esta información se puede usar para decubrir patrones anormales de distribución filogenética, que puedan dar pistas sobre la presencia de determinado gen no identificado, o sobre eventos evolutivos de interes.

Pulsar ahora en 'Phylogenetic patterns'. Esto nos da la lista de distribución de los grupos en las especies (Cada especie es una letra, de acuerdo a la clave de la primera página. los taxones superiores son: A=Arqueas, B=Bacterias, E=Eucariotas). Algunas distribuciones inusuales señalan casos interesantes. Por ejemplo, entre las proteínas universalmente conservadas (AEB), aparece una distribución . Pinchamos en la linea en la que aparecen todas las especies (la primera). Pinchando en una de las especies de la linea de phy (letras en rojo) obtenemos los COGs con representantes en todas las especies marcadas menos en la que hemos pinchado. Pinchamos en la x. Esto quiere decir que alguno de estos grupos, correspondientes a proteínas universales, no aparece en Rickettsia prowazekii. En este caso, vemos que estas ausencias corresponden a proteínas de glicólisis. Rickettsia es un parásito (provoca el tifus), y no necesita la glicólisis ya que aprovecha las capacidades energéticas del organismo parasitado.

Con este ejercicio acabamos la práctica. Si nos sobra tiempo, podemos visitar de modo libre los sitios que hemos conocido hoy.