ANÁLISIS Y ANOTACIÓN DE GENOMAS.

Esta sección está basada en parte en una clase diseñada por Javier Tamames para previos cursos de doctorado de Bioinformática

3  BASES DE DATOS Y COMPARACIÓN
 

  • BASES DE DATOS GENÓMICAS
  • Varios grandes centros dedicados a la bioinformática proporcionan acceso las bases de datos públicas dedicadas a facilitar información sobre secuencias genómicas. A continuacion se presentan los enlaces a algunos de ellos:
  • NCBI: Este es un gran conjunto de información biológica que comprende bases de datos de nucleótidos (GenBank), de proteínas, de informacion bibliografica (Medline) y tambien genomas. Para acceder a la sección de genomas, entrar primero en Entrez y, después, seleccionar Genome.
  • TIGR Databases: El instituto que llevó a cabo la secuenciación de los primeros genomas, posee un catálogo de los genomas secuenciados con enlaces a los análisis de cada uno de ellos.
  • Completed genomes at EBI: sitio del European Bioinformatics Institute.
  • The Wellcome Trust Sanger Institute, que, como TIGR, ha participado activamente en la secuenciación de muchos genomas.
  • Ensembl, genomas eucariotas
  • SGD, Saccharomyces Genome Database, levadura.
  • FlyDB, dedicada a Drosophila.

  •  
    El Instituto Pasteur mantiene varias bases de datos específicas de ciertas bacterias, que se muestran a continuación. Todas tienen una interfaz gráfica parecida, bien diseñada y fácil de usar. Además de poder extraer información sobre genes y de mostrarla en forma gráfica, se tiene la posibilidad de hacer búsquedas de motivos para, por ejemplo, identificar sitios de unión de proteínas reguladoras (mediante la opcion "Search Pattern").
  • Subtilist, Bacillus subtilis.
  • Colibri, Escherichia coli
  • Tuberculist, Mycobacterium tuberculosis
  • MypuList, Mycoplasma pulmonis
  • Leproma, Mycobacterium leprae
  • BASES DE DATOS ESPECIALIZADAS EN GENÓMICA COMPARATIVA
  • Aunque la genómica comparativa es la base la transferencia de función por homología y por sintenia, existen otras maneras de extraer conocimiento de la comparación de genomas.

    Estos nuevos y muy importantes aspectos del análisis de genomas no eran posibles solo hace unos años, por la inexistencia de genomas completamente secuenciados, que hacia que las comparaciones a menudo fuesen incorrectas.

    Así como las herramientas que hemos visto hasta ahora iban principalmente encaminadas a predecir la función de nuestras secuencias, las comparaciones nos ofrecen informaciones adicionales: pertenencia a familias conocidas, perfil filogenético (presencia en otros organismos), pertenencia a operones o clusters de genes (genes que se presentan agrupados en diferentes organismos, lo que a menudo tiene implicaciones funcionales), etc. La información comparativa puede incluso ayudarnos a predecir la función para ORFs de funcion desconocida en el organismo que analizamos: comparando diversos organismos podemos conocer aquellos genes/proteínas que realicen funciones esenciales y que no hayan sido descubiertas en este. Las bases de datos de metabolismo son de considerable ayuda en este punto. La información posicional tambien es muy importante: la función de algunos ORFs puede conocerse de acuerdo a su vecindad con ORFs de función conocida, si esta disposición esta conservada en diferentes organismos.

    Algunas bases de datos especialmente orientadas al estudio comparativo de genomas son:

  • COGs. Esta base de datos del NCBI consiste en unas 2800 familias de proteinas conservadas o COGs, que contienen grupos de proteínas ortólogas. Por definición, dos proteínas, o genes, son ortólogos si han evolucionado a partir de un mismo ancestro. Tipicamente, genes o proteinas ortólogas tienen la misma función; no tiene por que ocurrir lo mismo entre genes o proteínas parálogas, que en vez de haber sido originadas por especiación (divergencia entre especies), han sido originadas por duplicación de un gen y posterior evolución hasta, a veces, desarrollar una nueva funcionalidad. Dado que cada COG incluye proteinas de organismos filogenéticamente muy diversos, este sitio es especialmente útil para asignar función a proteínas que no muestran un grado significativo de similaridad con otras proteínas. Para ello, el usuario tiene la posibilidad de enviar secuencias a traves del interfaz COGnitor, que serán analizadas y asignadas a alguno de los COGs existentes. Otras herramientas disponibles en COGs permiten analizar la distribución de genes en genomas (Phylogenetic patterns) o analizar semejanzas entre genomas mediante análisis de componentes principales.
  • KEGG. Esta es la Kyoto Enciclopedia of Genes and Genomes, y está centrada fundamentalmente en la comparación de genomas en cuanto a su capacidad para codificar diferentes rutas metabólicas. El usuario puede obtener mapas metabólicos e identificar qué enzimas están presuntamente codificadas por un genoma en concreto. Otro tipo de análisis posible con KEGG es la identificación de clusteres de genes (o grupos de genes consecutivos) conservados entre dos especies.
  • MBGD. La Microbial Genome Database es otro sitio muy util para identificar genes o proteinas homólogas, en varios genomas.
  • PEDANT es un sistema para análisis de genomas. Aunque no es accesible desde el exterior (no podemos analizar nuestras secuencias), si podemos examinar los análisis ya realizados para gran cantidad de organismos, incluso algunos aun no completos.
  • STRING. Es una base de datos en la que se integran predicciones sobre interacciones funcionales, basadas en tres técnicas que hacen uso de comparación de genomas: conservación del contexto génico, fusiones génicas y perfiles filogenéticos.
  •