Práctica: acceso a GenBank y EMBL a traves de Internet y FTP.
Manuel J. Gómez, CNB
Objetivo: conseguir de las bases de datos GenBank y EMBL-EBI la secuencia
del genoma de Mycoplasma pneumoniae (es de los más pequeños),
en formatos FASTA, GenBank y EMBL, así como las secuencias de todas
las proteínas codificadas en el genoma.
Acceso al servidor del NCBI mediante FTP
Por linea de comandos.
-
Abrir una consola y ejecutar los siguientes comandos:
-
ftp
-
open ftp.ncbi.nih.gov
-
Como login, usar "anonymous"
-
Como password, usar vuestra direccion de e-mail
-
Entraremos en el directorio raiz del servidor FTP del NCBI.
-
Seguimos ejecutando comandos:
-
ls (para hacer un listado)
-
cd genomes
-
cd Bacteria
-
ls
-
get README (para bajarnos un fichero con información sobre el directorio)
-
cd Mycoplasma_pneumoniae
-
ls
-
Debieran aparecer varios ficheros, cuyos nombres contienen el número
de acceso del genoma NC_000912.
-
get NC_000912.gbk (para bajarse la entrada completa en formato GenBank).
-
get NC_000912.fna (para bajarse la secuencia en formato FASTA).
-
get NC_000912.ptt (para bajarse una tabla con las coordenadas de todas
las ORFs, la Protein Translation Table).
-
get NC_000912.faa (para bajarse un fichero con la traducción de
todas las ORFs, en formato FASTA).
-
bye (para cerrar la conexion)
-
Los ficheros que nos hemos bajado debieran estar en nuestro directorio
personal y estar en formato texto.
Mediante un Browser.
-
Abrir Netscape o similar y usar la dirección: ftp://ftp.ncbi.nih.gov/
-
Se abrirá el directorio raiz del sitio FTP del NCBI.
-
El browser permite moverse por la jerarquía de directorios, y podríamos
hacer lo mismo que lo descrito anteriormente, pero en un entorno gráfico.
Acceso al servidor del NCBI a través de Internet.
-
Abrir Netscape o similar y conectarse al servidor del NCBI, en la dirección:
http://www.ncbi.nlm.nih.gov/
-
Conectarse a Entrez, el interfaz gráfico del NCBI a sus bases de
datos, entre ellas, GenBank.
-
Seleccionar Protein
-
Introducir el número de acceso del genoma de Mycoplasma pneumoniae,
que es NC_000912, y pulsar GO.
-
Ooooooops; el codigo corresponde a una secuencia de nucleótidos.
-
Mejor seleccionar Nucleotide
-
Introducir el nombre Mycoplasma pneumoniae y pulsar GO.
-
Ooooops otra vez; aparecen más de 500 entradas en las que la expresión
Mycoplasma pneumoniae está contenida. Uno de ellas es el genoma
completo. En vez de buscarla, intentémoslo otra vez.
-
Introducir el número de acceso del genoma de Mycoplasma pneumoniae
(NC_000912) y pulsar GO.
-
Aparecerá en pantalla la entrada correspondiente al genoma de Mycoplasma
pneumoniae, en formato Summary (sólo el numero de accesofSeq, y
una breve descripción).
-
Es posible escojer otras formas de visualización (con bastante
más información), con el menú de Display.
-
Informacion taxonómica de Mycoplasma pneumoniae, con Taxonomy Links.
-
Referencias bibliográficas con PMC Links y PubMed Links.
-
Secuencia en formato FASTA, con FASTA.
-
Entrada completa en formato GenBank, con GenBank.
-
Al pasar a la vista en formato GenBank cambian las opciones de visualización
del menú Display.
-
Ahora es posible visualizar un mapa lineal del genoma, sobre el que se
puede hacer zoom, con la predicción de ORFs, seleccionado Graphics.
-
Sobre el mapa, se puede seleccionar el enlace Protein coding genes, con
lo que aparece el fichero con las coordenadas de todas las ORFs (Protein
Translation Table).
-
Lista de entradas de proteínas Mycoplasma pneumoniae de en la base
de datos, con ProteinLinks.
-
Al pasar a la vista en formato Protein Links también cambian las
opciones de visualización.
-
Ahora es posible seleccionar el formato FASTA, para visualizar todas las
secuencias de aminoacidos de los peptidos predichos.
-
Una vez en pantalla cualquiera de los formatos de visualización,
es posible salvarlo localmente con las opciones:
-
File-Save as-Text o File-Save as-Source, del browser.
-
Send to - File, de la página de Entrez.
-
Send to - Text, de la página de Entrez, seguido de File-Save as-Text
o File-Save as-Source, del browser.
-
Ahora seleccionar Genome
-
Introducir el nombre Mycoplasma pneumoniae y pulsar GO.
-
Aparecen 13 entradas que contienen la expresión Mycoplasma pneumoniae.
Una de ellas es el genoma que buscamos.
-
Picar con el cursor sobre el número de acceso (NC_000912).
-
Entramos en la página de Mycoplasma pneumoniae de la sección
de genomas de GenBank, en la que encontramos información sobre:
-
Números de acceso alternativos
-
Sitio FTP para bajarse ficheros de secuencia
-
Tablas con las coordenadas de todas las ORFs y los genes de RNAs estructurales
(tRNAs y rRNAs)
-
Enlaces a familias de genes homólogos.
-
Listas de proteinas similares a otras con estructura conocida
-
Otra posibilidad: seleccionar el enlace Microbial, en la columna
de la derecha, donde dice Related resources.
-
Aparece una tabla con un sumario de los genomas bacterianos disponibles
desde esta base de datos, y una colección de enlaces para acceder
a:
-
entradas en formato GenBank
-
Protein translation tables
-
Secuencia en formato fasta
-
Familias de genes homologos.
Acceso al servidor de bases de datos del EMBL a través de
Internet.
-
Abrir Netscape o similar y conectarse al servidor del EMBL, en la dirección:
http://www.ebi.ac.uk/Databases/index.html
-
Pulsar en el enlace de Nucleotide Databases; despues en el de Genomes
server.
-
Seleccionar el enlace a Bacterias.
-
Aparece una tabla con un sumario de los genomas bacterianos disponibles
desde esta base de datos.
-
Buscar Mycoplasma pneumoniae.
-
Seleccionando el enlace sobre el número de acceso U00089
nos traemos la entrada completa del genoma, en formato EMBL.
-
Seleccionando sobre el enlace de la última columna, nos traemos
todas las proteínas en formato FASTA.
Acceso al servidor de bases de datos del EMBL mediante FTP
Abrir Netscape o similar y conectarse al servidor del EMBL, en la dirección:
http://www.ebi.ac.uk/Databases/index.html
Pulsar en el enlace de la pestaña Downloads; despues
en el de Databases.
El browser permite moverse por la jerarquía de directorios, y se
puede seguir la pista: genomes/bacteria/mpneumoniae/U00089.embl