Modelado por homología.

Paulino Gómez-Puertas (CAB)

Cuando una secuencia de estructura desconocida tiene un homologo claro de estructura conocida se puede modelar basandose en esta estructura. Si la homología es alta y el alineamiento es bueno, las regiones con estructura secundaria (core de la proteina) no suelen tener problemas a la hora de modelarse, para ellas se toman las coordenadas del esqueleto y los Cb de la estructura molde. Para las regiones loop se usan distintas aproximaciones dependiendo del programa. Para las cadenas laterales se usan librerias de rotámeros y dinámica molecular o minimización de energía.

SWISS-MODEL.

[Acceso]

Evaluación de modelos.

Una vez generado un modelo tridimensional de una proteina por alguno de los métodos descritos antes existen varios programas que evaluan la "calidad" de ese modelo basandose en distintos conceptos.

Biotech suite.

[Información]

[Enviar input]

Solv_Pref.

solv_pref

ProSA. (M. Sippl)

Utilidad del Servidor de SWISS-MODEL para el Modelado por Homología de Estructuras 3D a Partir de la Sequencia Lineal de Aminoácidos.

Ejemplo.

En esta página mostraremos la secuencia de pasos a seguir en el servidor web del programa SWISS-MODEL para conseguir una primera aproximación al modelo 3D de una secuencia problema dada. El link al servidor general de SWISS-MODEL esta en: Swiss-Model.

Introducimos la sequencia problema.

Partimos de una secuencia aminoacídica lineal, por ejemplo:

>secuencia-problema

MSKVPRNFRL LEELEKGEKG FGPESCSYGL ADSDDITMTK WNGTILGPPH SNHENRIYSL
SIDCGPNYPD SPPKVTFISK INLPCVNPTT GEVQTDFHTL RDWKRAYTME TLLLDLRKEM
ATPANKKLRQ PKEGETF

Una vez que tenemos la secuencia que queremos analizar, debemos introducirla en el programa SWISS-MODEL a través de su servidor web, accesible en la red. En este servidor debemos introducir además de la secuencia, nuesta dirección de "mail", nuestro nombre, y un título para el proceso SWISS-MODEL (First Approach mode).

Recepción en nuestro mail de un mensaje confirmatorio.

Si el proceso ha comenzado sin ningún problema recibiremos un mensaje por mail donde, a parte de otras informaciones, están recogidos la fecha, el título de la búsqueda y el código de identificación de nuestro proceso. Como ejemplo de este mensaje sería... Acceso al mail de ejemplo..

Recepción de un mail con los distintos procesos seguidos por SWISS-MODEL.

El segundo mensaje que recibimos desde el servidor de mail presenta una descripción abreviada de los procesos seguidos por el programa SWISS-MODEL (e.g. Acceso al mail de procesos.). En realidad el programa SWISS-MODEL es el resultado de un conjunto de subprocesos, o programas más pequeños, los cuales son aplicados de forma secuencial.
Diferenciaremos cada uno de los pasos seguidos por SWISS-MODEL utilizando como referente el mail de procesos:

SWISS-MODEL realiza una búsqueda por homología de secuencia en una base de datos de secuencias de estructura conocidas, el programa utilizado es "BLASTP2" y la base de datos consultada "ExNRL-3D". Los resultados se muestran ordenados por la puntuación P(N) del BLAST:

     AlignMaster output
     ============================================================
     
     Length of target sequence: 137 residues
     
     Searching sequences of known 3D structures
     Found 12UCE.pdb with P(N)=5.0e-12
     Found 11AYZ.pdb with P(N)=1.2e-08
     Found 11AAK.pdb with P(N)=5.3e-08
     Found 12AAK.pdb with P(N)=5.3e-08
     Found 11UCZ.pdb with P(N)=1.1e-07
     Found 12UCZ.pdb with P(N)=1.1e-07
     Found 11A3S.pdb with P(N)=1.0e-05

Con el programa "SIM" Se seleccionan todos los "moldes" (estructuras 3D sobre las que nos basaremos para hacer nuestro modelo) con una identidad de secuencia superior al 25% y con una región alineada superior a 20 residuos. Adicionalmente, este programa detecta los posibles distintos dominios que debieran ser modelados a partir de moldes estructurales diferentes. Este proceso queda recogido del siguiente modo...

     Extracting template sequences
     
     Running pair-wise alignments with target sequence
     Sequence identity of templates with target:
     
     12UCE.pdb: 22.85 % identity
     11AYZ.pdb: 27.8 % identity
     11AAK.pdb: 17.15 % identity
     12AAK.pdb: 17.15 % identity
     11UCZ.pdb: 29.6 % identity
     12UCZ.pdb: 29.6 % identity
     11A3S.pdb: 22.5 % identity
     
     Looking for template groups
     Global alignment overview:
     
     Taget Sequence: |====================================================================|
     12UCE.pdb       |                  -------------------------------------------------
     11AYZ.pdb       |                    ------------------------------------------------
     11AAK.pdb       |               -----------------------------------------------------
     12AAK.pdb       |               -----------------------------------------------------
     11UCZ.pdb       |                 --------------------------                        
     12UCZ.pdb       |                 --------------------------                        
     11A3S.pdb       |                 --------------------------------------------------
     
     AlignMaster found 1 regions to model separately:
             1: Using template(s)   11A3S.pdb 11AAK.pdb 11AYZ.pdb 11UCZ.pdb 12AAK.pdb 12UCE.pdb 12UCZ.pdb
     
     12UCE.pdb has been rejected,  too low similarity with Target sequence (22.85 % identity.)
     11AAK.pdb has been rejected,  too low similarity with Target sequence (17.15 % identity.)
     12AAK.pdb has been rejected,  too low similarity with Target sequence (17.15 % identity.)
     11A3S.pdb has been rejected,  too low similarity with Target sequence (22.5 % identity.)

En este paso se genera el fichero de entrada ("imput file") para el program "ProModII" el cual basándose en los moldes seleccionados (templates) de la base de datos "ExPDB" originará todos los modelos a partir de nuestra secuencia problema:

     Creating Batch files for ProMod (if any):
             Batch.1: residues 30 - 137 of submitted sequence.
     
     Exiting AlignMaster
     
     
     ProModII trace log for Batch.1
     ============================================================
     
     ProModII: Loading Template: 11AYZ.pdb
     ProModII: Loading Template: 11UCZ.pdb
     ProModII: Loading Template: 12UCZ.pdb
     ProModII: Loading Raw Sequence
     ProModII: Iterative Template Fitting
     ProModII: Iterative Template Fitting
     ProModII: Generating Structural Alignment
     ProModII: Aligning Raw Sequence
     ProModII: Refining Raw Sequence Alignment
     ProModII: Weighting Backbones
     ProModII: Averaging Sidechains
     ProModII: Adding Missing Sidechains
     ProModII: Small Ligation (C-N < 3.0A) ignored;
     ProModII: GROMOS will repair it at residue ASP 73
     ProModII: Building CSP loop with anchor residues THR 60 and GLU 63
     ProModII:   Number of Ligations found:  (1)
     ProModII: all loops are bad; continuing CSP with larger segment
     ProModII: Building CSP loop with anchor residues PRO 59 and GLU 63
     ProModII:   Number of Ligations found:  (10)
     ProModII: ACCEPTING loop    5: clash=   1 FF=         53.8 PP=-18.41
     ProModII: Dumping Preliminary Model
     ProModII: Dumping Sequence Alignment
     ProModII: Done.

Como último paso, mediante el programa "Gromos96", se optimiza/an el/los modelo/os basándose en un proceso de minimización de energía. Este paso queda recogido de la forma:

     Gromos96 trace log for Batch.1
     ============================================================
     
     Now running PROCS1 on file batch-procs0.dat ... Done.
     Now running PROCS2 on file batch-procs1.dat ... Done.
     Now running PROGMT on file batch-procs2.dat ... Done.
     Now running PROGCH on file batch-procs2.dat ... Done.
     Now running PROMD on file batch-progch.dat ... Done.
     Now running PROMD on file batch-promd0.dat ... Done.
     Detection of SS-Bonds within batch ...

Recepción de un mail con las coordenadas 3D del modelo.

Finalmente, el servidor de SWISS-MODEL nos remitirá un mail con las coordenadas 3D del modelo basado en la homología de nuestra secuencia con las secuencias de estructura conocida de la base de datos (e.g. Acceso al mail con las coordenadas 3D.). Es importante tener en cuenta que tales coordenadas son originadas a partir de un proceso predictivo, y por tanto, no son tan fiables como las coordenadas procedentes de datos experimentales cristalográficos o de RMN (Resonancia Magnética Nuclear). Así que, creed estos datos en lo que valen.

EJEMPLO: Uso de Swiss Pdb-Viewer como herramienta para el modelado por homología

FTSA_ECOLI_seq.txt

Secuencia problema

Blast2_PDB

[DEMO]

PDB OCA Browser

[DEMO]

1e4f.pdb	3D coordinates of FtsA (Apo Form) from Thermotoga Maritima
FTSA_ECOLI_Tracelog.html	SwissModel TraceLog AAAa010Mt
FTSA_ECOLI_WhatCheck.html	SwissModel WhatCheck AAAa010Mt Batch.0
AAAa010Mt.pdb	THEORETICAL MODEL
1e4f_WhatCheck.html	WHAT IF Check report: Verification log for 1E4F. (ver PDBsum)

EJERCICIOS:

Ejercicio problema:

¿Por qué la siguiente enzima (un mutante hipotético) es inactiva?:

Secuencia:

ANFQYIITEKKGKNSSVGLIQLNRPKALNALCNGLIEELNQALETFEEDP

AVGAIVLTGGEKAFAAGWDIKEMQNRTFQDCYSGKFLSHWDHITRIKKPV

IAAVNGYALGGGCELAMMCDIIYAGEKAQFGQPEILLGTIPGAGGTQRLT

RAVGKSLAMEMVLTGDRISAQDAKQAGLVSKIFPVETLVEEAIQCAEKIA

NNSKIIVAMAKESVNAAFEMTLTEGNKLEKKLFYSTFATDDRREGMSAFV

EKRKANFKDH

Pasos recomendados a seguir:

Utilizar BLAST para conocer su secuencia original
Consultar SWISSPROT (y Pfam, InterPro, etc...) para conocer las características bioquímicas de la enzima.
Consultar la base de datos PDB para conocer la estructura de la enzima wild type.
Utilizar el servidor SwissModel para obtener un modelo del mutante.
Visualizar ambas estructuras para encontrar diferencias que expliquen su falta de actividad enzimática.

Archivos de salida de SwissModel (Se recomienda no usarlos excepto en caso de que no se pueda conectar con SwissModel):

Archivo de bienvenida: Swiss_Welcome.txt
Tracelog: Swiss_Tracelog.txt
Archivo de coordenadas PDB del molde: 1dub.pdb
Archivo de coordenadas PDB deñ molde (sólo cadena E): 1DUBE_WT.pdb
Archivo de coordenadas del modelo prpuesto para el mutante: 1DUBE_A98W.pdb

Otros Casos Propuestos (se recomienda usar el servidor SwissModel):

HYPOTHETICAL 13.1 KD PROTEIN IN ILV6-CWH36 INTERGENIC REGION.

Secuencia:

MWVPSMYPVKPPFISINLENFDMNTISSSLPIQEYIDSNGWIALPILHCWDPAAMNLIMV

VQELMSLLHEPPQDQAPSLPPKPNTQLQQEGEYSPTAPKAQVSTPKTAIASTSTTSTGI

"pacC"; product: "DNA binding protein".

Secuencia:

MLGAMAEEAVAPVAVPTTQEQPTSQPAAAQVTTVTSPSVTATAAAATAAVASPQANGNAA

SPVAPASSTSRPAEELTCMWQGCSEKLPTPESLYEHVCERHVGRKSTNNLNLTCQWGSCR

TTTVKRDHITSHIRVHVPLKPHKCDFCGKAFKRPQDLKKHVKTHADDSVLVRSPEPGSRN

PDMMFGGNGKGYAAAHYFEPALNPVPSQGYAHGPPQYYQAHHAPQPSNPSYGNVYYALNT

GPEPHQASYESKKRGYDALNEFFGDLKRRQFDPNSYAAVGQRLLSLQNLSLPVLTAAPLP

EYQAMPAPVAVASGPYGGGPHPAPAYHLPPMSNVRTKNDLINIDQFLQQMQDTIYENDDN

VAAAGVAQPGAHYIHNGISYRTTHSPPTQLPSAHATTQTTAGPIISNTSAHSPSSSTPAL

TPPSSAQSYTSGRSPISLPSAHRVSPPHESGSSMYPRLPSATDGMTSGYTAASSAAPPST

LGGIFDNDERRRYTGGTLQRARPASRAASESMDLSSDDKESGERTPKQISASLIDPALHS

GSPGEDDVTRTAKAATEVAERSDVQSEWVEKVRLIEYLRNYIANRLERGEFSDDSEQEQD

QEQEQDQEQEQDQEQGQDRVSRSPVSKADVDMEGVERDSLPRSPRTVPIKTDGESAEDSV

MYPTLRGLDEDGDSKMPS

A QUICK GUIDE TO ANALYSE SWISS MODEL RESULTS

EXAMPLE OF QUALITY CHECKS: WHATIF & PROSA

PROTEIN MODELLING AND EVALUATION:

Comparative protein modelling: framework, loops, side chains, rotamers [within Principles of Protein Structure, Comparative Protein Modelling and Visualisation (Nicolas Guex and Manuel C. Peitsch)]

Professional gambling (G. Vriend). A review of homology modeling all the way from template detection till energy refinement.

The use of position specific rotamers in model building by homology

WEB PROTEIN MODELLING RESOURCES

Swiss Model

FAMS

3D-JIGSAW (Loops Database)

CPHmodels

SDSC1

Protein Design Group
Centro Nacional de Biotecnología (CNB - CSIC)
Campus Universidad Autónoma. Cantoblanco.
28049 Madrid. Spain
Phone:+34-91-585 46 76 Fax:+34-91-585 45 06.

Juan Antonio García Ranea. garcia@gredos.cnb.uam.es

Ramon Roca. rroca@cnb.uam.es

Paulino Gómez Puertas. pagomez@cnb.uam.es