Curso de introducción al uso y programación del lenguaje R (S) en bioinformática

Impartido por Ramón Díaz-Uriarte (CNIO)
Organizado por Ramón Alonso-Allende (CNB/CSIC)


Objetivos

La investigación en biología molecular está produciendo una amplia cantidad de datos gracias al desarrollo de nuevas técnicas y a la robotización. El análisis y la interpretación de toda esa información necesita de la ayuda y el soporte de ordenadores y programas capaces de manejarla. La estadística juega un papel clave en este proceso, razón principal por la que se ha querido organizar un curso dentro del ámbito de la red de bioinformática, que introduzca en el manejo de software estadístico.
En este sentido, la herramienta seleccionada ha sido R, un lenguaje y entorno de programación para análisis tanto estadístico como gráfico. Se trata de un software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica y en la bioinformática. Ejemplo de todo esto es Bioconductor (http://www.bioconductor.org), un proyecto de software libre enfocado al análisis y la comprensión de datos genómicos, que ha sido desarrollado sobre R. Bioconductor ofrece, por ejemplo, paquetes específicos para la normalización, análisis y anotación de microarrays.
De forma añadida, R puede integrarse con distintos gestores de bases de datos y existen librerias que facilitan su utilización tanto desde leguajes de programación interpretado (Perl, Phyton) como su uso en lenguajes de código compilado (C/C++ o Fortran).
El objetivo de este curso de dos días de duración es, fundamentalmente, dar a conocer las capacidades de R e introducir a los asistentes en su manejo, de forma que puedan aplicar los conocimientos en el desarrollo de sus propios programas
Más Información aqui

Programa preliminar  
  1. Introducción a R.
    • Qué son R y S.
    • Obtención e instalación de R y paquetes adicionales.
    • Uso de Rgui en Windows.
    • Uso de R con ESS y XEmacs.
    • Ejemplo de uso: análisis de los datos de Golub usando tests de la t y multiple testing.
  2. Manejo de datos en R
    • Tipos de objetos en R (matrices, vectores, listas, data frames, etc).
    • Lectura y exportación de datos.
    • Subsetting y acceso a elementos.
    • Generación de sequencias regulares y aleatorias.
    • Ordenación.
    • La familia apply: apply, lapply, sapply, y tapply.
  3. Gráficas en R
    • Uso de plot
    • Combinación de gráficos y adición de elementos.
    • Salvando e imprimiendo gráficos.
    • Introducción a lattice y grid.
  4. Introducción a la programación en R.
    • Operaciones vectorizadas.
    • Bucles y control de ejecución.
    • Definición de funciones.
    • Scoping rules.
    • Debugging y profiling.
    • Introducción a las S3 classes
  5. Brevísima introducción a modelos estadísticos en R
    • Modelos lineales: regresión y ANOVA.
    • Tests de la t y equivalentes no paramétricos, tests de correlación (Pearson, Spearman).
    • Análisis de componentes principales (PCA).
    • Algunos métodos de clasificación:
      • análisis discriminante (lda);
      • support vector machines (svm);
      • k-nearest neighbor (knn);
    • Clustering:
      • clustering jerárquico;
      • k-medias;
  6. Poniendolo todo junto. Varios ejemplos prácticos de programación y análisis.
    1. Un ejemplo de la necesidad de ajustes de comparaciones múltiples.
      Escribiremos un programa que generará datos aleatorios, y con ellos hará tests de la t y clustering, con y sin corrección por comparaciones múltiples.
    2. Cross-validation (validación cruzada) del funcionamiento de un predictor.
      Usaremos cross-validation para juzgar el funcionaiento de unos predictores construidos con datos de arrays.
      Escribiremos un programa que crossvalide el proceso completo:
      - selección de genes;
      - construcción de un predictor (con svm, lda y knn).

Requisitos: Se requiere manejo en entorno windows y conociemientos básicos de programación.


Fechas: 6 y 7 de Mayo
Horario 10-14, 15-19.
Lugar: Facultad de Biología de la Universidad Autónoma de Madrid. Sala BIO3

Precio: Gratuito
Plazas: ----
Contacto Ramon Alonso-Allende
Agradecimientos a Manuel Gómez, Armando Amat y Alfonso Valencia