La Plataforma Andaluza de Bioinformática: cómo utilizar la
bioinformática sin morir en el intentoM. Gonzalo Claros
Departamento de Biología Molecular y Bioquímica
PLATAFORMA ANDALUZA DE BIOINFORMÁTICA
Plataforma de Genómica, Proteómica y Biocomputación
Vamos a situarnos...
Investigación
Soporte a los usuarios (formación)
Acceso a recursos bioinformáticos
Centro de Supercomputación y Bioinformática (UMA)
PlataformaComputacional
de la UMA
Red Españolade Super-
computación
HP SuperDome
Mare Nostrum
Plataforma Andaluza de Bioinformática Genómica y Proteómica
(SCAI, UCO)
Objetivos
• Poner a disposición del entorno Ciencia-Tecnología-Empresa andaluz la infraestructura, tecnología, y personal altamente cualificado para el acceso eficiente a las nuevas tecnologías denominadas «ómicas»
• Potenciar a los grupos de investigación y unidades I+D+I al poner a su disposición las herramientas necesarias para incrementar su competitividad y proyección internacional, así como fomentar la transferencia de tecnología.
BOE 172 del 20-7-2005, 25926-33
Funcionamiento
• Acceso a los programas sin necesidad de instalarlos.
• Programas comerciales (garantizado por 5 años).
• Espacio para almacenar datos, con backup.
• Acceso a bases de datos comerciales.
• Computación de altas prestaciones
SupercomputadorSuperDome HP
Acceso: www.scbi.uma.es
Acceso: www.scbi.uma.es
Identificación
Lo que se puede ver
Recursos bioinformáticos
GCG AccelrysEMBOSSSeqTrimFull-LengtherAlignMinerSeq2ContigWFCap3MIRA2
Lo que se puede usar
HyperChemDiscovery Studio
SYBYLAMPACAmber
Bioconductor (R)ArrayHubArrayUnlockLitheMinerSpotFire Decisionsite
GE DeCyderSpotFire DecisionsiteIngenuity Pathway (IPA)
Protein LooungeMatLab:
• Simulink• Bioinformatics ToolBox• Simbiology
Herramientas públicas (propias)
¿Quiénes lo usan?!
19 usuarios19 usuarios
2 usuarios1 usuario
3 usuarios
3 usuarios
1 usuario
Frecuencia de usoResumen anual
Último mes10 usuarios (25%)
Se usa desde la zona privada
Las máquinas virtuales
Descarga de la máquina virtual
Uso de la máquina virtual
Las herramientas propias
PLATAFORMA ANDALUZA DE BIOINFORMÁTICA
SeqTrim
www.scbi.uma.es/seqtrim Falgueras et al, 2007
SeqTrim is modular... and something moreSequences (fasta) Seqs + Quals (fasta)
Trimming Adaptors
Trimming polyA | T
Removing specialized features
Trimming Ns
Trimming Low Qual
Removing low quality seqs
Trimming Contaminants
Removing contaminant seqs
Maskering Repeats
Dust
Repeat Masker
chromatograms (abi, scf...)
Sequences
QualitiesInfo
Trimming Vector
Removing cloning vector
Terminal tranferase
Removing Additional artifacts
Ending As, Ts, Ns, Xs
Phred ZIPSeveral input formats
Four modular functions
Two sequential, optional functions
Output formats for pipeliningFalgueras et al, 2007
SeqTrim
Falgueras et al, 2007
Browsing window
Falgueras et al, 2007
Browsing window
Falgueras et al, 2007
Browsing window
Falgueras et al, 2007
Browsing window
Falgueras et al, 2007
Browsing window
Falgueras et al, 2007
Browsing window
Falgueras et al, 2007
Browsing window
Falgueras et al, 2007
Browsing window
Falgueras et al, 2007
Utilizaciones de SeqTrim
• EST
• GEMINI
• PIN
• SSH
• Compresión/lateral
• Juvenil/madura
• Secuenciación de ADNg
• BAC de Pinus pinaster
0
25
50
75
100
Vect
or
Adap
tado
res
Baja
cal
idad
Inde
term
inac
ione
s
Cont
amin
ante
s
70,6885,63
99,65
Porcentaje de lecturas afectadas
% L
ectu
ras
0
25
50
75
100
Vect
or
Ada
ptad
ores
Baj
a ca
lidad
Inde
term
inac
ione
s
Con
tam
inan
tes
18,625,34
25,48
Porcentaje de nucleótidos recortados
% N
ucle
ótid
os
nt Reads
Full-Lengther
www.scbi.uma.es/full-lengther Lara et al, 2007
Análisis de los resultados
N. Fernández-Pozo, 2008
AlignMiner
www.scbi.uma.es/alignminer
Trabajar con AlignMiner
Visualización de los resultados
InGeBiol: modelo general en Ruby
Nuestro uso de CAP3web
N. Fernández-Pozo, 2008
100 100
73,93
48,9350,99
36,37
0
20
40
60
80
100
120
Lecturas Nucleótidos
Porc
enta
je d
e Le
ctur
as o
Nuc
leóti
dos
Iniciales Limpias Únicas
100 100
67,18
37,3636,03
23,15
0
20
40
60
80
100
120
Lecturas Nucleótidos
Porc
enta
je d
e Le
ctur
as o
Nuc
leóti
dos
Iniciales Limpias Únicas
PIN GEMINI
Interfaz simplificada para MIRA2
El «gran proyecto»
Colaboración en investigación
PLATAFORMA ANDALUZA DE BIOINFORMÁTICA
NC/-N-C_a
NC/-N-C_z
-N-C/NC_a
-N-C/NC_z
Condiciones experimentales
GEM-009-H07
GEM-108-C01
GEM-032-C07
GEM-020-C11
GEM-103-E10
CK16 2 F10
GEM-058-D04
CK16 1 B05
GEM-051-B04
GEM-100-H11
gDNA pinaster
GEM-003-B08
GEM-002-F10
GEM-097-H03
PIN-9-A08
GEM-077-C08
GEM-105-C03
GEM-088-A07
PIN-5-F01
GEM-094-G04
GEM-026-H10
Spike 2
Spike 6
Spike 2
ASPG
GEM-078-C04
GEM-093-C02
GEM-085-C12
Spike 4
GEM-093-A05
AS
Spike 6
Spike 4
Ge
ne
s c
an
did
ato
s
Investigación
• Úselo usted mismo
• Colaboración científica
• Analizar resultados e interpretarlos
• Diseño de bases de datos, portales y algoritmos a medida
• Desarrollo de flujos de trabajo estándares para la investigación
• Socio bionformático para proyectos ómicos.
• Ejemplos:
• Proyecto piloto nacional para la secuenciación de Pinus pinaster (UMA. IP: Francisco M. Cánovas)
• European Animal Disease Genomics Network of Excellence for animal health and food safety (UCO. IP: Juan José Garrido)
Base de datos en Ruby
Base de datos en Ruby
Análisis de micromatrices 2C
Datos(GenePix,QScan)
•Datos normalizados•Genes con expresión
diferencial•Visualización de los
resultados•Calidad de los datos
Script propio
Visualización de los datos 2CDatos orginales Datos normalizados
Los genes candidatosCalidad datos
Genes con expresión diferencial
Interpretación funcional
NC/-N-C_a
NC/-N-C_z
-N-C/NC_a
-N-C/NC_z
Condiciones experimentales
GEM-009-H07
GEM-108-C01
GEM-032-C07
GEM-020-C11
GEM-103-E10
CK16 2 F10
GEM-058-D04
CK16 1 B05
GEM-051-B04
GEM-100-H11
gDNA pinaster
GEM-003-B08
GEM-002-F10
GEM-097-H03
PIN-9-A08
GEM-077-C08
GEM-105-C03
GEM-088-A07
PIN-5-F01
GEM-094-G04
GEM-026-H10
Spike 2
Spike 6
Spike 2
ASPG
GEM-078-C04
GEM-093-C02
GEM-085-C12
Spike 4
GEM-093-A05
AS
Spike 6
Spike 4
Genes c
andid
ato
s
NC/-N-C_a
NC/-N-C_z
-N-C/NC_a
-N-C/NC_z
---NA---
---NA---
metallothionein-like protein
acid phosphatase
---NA---
---NA---
---NA---
---NA---
glyoxalase bleomycin resistance protein dioxygenase
transaldolase
catalase
stem-specific proteinexpressed
---NA---
stem-specific proteinexpressed
aldose 1-epimerase
---NA---
seed imbibition protein
stem-specific proteinexpressed
general substrate transporter
myo-inositol oxygenase
NC/-N-C_a
NC/-N-C_z
-N-C/NC_a
-N-C/NC_z
Condiciones experimentales
GEM-009-H07
GEM-108-C01
GEM-032-C07
GEM-020-C11
GEM-103-E10
CK16 2 F10
GEM-058-D04
CK16 1 B05
GEM-051-B04
GEM-100-H11
gDNA pinaster
GEM-003-B08
GEM-002-F10
GEM-097-H03
PIN-9-A08
GEM-077-C08
GEM-105-C03
GEM-088-A07
PIN-5-F01
GEM-094-G04
GEM-026-H10
Spike 2
Spike 6
Spike 2
ASPG
GEM-078-C04
GEM-093-C02
GEM-085-C12
Spike 4
GEM-093-A05
AS
Spike 6
Spike 4
Genes c
andid
ato
s
Experimentos en serieAnálisis ANOVA
Enriquecimiento biológico (análisis asociativo)
Un ejemplo de resultado
!"#$"$% !""#$
CytosolMitochondria
Plastid
D.P. Villalobos 2008
Varia
bilit
y
Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad
Mejor normalización (Affymetrix)El mejorDatos brutos
RMA es el que mejor se comporta
El 2.º mejor
Pérez-Florido et al 2009
Varia
bilit
y
Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad
Mejor normalización (Affymetrix)El mejorDatos brutos
RMA es el que mejor se comporta
El 2.º mejor
Pérez-Florido et al 2009
Varia
bilit
y
Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad
Mejor normalización (Affymetrix)El mejorDatos brutos
RMA es el que mejor se comporta
El 2.º mejor
Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos
Pérez-Florido et al 2009
Varia
bilit
y
Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad
Mejor normalización (Affymetrix)El mejorDatos brutos
RMA es el que mejor se comporta
El 2.º mejor
Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos
Spe
arm
an
corr
elat
ion
RMA es el que mejor se comportaVSN es una buena alternativa
Pérez-Florido et al 2009
Varia
bilit
y
Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad
Mejor normalización (Affymetrix)El mejorDatos brutos
RMA es el que mejor se comporta
El 2.º mejor
Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos
Spe
arm
an
corr
elat
ion
RMA es el que mejor se comportaVSN es una buena alternativa
Pérez-Florido et al 2009
Ensamblaje de un BAC de pino
FragmentaciónPirosecuenciación (media: 200 pb)
Ensamblaje
Filtrado
ADN pinoVector pIndigoBAC536Genómico E. coli
Allcontig
Largecontig ( > 500 pb)
Estrategias de ensamblajeSecuencias
Newbler® SeqTrim
Contig
Estrategia FLX Estrategias
Cap3
PCAP
MIRA2
EULER-SR
Celera Assembler
Otros ensambladores
probados
SeqTrim
Newbler®
Large contigs
AmosValidate
Reliable contigs
Contig
SeqTrim
¿Qué contiene 176P12?
Fd-GOGAT
Ty1-Copia elementRetroelement pol polyprotein-like
El gen Fd-GOGAT
Recursos humanos actuales
• 2 Ldo. en informática
• Darío Guerrero Fernández
• Antonio J. Lara Aparicio
• 2 Dr. en Biología
• Rocío Bautista Moreno
• M. Gonzalo Claros Díaz (supervisión)
• Otros colaboradores
• Guillermo Pérez Trabado (supervisión)
• Juan Falgueras (profesor)
• Rafael Larrosa (gestor del sistema)
• Noé Fernández Pozo (doctorando)
SCBIPLATAFORMA ANDALUZA DE BIOINFORMÁTICA