Anotación Automática Dante Travisany. Temas Pipeline Tools Bases de Datos Conceptos Ejemplos...

Preview:

Citation preview

Anotación Automática

Dante Travisany

Temas

• Pipeline

• Tools

• Bases de Datos

• Conceptos

• Ejemplos

• Ensembl

Identificación del Problema

• Virus : 15 – 20

• Bacteria 3000 - 5000

• Eucariontes: sobre los 10000

Pipeline

Pipeline• Unix

• Símbolo: |

• Segmentación

Tools• BLAST • InterProScan• AmiGO• Pathway Tools• Infernal• Glimmer• Critica• GeneMark• GeneWise• BedTools• Samtools• GenomicTools• KEGG-API

Base de Datos

BLAST DB Protein-KEGG-PRIAM-SWISSPROT-UNIPROT-NR

BLAST DB Nucleotide- NT- REFSEQ- RDP

InterProScan - Databases

- Pfam- SSF- Gene3D- TIGRfam

Nuevo Problema

• Gran cantidad de bases de datos.

• Errores en Anotación, doble anotación.

• Necesidad de Crear un vocabulario Controlado

• Gene Ontology, UniPROT, SwissPROT, InterProScan.

• Capacidad de realizar referencias cruzadas en las bases de datos.

Algunos Conceptos Importantes

• Gene Name

• Vocabulario Controlado

• IFAA

GeneName:

Para cada Organismo existen gene names particulares, según la base de datos de Referencia.

HUGO:www.genenames.org

Gene Ontology ConsortiumGene Ontology:

Proyecto colaborativo entre variadas instituciones.

Vocabulario:EstructuradoPrecisoComún Controlado

Permite describir los roles de los genes y los productos génicos en cualquier organismo.

División Gene Ontology

• Proceso Biológico

• Función Molecular

• Componente Celular

COG - KOG

Idea

• Filtrar por bases de datos

• Generar una rutina automática capaz de iterar el proceso, para cada set de genes.

Tools & Databases

Resumen

• Hasta ahora, se han visto:

NGS sequencing.Assembly.Gene Prediction.Annotation (Databases).Automatic Annotation

Caso Transcriptómica

Nannochloropsis salina transcriptomics

RNA processing and modification

Chromatin structure and dynamics

Energy production and conversion

Cell cycle control, cell division, chromosome partitioning

Amino acid transport and metabolism

Nucleotide transport and metabolism

Carbohydrate transport and metabolism

Coenzyme transport and metabolism

Lipid transport and metabolism

Translation, ribosomal structure and biogenesis

Transcription

Replication, recombination and repair

Cell wall/membrane/envelope biogenesis

Cell motility

Posttranslational modification, protein turnover, chaperones

Inorganic ion transport and metabolism

Secondary metabolites biosynthesis, transport and catabolism

General function prediction only

Function unknown

Signal transduction mechanisms

Intracellular trafficking, secretion, and vesicular transport

Defense mechanisms

Extracellular structures

Nuclear structure

Cytoskeleton

AB

CD

EF

GH

IJ

KL

MN

OP

QR

ST

UV

WY

Z

0 5 10 15 20 25

KOG Category N.salina v/s C.reindhardtii

N.salinaC.reindhartii

Category Percentage

KOG

Cate

gory

23

GenDB

– Automatic Annotation System for Prokaryotic genomes

• Development for the University of Bielefeld since 2002.

• Modular system developed using an OOP and a relational database (O2DBI).

• Provide an Application program Interface (API).

24

GenDB

• Folker Meyer et all. GenDB an open source genome annotation system for prokaryote genomes. Nucleic Acids Research,2003

25

GenDBPipeline

25

26

GenDB

Ensembl

• Inicio:1999

• Objetivo: generar herramientas de anotación automática.

Ensembl Pipeline.

• Website:http://www.ensembl.org/

Galaxy

• Workflows, para NGS sequence, web based.

http://galaxy.psu.edu/