7
27 de agosto de 2015 BIOINFORMÁTICA BÁSICA TALLER 4. Alineamientos de secuencias El objetivo de esta guía es familiarizarse con las herramientas BLAST. Para cada pregunta (si es necesario) haga una captura de pantalla para acompañar cada respuesta. Asiste a su consulta una pareja con un niño de 5 años con retraso en la adquisición del lenguaje, ha sido valorado por diversos profesionales, incluyendo medicina, psicología, terapia del lenguaje, entre otras. Tras no encontrar una etiología clara por el trastorno, la pareja le comenta a Ud que han decidido ingresar a un estudio experimental en el que se analiza el transcriptoma de los individuos, y quieren saber su opinión acerca de los resultados obtenidos. Para ello se realizó inicialmente una extracción de RNA total de sangre periférica en el individuo afectado y sus padres, aparentemente sanos. A partir de las comparaciones de los RT-PCR (PCR con transcriptasa reversa) se identifica la siguiente secuencia (5’ – 3’) como la posible responsable de la alteración en el desarrollo del lenguaje. UNIVERSIDAD COLEGIO MAYOR DE NUESTRA SEÑORA DEL ROSARIO FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICAS PROGRAMA DE REFUERZO ACADÉMICO

Taller 4 Finalizado

Embed Size (px)

DESCRIPTION

BIOINFORMATICA

Citation preview

Page 1: Taller 4 Finalizado

27 de agosto de 2015

BIOINFORMÁTICA BÁSICA

TALLER 4. Alineamientos de secuencias

El objetivo de esta guía es familiarizarse con las herramientas BLAST.

Para cada pregunta (si es necesario) haga una captura de pantalla para acompañar cada respuesta.

Asiste a su consulta una pareja con un niño de 5 años con retraso en la adquisición del lenguaje, ha sido valorado por diversos profesionales, incluyendo medicina, psicología, terapia del lenguaje, entre otras. Tras no encontrar una etiología clara por el trastorno, la pareja le comenta a Ud que han decidido ingresar a un estudio experimental en el que se analiza el transcriptoma de los individuos, y quieren saber su opinión acerca de los resultados obtenidos.

Para ello se realizó inicialmente una extracción de RNA total de sangre periférica en el individuo afectado y sus padres, aparentemente sanos. A partir de las comparaciones de los RT-PCR (PCR con transcriptasa reversa) se identifica la siguiente secuencia (5’ – 3’) como la posible responsable de la alteración en el desarrollo del lenguaje.

GACAATGGCATTAAACATGGAGGGCTAGACCTCACTACTAACAATTCCTCCTCGACTACCTCCTCCAACACTTCCAAAGCATCACCACCAATAACTCATCATTCCATAGTGAATGGACAGTCTTCAGTTCTAAGTGCAAGACGAGACAGCTCGTCACATGAGGAGACTGGGGCCTCTCACACTCTCTATGGCCATGGAGTTTGCAAATGGCCAGGCTGTGAAAGCATTTGTGAAGATTTTGGACAGTTTTTAAAGCACCTTAACAATGAACACGCATTGGATGACCGAAGCACTGCTCAGTGTCGAGTGCAAATGCAGGTGGTGCAACAGTTAGAAATACAGCTTTCTAAAGAACGCGAACGTCTTCAAGCAATGATGACCCACTTGCACATGCGACCCTCAGAGCCCAAACCATCTCCCAAACCTCTAAATCTGGTGTCTAGTGTCACCATGTCGAAGAATATGTTGGAGACATCCCCACAGAGC

UNIVERSIDAD COLEGIO MAYOR DE NUESTRA SEÑORA DEL ROSARIO

FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICAS

PROGRAMA DE REFUERZO ACADÉMICO

Page 2: Taller 4 Finalizado

TTACCTCAAACCCCTACCACACCAACGGCCCCAGTCACCCCGATTACCCAGGGACCCTCAGTAATCACCCCAGCCAGTGTGCCCAATGTGGGAGCCATACGAAGGCGACATTCAGACAAATACAACATTCCCATGTCATCAGAAATTGCCCCAAACTATGAATTTTATAAAAATGCAGATGTCAGACCTCCATTTACTTATGCAACTCTCATAAGGCAGGCTATCATGGAGTCATCTGACAGGCAGTTAACACTTAATGAAATTTACAGCTGGTTTACACGGACATTTGCTTACTTCAGGCGTAATGCAGCAACTTGGAAGAATGCAGTACGTCATAATCTTAGCCTGCACAAG

Antes de continuar con la investigación se requiere verificar la naturaleza de esta secuencia, es decir, qué tipo de producto (proteína) genera este mRNA

1. En su hoja de respuestas defina con sus palabras en qué consiste la RT-PCR

Es una variante del PCR, este es un proceso usado en laboratorio cuando se requiere replicar o amplificar ADN, entonces el RT-PCR entonces empleado cuando a partir del ARN haciendo una transcripción inversa se obtiene ADN.

Debido a que no tienen la secuencia completa no pueden hacer una traducción teórica para saber la proteína que se genera a partir de esta secuencia de DNA, pues no sabe exactamente en qué nucleótido se inicia el marco abierto de lectura (AUG) por lo que deciden hacer una comparación con los datos previamente reportados en las bases de datos y deciden empezar con GENBANK.

2. Ingrese a http://www.ncbi.nlm.nih.gov/

3. Seleccione en la parte derecha de la página BLAST

4. Seleccione en el apartado BASIC BLAST la opción nucleotide BLAST

5. Revise que la pestaña indique BLASTN y pegue la secuencia en el primer recuadro

6. Asegúrese que estén seleccionadas las opciones Others y Nucleotide collection (en Choose search set) y highly similar sequences (en Program selection)

7. Presione el botón BLAST y espere la aparición de la nueva página

En esta nueva página observe los diferentes valores que se han generado:

Los valores de identidad máxima (Max ident) se refieren al porcentaje de nucleótidos idénticos que fueron comparados entre dos secuencias.

Page 3: Taller 4 Finalizado

Query coverage, se refiere al porcentaje de nucleótidos, de la secuencia problema, que se pudieron comparar, ya que no todas las secuencias disponibles tienen la misma longitud.

Los valores de puntaje (Max score y total score) se refieren a los puntajes que asignó el algoritmo a la comparación entre la secuencia problema (query) y las demás secuencias de la base de datos.

Cuando las comparaciones por nucleótidos son adecuadas (es decir ambos nucleótidos son iguales) el algoritmo asigna números positivos; cuando los nucleótidos son distintos, el algoritmo asigna valores negativos, lo que reduce el puntaje. De manera que entre mayor sea el puntaje, mayor será la similitud entre la secuencias.

El valor esperado (E-value) se refiere al número de veces que, por azar, puede obtenerse un alineamiento mejor al encontrado por BLAST, teniendo en cuenta el tamaño de la base de datos de referencia.

8. Compare la información de las primeras 30 secuencias y conteste las siguientes preguntas

8.1. ¿Con cuál de ellas tiene mayor similitud? ¿Con cuál la menor similitud?

Tiene mayor similitud con ( PREDICTED: Homo sapiens forkhead box P2 (FOXP2), transcript variant X1, mRNA) y tiene la menor similitud con (PREDICTED: Rhinopithecus roxellana forkhead box P2 (FOXP2), transcript variant X4, mRNA), tienen una similitud del 100% y 99% respectivamente.

8.2. ¿A qué gen o genes corresponden las comparaciones anteriores?

En el caso del primero les corresponde el gen (FOXP2) de la especie Homo sapiens y el segundo le corresponde el (FOXP2) de la especie Rhinopithecus roxellana

8.3. A partir de estos datos, ¿cuál cree usted que es la proteína que se genera a partir de este mRNA?

forkhead box P2 (FOXP2), en ambos casos

9. Regrese a la página de BLAST

10. Seleccione en BASIC BLAST la opción BLASTX (esta herramienta busca proteínas a partir de una secuencia nucleotídica)

11. Pegue la secuencia en el primer recuadro

12. Asegúrese que estén seleccionadas las opciones Standard (1) (para Genetic code) y Nonredundant protein sequences (en Database dentro de Choose search set)

13. Presione el botón BLAST y espere la aparición de la nueva página (Puede tardar un poco)

Page 4: Taller 4 Finalizado

14. Mire la página que se generó, compare las primeras 30 secuencias incluyendo Homo sapiens y conteste las siguientes preguntas:

14.1. ¿Con cuál de ellas tiene mayor similitud? ¿Con cuál la menor similitud?

Tiene mayor similitud con (Forkhead box protein P2 [Buceros rhinoceros silvestris]) en las 30 primeras y la menor (forkhead box protein P2 isoform 2 [Mus musculus]).

14.2. ¿A qué gen corresponde esa información?

Es un gen que está relacionado con el lenguaje humano y su mutación relaciona con trastornos del lenguaje.

14.3. A partir de estos datos, ¿cree usted que con estos datos puede asegurarse qué tipo de mRNA es el que se halló en las células?

Si, ya que a partir del gen y con el formato FASTA es posible traducir la información del ADN a RNA.

15. ¿Qué podría concluir a partir de los datos encontrados sobre esta proteína para los MAMÍFEROS?

En las dos versiones de este gen en los chimpancés y el ser humano que difieren en dos aminoácidos, sostienen la hipótesis de como los ser humano habría desarrollado el lenguaje.

Si es necesario busque los nombres de las especies en Wikipedia para conocer su nombre común Ej Canis lupus: Lobo

16. Explore las otras opciones de BLAST que ofrece la página del NCBI (si ubica el mouse sobre cada tipo de BLAST, sin hacer click, aparece una pequeña descripción de la herramienta)

17. Realice un alineamiento tipo BLAST utilizando la siguiente secuencia. ¿Qué tipo de BLAST realizaría para este tipo de secuencia (escoja la base de datos Ref-seq; si es

Page 5: Taller 4 Finalizado

el caso)? ¿Qué proteína predice el programa, en que organismos se encuentra, mencione al menos 3?

En esta secuencia corresponde a una proteína por lo tanto no es posible usar la base de datos Ref-seq. La proteína que predice la base de datos (protein blast) predice (microcephalin). Se encuentra presente en las especies; Homo sapiens, Pan troglodites y Cercocebus atys.MAAPILKDVVAYVEVWSSNGTENYSKTFTTQLVDMGAKVSKTFNKQVTHVIFKDGYQSTWDKAQKRGVKLVSVLWVEKCRTAGAHIDESLFPAANMNEHLSSLIKKKRKCMQPKDFNFKTPENDKRFQKKFEKMAKELQRQKTNLDDDVPILLFESNGSLIYTPTIEINSRHHSAMEKRLQEMKEKRENLSPTSSQMIQQSHDNPSNSLCEAPLNISRDTLCSDEYFAGGLHSSFDDLCGNSGCGNQERKLEGSINDIKSDVCISSLVLKANNIHSSPSFTHLDKSSPQKFLSNLSKEEINLQRNIAGKVVTPDQKQAAGMSQETFEEKYRLSPTLSSTKGHLLIHSRPRSSSVKRKRVSHGSHSPPKEKCKRKRSTRRSIMPRLQLCRSEDRLQHVAGPALEALSCGESSYDDYFSPDNLKERYSENLPPESQLPSSPAQLSCRSLSKKERTSIFEMSDFSCVGKKTRTVDITNFTAKTISSPRKTGNGEGRATSSCVTSAPEEALRCCRQAGKEDACPEGNGFSYTIEDPALPKGHDDDLTPLEGSLEEMKEAVGLKSTQNKGTTSKISNSSEGEAQSEHEPCFIVDCNMETSTEEKENLPGGYSGSVKNRPTRHDVLDDSCDGFKDLIKPHEELKKSGRGKKPTRTLVMTSMPSEKQNVVIQVVDKLKGFSIAPDVCETTTHVLSGKPLRTLNVLLGIARGCWVLSYDWVLWSLELGHWISEEPFELSHHFPAAPLCRSECHLSAGPYRGTLFADQPAMFVSPASSPPVAKLCELVHLCGGRVSQVPRQASIVIGPYSGKKKATVKYLSEKWVLDSITQHKVCAPENYLLSQ

18. Escriba un documento reflexivo de al menos 250 palabras que contenga como se ha sentido esta semana, cómo se sintió en clase y qué aprendió hoy.

Envíe el documento a través de la plataforma Moodle, las 8 primeras preguntas a la actividad Taller 4 Bioinformática: Alineamientos de secuencias con el título Taller 4: Nombre completo y la última pregunta a la actividad 4. Documento reflexivo, con el titulo Documento reflexivo 4: Nombre completo.

“Lo que hay en el corazón de toda cosa viviente no es un fuego, no un aliento cálido, no una chispa de vida. Es información, palabras, instrucciones. Si buscan una metáfora, no piensen en fuegos ni

chispas ni alientos. Piensen en mil millones de caracteres digitales discretos tallados en tablillas de cristal.”

Richard Dawkins, 19861

1 Richard Dawkins es un reconocido biólogo evolutivo y etólogo británico, entre sus aportes a lo comunidad científica se destacan la teoría del gen egoísta y de los memes o unidades de información que al igual que los genes se replican, modifican o desaparecen en la mente de los individuos.

Page 6: Taller 4 Finalizado