Astronomía
y Big Data
Juan Ignacio Pérez Sacristánlinkedin.com/in/semanticwebarchitect
¿Qué es Big Data?
● Big Data son PB, PetaBytes.
● Bytes, KB, MB, GB, TB, PB, EB
● 1 foto = 1 MB
● 1.000 fotos = 1 GB
● 1.000.000 fotos = 1 TB
Ejemplos de Big Data
● Al usar un buscador de Internet10^10 páginas web
● Al escribir en redes sociales10^12 mensajes
● Google Knowledge Vault, una Wikipedia
hecha por robots10^9 hechos
Hype CycleCiclo de sobreexpectación
● El proceso de asimilación de las nuevas tecnologías en la sociedad casi
siempre sufre un período inicial de gran emoción y crecimiento,
alcanzando un máximo para después desinflarse al no cumplir las
exageradas expectativas que se prometían al principio. Por último, se
alcanza un estado de equilibrio cuando la sociedad convive con
normalidad con dicha tecnología.
● Ejemplos: Inteligencia Artificial, Ordenadores Cuánticos, ...
La ley de Moore
● Cada 2 años la capacidad de un ordenador
(memoria y velocidad) se multiplica por 2.
● ¿El Big Data cumple esta ley?
¿Qué es Cloud Computing?
● El Cloud (Nube) son enormes datacenters
donde es fácil montar un cluster, o
superordenador paralelo.
● Si el Cloud es el hardware del Big Data
¿cuál es su software?
¿Qué es Data Science?
● Los Data Scientists aplican sofisticados
algoritmos estadísticos y de Inteligencia
Artificial (Machine Learning) para extraer
conclusiones de los datos.
● Es el software del Big Data.
Adquisición de Datos
● Evolución histórica de los catálogos que
contienen datos astronómicos
● ¿Nos acercamos al Big Astronomy / Big
Science?
Sala de los Toros
Cueva de Lascaux, Francia, (15.000 a.C.)
Alcance: 10 estrellas
Magnitud límite: 2
Catálogo Estelar Babilónico
La astronomía babilónica recoge observaciones de
estrellas y constelaciones, durante y después de la
dinastía Kassite (en torno al año 1750 a.C.) en Babilonia
en una serie de catálogos estelares en escritura
cuneiforme. En ellos figuran listas de constelaciones
(antiguas), planetas y estrellas.
Alcance: 75 estrellas
Magnitud límite: 3
Carta estelar de Dunhuang
China, Dinastía Tang (940 a.C.)
Alcance: 1.300 estrellas
Magnitud límite: 6
Almagesto
Nombre árabe del tratado astronómico escrito en el siglo II por Claudio
Ptolomeo de Alejandría, Egipto (¿plagio de Hiparco 300 años antes?).
Contiene el catálogo estelar más completo de la antigüedad que fue utilizado
ampliamente por los árabes y luego los europeos hasta la alta Edad media, y
en el que se describen el sistema geocéntrico y el movimiento aparente de las
estrellas y los planetas. Contiene más de 1.000 estrellas hasta magnitud 6,
límite visual sin telescopio.
Alcance: 1.022 estrellas
Magnitud límite: 6
Catálogo de Bayer, Uranometría
Realizado por Johann Bayer en el año 1.603,
incorpora la nomenclatura del tipo "alfa Orionis"
=> Betelgeuse
Alcance: 788 estrellas
Magnitud límite: 5
LAL
Jérôme Lalande y sus ayudantes, publicaron
"Histoire Céleste Française" en 1801 desde el
Observatorio de París con las posiciones de
47.390 estrellas hasta magnitud 9.
Alcance: 47.390 estrellas
Magnitud límite: 9
Smithsonian Astrophysical Observatory.
Realizado en 1966, es un catalogo fotográfico.
Introduce la nomenclatura SAO NNNNNN,
donde NNNNNN es un número comprendido
entre 1 y 258.997.
Alcance: 258.997 estrellas
Magnitud límite: 10
SAO
Creado en el año 1989 a partir de la misión
astrométrica Hipparcos de la Agencia Espacial
Europea (ESA).
Alcance: 2,5 millones de estrellas
Magnitud límite: 13
Catálogo Hipparcos
Hubble Space Telescope Guide Star
Catalogue.
Alcance: 19 millones de estrellas
Magnitud límite: 16
GSC
Naval Observatory Merged Astrometric Dataset: Derivado
de otros catálogos como Hipparcos, Tycho-2, UCAC2,
Yellow-Blue 6, USNO-B y 2MASS.
Alcance: 1.100 millones de estrellas
Magnitud límite: 18 (~ 1.5m OTA)
Archivo total: 100 GB==> Stellarium.org (resumido a 1 GB y 100M de estrellas)
Catálogo NOMAD
The INT Photometric H-alpha Survey of the Northern
Galactic Plane
Isaac Newton Telescope (INT) en la isla de La Palma,
Canarias, España
Alcance: 219 millones de estrellas
Magnitud límite: 20 (~ 2.5m OTA)
Archivo total: 2,5 TB
Catálogo IPHAS DR2
Sloan Digital Sky Survey, Telescopio en Nuevo México de 2,5 m de apertura.
Fotografió 1,3 millones de imágenes astronómicas, cubriendo 1/4 del cielo.
Alcance: 360M objs, 930K galaxias, 100K cuásares
Magnitud límite: 22 (~ 10m OTA)
Flujo de datos: 0,2 TB/día.
Archivo total: 80 TB
==> Sky-map.org, Google Sky
The SDSS (1999-2005)
La Mars Reconnaissance Orbiter (MRO) es una nave espacial, lanzada el 12
de agosto de 2005 para el avance del conocimiento de Marte.
Los datos se almacenan en una grabadora de estado sólido que usa más de
700 chips de memoria de 256MB, en total su capacidad es de 160GB.
Archivo total: 200 TB
NASA Mars Reconnaissance Orbiter
La Dark Energy Camera (DECam) es uno de los sensores del Dark Energy
Survey (DES).
Mediante técnicas de Advanced Machine Learning (Data Science) se realizan
clasificaciones automáticas de objetos astronómicos, usando los algoritmos
MCMC (Markov chain Monte Carlo).
Alcance: 300 millones de galaxias
Flujo de datos: 0,4 TB/día.
Archivo total: 1 PB
Dark Energy Camera, Chile
Centro de Estudios de Física del Cosmos de Aragón, Javalambre, Teruel,
España. Telescopio JST/T250 de 2,55m de diámetro y cámara panorámica
científica. La JPCam tiene 1.300 Megapixels, compuesta por un mosaico de 14
CCD.
Alcance: 100 millones de galaxias
Magnitud límite: 22 (~ 10m OTA)
Tecnología: 300 cores cluster
Flujo de datos: 2 TB/día.
Archivo total: 2,5 PB
CEFCA
Wal-Mart Stores, Inc., marcada como Walmart, es una corporación
multinacional de minoristas de origen estadounidense, que opera cadenas de
grandes almacenes.
Archivo total: 2,5 PB
Off-topic: Walmart
Diez radiotelescopios con reflectores de 25
metros.
Tecnología: Linux Beowulf cluster
Flujo de datos: 100 TB/día.
Archivo total: 10 PB
Very Long Baseline Array (VLBA)
El Panoramic Survey Telescope and Rapid Response System, son dos
telescopios de 1.8 m tipo Ritchey-Chretien en Hawaii. Es el mayor survey
operativo del mundo y su misión principal es la detección de asteroides
potencialmente peligrosos. Un sensor mosaico de CCD, en total 1.400
megapixels.
Magnitud límite: 24 (~ 40m OTA, como el European Extremely Large
Telescope)
Tecnología: PSPS
Flujo de datos: 5 TB/día.
Archivo total: 20 PB
Pan-STARRS
En construcción y operativo hacia el 2020, el Large Synoptic Survey Telescope
será un telescopio de 8.4 metros equipado con una cámara digital de 3.200
Megapixels. La cámara digital más grande del mundo tomará 800 imágenes
cada noche.
Alcance: 4.000 millones de galaxias
Magnitud límite: 24 (~ 40m OTA, como el European Extremely Large
Telescope)
Flujo de datos: 10 TB/día.
Archivo total: 60 PB
LSST, Chile
Large Hadron Collider: 150 millones de sensores ofreciendo datos 40 millones
de veces por segundo.
Experimento ATLAS, Higgs boson
Tecnología: MongoDB/CouchDB
Flujo de datos: 100 TB/día.
Archivo total: 140 PB
Off-topic: CERN, LHC
Proyecto de radiotelescopio ubicado en Australia y
Sudáfrica, con 3.000 antenas haciendo interferometría,
operativo en el 2024.
"Massive Processing: 10^9 top range PCs" (como 1.000 Googles)
Flujo de datos: 10 EB(exabytes)/día, aunque la mayoría se descarta...
Archivo total: 200 PB (todo lo impreso en el mundo)
Square Kilometer Array (SKA)
Tecnología: Apache Hadoop/MapReduce
Flujo de datos: 500 TB/día.
Archivo total: 300 PB
Off-topic: Facebook
Tecnología: BigTable, Mesa
Flujo de datos: 25 PB/día.
Archivo total: 2 EB (exabyte, 10^18 bytes)
Off-topic: Google
Flujo de datos: 5 EB/día.
Archivo total: 250 EB
Off-topic: Internet
Archivo total: 1 ZB (zettabyte, 10^21 bytes)
Off-topic: Información digital en todo el mundo
Información que contiene el Universo entero según un
cálculo de Seth Lloyd, investigador de Complex Systems
en el MIT.
Archivo total: 10^91 bytes
Universo
Procesamiento de Datos
● ¿Cómo son los datos astronómicos?
● ¿Cómo se almacenan?
● ¿Qué podemos hacer con ellos?
Ficheros FITS
● Flexible Image Transport System
● Cabeceras ASCII de metadatos: ubicación, condiciones
ambientales, instrumentación, etc.
● Caben imágenes (visible, infrarrojos, rayos X),
espectros electromagnéticos, listas de fotones, cubos
de datos, incluso tablas de datos.
Soluciones de Archivo
En Big Data / Cloud se usan sistemas distribuidos de
archivo:
● Google File System (GFS)
● Hadoop Distributed File System (HDFS), Yahoo
● Amazon S3 (Simple Storage Service)
● Windows Azure Storage
Soluciones de Procesamiento
● ¿Cómo sumar imágenes?
● ¿Cómo reducir/transformar datos?
● ¿Cómo ordenar los objetos detectados?
Coaddition mediante MapReduce
● MapReduce es multiplicar una orden en el
cluster.
● La solución de código abierto más extendida
de MapReduce es Hadoop.
● Amazon EC2 ofrece un servicio de Hadoop.
Coaddition mediante MapReduce
Ejemplo de co-addition:
Región del cielo: SDSS Stripe
82, R bandpass. Tras sumar
79 exposiciones el ratio S/N
(signal/noise) mejora en un
factor 9, y se detectan nuevos
objetos.
Selección de imágenes: Apache Pig
Con Pig Latin, al igual que usa Yahoo para
gestionar su enorme cantidad de datos, es
posible ejecutar operaciones de Hadoop con
un lenguaje de alto nivel, similar a SQL.
Reducción de datos
● Imágenes FITS
● magnitudes, variabilidad, espectro
● curva de luz, corrimiento al rojo, líneas de
emisión
Clasificación de objetos
● Técnicas de Advanced Machine Learning
(Data Science)
● Por ejemplo, la DECam usa MCMC (Markov
chain Monte Carlo) para diferenciar galaxias
Support Vector Machines (SVM)
● Algoritmo de clasificación que encuentra el “hiperborde” entre distintos
tipos de datos.
● Reconocimiento de habla y escritura, visión artificial,...
● Mediante lenguaje R y librerías CRAN
función svm ( install.packages('e1071') )
● Es el método que mejor funciona para discernir estrellas de la secuencia
principal, de enanas blancas y de cuásares, respecto a otros como LDA,
k-Nearest-neighbor, Regression Trees.
● ¿Cómo hacer esto con Big Data? ... Existen librerías de código abierto
que implementan Support Vector Machines (SVM) paralelizado en GPUs,
sistemas multinúcleo en CPU y también sistemas distribuidos tipo Cloud.
The SVM must be trained, just as Artificial Neural
Networks. It maps training data in the "input
space" into a high dimensional "feature space". It
determines a linear decision boundary in the
feature space by constructing the "optimal
separating hyperplane" distinguishing the classes.
This allows the SVM to achieve a nonlinear
boundary in the input space. The "support
vectors" are those points in the input space which
best define the boundary between the classes.
Work on SVMs began in the 1960s but recent
developments in the 1990s have made SVMs
much more useful for application to real-world
problems.
Plataformas comerciales Cloud
● Google Compute Engine
● Amazon Elastic Compute Cloud (EC2)
● Microsoft Azure
● Rackspace
● Salesforce
● IBM
Creating A Galactic Plane Atlas
● Ejemplo de Big Data en Astronomía
● Amazon EC2
● Un cluster de máquinas Unix
● Equivalente a 30 años de ejecución en CPU.
● "Creating A Galactic Plane Atlas With Amazon Web
Services" por G. Bruce Berriman, Ewa Deelman, John
Good, Gideon Juve, Jamie Kinney, Ann Merrihew,
Mats Rynge.
Galaxy Zoo Supernovae
● Ejemplo de Big Data en Astronomía
● Amazon EC2 y Amazon S3 como almacenamiento
● "Galaxy Zoo Supernovae", A. M. Smith, et all.
● Se han descubierto asteroides, supernovas y estrellas variables.
LSST
● Ejemplo de Big Data en Astronomía
● Google Exacycle
● "Simulating a Dynamic Universe with the Large Synoptic Sky Survey" por
Jeff Gardner, University of Washington, Seattle, WA
Unificando el Big Data astronómico
Los Observatorios Virtuales son centros abiertos de datos
donde se aglutinan las observaciones realizadas en
distintos observatorios a lo largo del planeta.
● International Virtual Observatory Alliance (IVOA)
ivoa.net
● The European Virtual Observatory Euro-VO
euro-vo.org
● Spanish Virtual Observatory
svo.cab.inta-csic.es
Citizen Science, eScienceCiencia Ciudadana: investigación científica llevada a cabo por una suma de colaboradores, en su totalidad
o en parte por científicos, profesionales junto a gente común.
● Galaxy Zoo: Creado en el 2007 con el objeto de clasificar 900.000 galaxias, explorando visualmente
los últimos surveys disponibles.
● Stardust@home: Se estudian el polvo recogido del Cometa Wild2 por la sonda espacial Stardust.
Aquél que realice un descubrimiento co-firmará los artículos científicos del proyecto Stardust@home.
● SETI@home: científicos utilizan los ordenadores de voluntarios conectados a Internet para la
búsqueda de inteligencia extraterrestre: setiathome.berkeley.edu
● Otros: asteroids@home, cosmology@home, einstein@home, milkyway@home, SETIlive, …
● Off-topic: Mención especial a ibercivis.es, proyecto aragonés de ciencia ciudadana, desarrollado en el BIFI.
Pregunta Abierta
● ¿Cómo serán los telescopios de
aficionados del futuro?
● ¿Se comercializará en el año
2020 el C14 series Big Data?
● ¿Qué sorprendentes
funcionalidades incluirá?
Juan Ignacio Pérez Sacristán
linkedin.com/in/semanticwebarchitect
Bibliografía
* Big Data en la Astronomía: Una copia digital del universo, Sara Zambrano,
blog.nul-unu.com/2013/10/08/big-data-en-la-astronomia-una-copia-digital-del-universo/
* The Observatorio Astrofísico de Javalambre: current status and future developments, A.J. Cenarro, M. Moles, D. Cristóbal-Hornillos, et all.
sea-astronomia.es/drupal/sites/default/files/archivos/proceedings10/instrumentacion/ORALES/cenarroaj.pdf
* Large Scale Data Processing and Astronomy: Mashups, Widgets, and Custom Configurable Data Applications, Andrew Connolly
escience.washington.edu/get-help-now/astronomy-large-scale-data-processing
* Astronomical Image Processing with Hadoop, Keith Wiley
escience.washington.edu/get-help-now/astronomical-image-processing-hadoop
* Big data challenges in astronomy, Juande Santander-Vela
slideshare.net/juandesant/10-astronomy-bigdatachallenges
Bibliografía
* From Big Bang to Big Data, wordlessTech
wordlesstech.com/2012/04/04/from-big-bang-to-big-data/
* Analytics Astronomy: Unlocking the Physics of the Web, Kris Bishop
exchanges.wiley.com/blog/2013/06/06/analytics-astronomy-unlocking-the-physics-of-the-web/
* Putting Astronomy's Head in the Cloud, CluE
ssg.astro.washington.edu/clue.shtml?clue/CluE1
* Wiley, Keith, et al. "Astronomy in the cloud: using mapreduce for image co-addition." Astronomy 123.901 (2011): 366-380.
* Loebman, Sarah, et al. "Analyzing massive astrophysical datasets: Can Pig/Hadoop or a relational DBMS help?." Cluster Computing and
Workshops, 2009. CLUSTER'09. IEEE International Conference on. IEEE, 2009.
* Ekanayake, Jaliya, Shrideep Pallickara, and Geoffrey Fox. "Mapreduce for data intensive scientific analyses." eScience, 2008. eScience'08.
IEEE Fourth International Conference on. IEEE, 2008.
Bibliografía
* Tim Adams, Galaxy Zoo and the New Dawn of Citizen Science, The Guardian, Mar. 17, 2012
guardian.co.uk/science/2012/mar/18/galaxy-zoo-crowdsourcing-citizen-scientists
* Space telescopes and human genomes: How researchers share petabyte data sets, Sean Gallagher
arstechnica.com/information-technology/2013/04/the-troubles-with-storing-and-sharing-the-universe-and-our-dna/
* 219 million stars: a detailed catalogue of the visible Milky Way
ras.org.uk/news-and-press/2507-219-million-stars
* Prolific NASA Mars Orbiter Passes Big Data Milestone
jpl.nasa.gov/news/news.php?release=2013-324
* Students tackle astronomically big data challenges in Chile
iacs.seas.harvard.edu/news/students-tackle-astronomically-big-data-challenges-chile
Bibliografía
* Google's fact-checking bots build vast knowledge bank, 20 August 2014, Hal Hodson
newscientist.com/article/mg22329832.700-googles-factchecking-bots-build-vast-knowledge-bank.html
* How to Manage Exabytes of Distributed Data?, Rich Brueckner
insidehpc.com/2014/03/manage-exabytes-distributed-data/
* NASA uses big data to confirm 715 strange new exoplanets
geek.com/science/nasa-uses-big-data-to-confirm-715-strange-new-exoplanets-1586061/
* Astronomy and Big Data: A Data Clustering Approach to Identifying Uncertain Galaxy Morphology by Kieran Jay Edwards and Mohamed
Medhat Gaber
ISBN: 331906598X, 2014
Bibliografía
* Advances in Machine Learning and Data Mining for Astronomy by Michael J. Way, Jeffrey D. Scargle, Kamal M. Ali and Ashok N. Srivastava
* Machine Learning Algorithm Cheat Sheet
lauradhamilton.com/machine-learning-algorithm-cheat-sheet
* Sakr, S., Liu, A., & Fayoumi, A. G. (2013). The family of MapReduce and large-scale data processing systems. ACM Computing Surveys
(CSUR), 46(1), 11.
* Scientists show what 100M computing hours on Google’s cloud can do
gigaom.com/2012/12/17/scientists-show-what-100m-computing-hours-on-googles-cloud-can-do/
googleresearch.blogspot.com.es/2012/12/millions-of-core-hours-awarded-to.html