Upload
barcelona-tech-upc-barcelona-supercomputer-center-bsc
View
353
Download
0
Embed Size (px)
DESCRIPTION
Aquests setmana m'han convidat a les XII Jornades Fòrum Català d'Informació i Salut per fer la conferència inaugural al CosmoCaixa. Com sempre que puc deixo a l'abast de tothom les transparències per si són del seu interés. Gràcies a la junta de Fòrum CIS per convidar-me, va ser molt enriquidor també per a mi la participació.
Citation preview
Jordi Torres www.JordiTorres.eu
Big Data: realitats i reptes
Jordi Torres www.JordiTorres.eu
Big Data: realitats i reptes
3
On podem fer un primer tast de Big Data?
www.google.es/trends
Source: @NewsReputa6on – Blog SM Reputa6on Metrics
Font: Red Nacional de Vigilancia Epidemiológica Ins6tuto de Salud Carlos III
Source: @NewsReputa6on – Blog SM Reputa6on Metrics
Font: Red Nacional de Vigilancia Epidemiológica Ins6tuto de Salud Carlos III
www.google.es/trends
Source: @NewsReputa6on – Blog SM Reputa6on Metrics
Font: Red Nacional de Vigilancia Epidemiológica Ins6tuto de Salud Carlos III
www.google.es/trends
¿?
9
De què parlem quan parlem de
Big Data?
Ens referim al conjunts de dades tan grans i tan complexos que fa molt di6cil el seu processat “ú9l” amb les eines TIC convencionals.
Per exemple, algunes xifres en Salut:
• Ac6vitat Hospitalària – Altes 732.684 – Visites 3.739.053 – Urgències 3.243.778
• Visites Atenció Primària 44.884.529
• Receptes 141.914.284
Source: hWp://www.theatlan6c.com/health/archive/2012/05/big-‐data-‐can -‐save-‐health-‐care-‐0151-‐but-‐at-‐what-‐cost-‐to-‐privacy/257621/
UNA REALITAT: Els pacients i els hospitals tenen grans Volums de dades clíniques, en paper o electròniques Però… que romanen sense u6litzar “del tot” per la dificultat de "digerir”-‐les de manera efec6va.
Source: hWp://www.theatlan6c.com/health/archive/2012/05/big-‐data-‐can -‐save-‐health-‐care-‐0151-‐but-‐at-‐what-‐cost-‐to-‐privacy/257621/
13
No només parlem de ”Volum”, també de parlem de “Varietat”
Dades estructurades • són les dades clàssics dels
pacients (nom, edat, sexe ...)
Dades no estructurats • receptes de paper • els registres mèdics • les notes manuscrites i de veu
de metges i infermeres • Imatges mèdiques: radiografies,
escàners, RM, TAC … • …
i també de “Velocitat”
Nou allau de dades que provenen de: • dispositius, • sensors, • fitness, • aparells mèdics diversos, • dades hospitalàries • ...
I cal sumar les dades procedents de: • els mitjans socials • dels telèfons intel.ligents, • d'àrees com la genòmica, • etc, etc, etc.
Source: cetem
ma - m
ataró
15
Definició de Big Data?
BIG DATA: 3V Velocity
Volume
Variety
17
Altres reptes a tenir en compte?
La transferència de dades d’un lloc a un altre – Enviament de dades enviant discos físics per correus! – …
Source: http://footage.shutterstock.com/clip-4721783-stock-footage-animation-presents-data- transfer-between-a-computer-and-a-cloud-a-concept-of-cloud-computing.html
La transferència de dades d’un lloc a un altre – Enviament de dades enviant discos físics per correus! – …
– Futur?
Les dades no seran mogudes!
Source: http://footage.shutterstock.com/clip-4721783-stock-footage-animation-presents-data- transfer-between-a-computer-and-a-cloud-a-concept-of-cloud-computing.html
Seguretat i privacitat de les dades dels individus – Els mateixos problemes que apareixen en altres arees – Solució? Us d’algoritmes d’encriptació avançats? HSM?
Source: http://www.tbase.com/corporate/privacy-and-security
Augment de la necessitat d’emmagatzemar dades – Han sorgit solucions de computació en el cloud.
Sou
rce:
http
://
ww
w.c
usto
dia-
docu
men
tal.c
om/w
p-co
nten
t/upl
oads
/Clo
ud-B
ig-D
ata.
jpg
Els inhibidors de Cloud Computing més comuns han de ser abordats aquí també
Security Privacy Lack of Standards
Data Integrity Regulatory Data
Recovery
Control Vendor Maturity ...
24
Quina és la utilitat del Big Data?
Crear “Valor” a partir de les dades
DERIVAR VALOR MITJANÇANT L’APROFITAMENT DE: VOLUME, VARIETY AND VELOCITY
La informació no és “acTonable knowledge”
DERIVAR VALOR MITJANÇANT L’APROFITAMENT DE: VOLUME, VARIETY AND VELOCITY
28
Knowledge
Informa6on
Data
+
Volume
- +
-
Valu
e
Realitza prediccions dels resultats i comportaments
Enfoc: Machine Learning "funciona" en el sentit que aquests mètodes detecten estructura subtil en les dades amb relativa facilitat sense haver de fer suposicions fortes sobre els paràmetres de les distribucions
29
Quin és el repte real darrera de
tot plegat?
The big data problem:
In the end it is a Computing Challenge
Exemple: Genòmica
– Més de 2000 punts de sequenciació arreu
– Més de 15 petabytes/any de dades genètiques
I en breu…, decenes de centenars de sequenciadors!!!
Image source: https://share.sandia.gov/news/resources/ news_releases/images/2009/biofuel_genes.jpg
1 Petabyte = 1000 x (1 Terabyte )
assume 100MB/sec
more than 5 hours
assume 100MB/sec
scanning 1 Terabyte:
scanning 1 Petabyte: more than 5.000 hours
Suposem 10.000 discos: Llegir 1 TB requereix 1 segon
Paral.lelisme massiu
Source: hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg
Solució?
37
Quins avenços ens esperen en el
sector TIC?
(*) apartat dedicat als TIC de la sala ;-)
38
Tres grups d’ avenços:
Processat de dades mitjançant centenars de milers de servidors
Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.
Noves insfrastructures de sistemes
Com s’ho fa google per programar tenint en
compte que les dades provenen de 10.000 discos en paral.lel?
Source: hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg
How do companies like google read and process data from 10.000 disks in
parallel? Source: hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg
I el processat en temps real? Execució d’una consulta a una base de dades
Temps real
Source: Scalabilit y Challenges for Big Data Science – BerlinBuzzwords, June 4, 2012 © 2012 by Mikio L. Braun
– Storm – Kafka
– S4 – Spark – Sur – Kinesis – SAMOA – …
42
Tres grups d’ avenços:
Processat de dades mitjançant centenars de milers de servidors
Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.
Noves insfrastructures de sistemes
Big Data resource management
Les Bases de Dades relacionals no són adequades per a problemes de Big Data
à Non-relational databases (NoSQL)
Relaxing consistencyàEventual consistency
Big Data characteristics
Requirements from data store
Volume Scalability
Variety Scheme-less
Velocity Relaxed consistency & capacity to digest
NoSQL Systems
44
Tres grups d’ avenços:
Processat de dades mitjançant centenars de milers de servidors
Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.
Noves insfrastructures de sistemes
“Active Storage Fabrics”
Active Storage Fabric Compute Dense Compute Fabric
Archival Storage Disk/Tape
Evolution of Flash Adoption
April 28, 2013 SNIA NVM Summit 4
F L A S H A S M E M O R Y
F L A S H + D I S K
F L A S H A S D I S K
Important: Remote Nodes Have Gotten Closer
• La interconnexió ha esdevingut més ràpida
• La latència d’una IB és aprox. 2000ns, que és només 20x més lenta que la RAM i 100x més ràpida que els SSD
Source: http://www.slideshare.net/blopeur/hecatonchire-kvm-forum2012benoithudzia
47
Cap a on anem a nivell tecnològic?
(1) Nou paradigma de la computació
Old Compute-centric Model
New Data-centric Model
Massive Parallelism Persistent Memory
Flash
Manycore FPGA
Source: Heiko Joerg http://www.slideshare.net/schihei/petascale-analytics-the-world-of-big-data-requires-big-analytics
Internet of Things (2) Internet of Things: Tot connectat al Cloud!
Future of Cloud: “Fog” Computing? (3) O tot serà Cloud? (Fog computing?)
Parin atenció a la “moguda de IoT” !
… en molt pocs anys portarem tota la tecnologia (ordinador, telèfon, càmera…) sempre a sobre a través del rellotge, roba, ulleres...
Pas previ per a portar-ho insertat en la pell? Gran impacte en el seu sector, veritat?
53
I per acabar...
Infinites! tant per a l'àrea mèdica, com també per a les àrees d'anàlisi de dades (històries mèdiques, anàlisis clíniques ...), la gestió de centres de salut, l'administració hospitalària, la documentació científica (generació, emmagatzematge i explotació) ..
Oportunitats d’usar el Big Data en el seu sector?
Per exemple: combinant les dades tradicionals amb altres de noves tant a nivell individual com poblacional realitzant la integració de dades estructurades i no estructurades Etc.
Sense oblidar la Internet de les Coses com un dels pilars dels Big Data:
– Utilització de xips per monitoritzar pacients.
– en els centres hospitalaris, ajudant a les cures mèdiques tant presencials com en el propi domicili del malalt.
que per exemple permetrà acumular més dades dels pacients i amb això millorar el diagnòstic previ gràcies a l'anàlisi comparativa de perfils amb el mateix diagnòstic
Source: cetem
ma - m
ataró
Com ho veuen?
Gràcies per la seva atenció
Trobaran les transparències a www.JordiTorres.eu i @JordiTorresBCN