2º Jornada de Supercomputación E.T.S.I. Aeronaúticos...

Preview:

Citation preview

1

2º Jornada de Supercomputación E.T.S.I. Aeronaúticos UPM

Lustre: A High Performance Open Source File System

Gregorio ChillónTechnical SpecialistSun Microsystems

1

2

Agenda

• Introducción• Arquitectura y funcionalidades• Hardware recomendado• Una solución completa con SAM­QFS• ¿Quién lo utiliza?

3

Introducción

4

¿Qué es lustre?• Es un sistema de ficheros distribuido en red de alto 

rendimiento• ¿Qué quiere decir esto?

> Que es un sistema de ficheros compartido. Los datos se comparten entre varios clientes (tipo NFS)

> Que es un sistema de ficheros en red. No se accede a través de una SAN

> Los clientes ven un solo sistema de ficheros> Varios clientes pueden acceder de forma simultanea al 

sistema de ficheros y lustre gestina los bloqueos

5

¿Qué es lustre?• Es una solución software• Es Open Source, licencia GNU GPL• Soporte para todo tipo de tecnologías de red 

(LNET)• Proporciona alta disponibilidad (sin puntos únicos 

de fallo)• Proporciona una gran escalabilidad y rendimiento

6

Retos del almacenamiento para HPCQue necesitan nuestros clientes

Rendimiento Escalabilidad Facilidad instalación Reducir costes

7

Respondiendo a estos retosRendimiento y escalabilidad

• Rendimiento escalando desde 1 a más de 240GB/s

• Escalabilidad casi lineal> Escalabilidad de ~90%  del máximo teórico 

• Crecimiento online de forma sencilla> Se puede aumentar facilmente capacidad y rendimiento

• Escalabilidad masiva cuando es necesaria> Sistema de ficheros escalable hasta 2000 millones de 

ficheros y 32 petabytes para crecimientos de datos grandes

> Desde unos pocos hasta miles de clientes – escalabilidad real de pequeño a grande

8

Respondiendo a estos retosFacilidad de instalación y configuración

• Servidores Sun Fire y almacenamiento de Sun probado y certificado para obtener los mejores resultados en el despliegue y funcionamiento de lustre

• Aproximación modular permite una configuración y despliegue más rápido 

• Sun HPC Software Linux Edition: una pila de software para HPC que ha sido probado/certificado (incluye lustre)

• Servicios de instalación y configuración

9

Respondiendo a estos retosRedución de costes

• Se beneficia del uso de componentes hardware estandar que permite el software open source> Sistemas estandar vs sistemas de 

almacenamiento propietario

• Facilidad de instalación ahorra tiempo y dinero

10

Arquitectura

11

Arquitectura• Lustre es una arquitectura de almacenamiento

– Lustre separa metadatos (MDS) de datos (OSS)

– Escalabilidad horizontal de E/S entre todos los servidores – Paraleliza E/S gestionando bloqueos

– Aumentar la capacidad añadiendo almacenamiento

– Aumentar el rendimiento añadiendo servidores

– Puede usar cualquier tipo de almacenamiento (dispositivos tipo bloque)

12

Arquitectura

OSS 7

Servidores de metadatos (HA)

Clientes Lustre

1 ­ 100,000

MDS disk storage containing Metadata Targets (MDT)

= failover   

MDS 1

(activo)

MDS 2

(standby)

OSS 1

OSS 2

OSS 3

OSS 4

OSS 5

OSS 6

Servidores de datos (OSS)

1­1000’s

Commodity Storage

Almacenamiento de gama alta

Soporte simultaneo para distintos tipos de red

Router

GigE

Elan

Myrinet

InfiniBand

Almacenamiento compartido para permitir alta disponibilidad

OSS storage with Object Storage Targets (OST)

13

Arquitectura

• Clientes– Acceden al sistema de ficheros

• Servidor de gestión (MGS)– Proporciona información de configuración a los clientes

– Notifica a otros nodos de cambios en la configuración

– Por defecto almacena su información en un MDT

– 1 servidor MGS (o dos en configuración ­ Active/Standby) por site

14

Arquitectura

• Servidor de metadatos (MDS)– Proporciona información de metadatos 

– Almacena su información en MDT (Metadata Targets)

– 1 MDT por sistema de ficheros

– Cada MDT pertenece a un único sistema de ficheros

– Se puede configurar el alta disponibilidad 

15

Arquitectura

• Servidor de datos (OSS)– Proporciona E/S para los datos en el sistema de ficheros 

(striping data)

– Almacena la información en OST (Object Storage Targets)

– Cada OST pertenece a un solo sistema de ficheros

– Tamaño máximo de OST: 8TB

– Máximo #OST/sistema de fichetos: 1020

– Se puede configurar un par de servidores de datos en cluster “Active/Active”, pero cada OST puede ser exportado únicamente por un servidor de datos

16

Como funciona– El cliente obtiene información del sistema de ficheros del 

servidor de gestión (MGS) (<mgsnid> is passed on mount.lustre) 

– El cliente envía/recibe todos los metadatos del servidor de metadatos MDS (open/close ficheros y directorios)

– El cliente (LOV) escribes los datos (stripes) entre todos los OST exportados por los servidores OSS

17

Alta disponibilidad• Sin punto único de fallo• Las modificaciones de metadatos son asíncronas

– El cliente salva una copia de sus escrituras

– Si el servidor falla, el cliente repite su petición

– El cliente solo descarta sus peticiones, cuando el MDS le informa que se han realizado los cambios en el MDT

• MDT y OST soportan configuración en HA– Configurar un par de servidores con almacenamiento compartido

– Linux­HA (Heartbeat) failover MDT/OST

– El cliente bloquea E/S e intenta reconectarse al servidor de respaldo, para repitir. La aplicación en el cliente se bloquea.

18

Alta disponibilidad• MDT/OST Failover

– Failover se configura en modo activo/pasivo– Cada disco solo se puede montar en un servidor.– NUNCA se puede montar el mismos MDT/OST en dos servidores 

(PERDIDA DE DATOS)

• Un par de servidores se puede configurar en activo/activo

– Cada servidor exporta uno o mas OST/MDT

19

¿Qué nos proporciona lustre?

Quota, Failover, POSIX, POSIX ACL, secure portsFuncionalidades

TrainingFormación

Número de ficheros: 2000 millonesTamaño de un sistema de ficheros: 32PB, Tamaño max fichero 1.2PB

Capacidad

Soporte nativo para distintas tecnologías de redRedes

Servidores de metadatos (MDS): 1 + failoverServidores de datos (OSS): hasta 450

# servidores

Un solo cliente o servidor: 2 GB/s +BlueGene/L – primera semana: 74M ficheros, 175TB escritosE/S agregada (One FS): ~130GB/s (PNNL) Operaciones de metadatos: ~15,000 ops/second

Rendimiento

Software reliability on par with hardware reliabilityIncreased failover resiliency

Estabilidad

Clientes: 25,000 – Red StormProcesos: 130,000 – BlueGene/L

# clientes

20

Hardware recomendado

21

Hardware recomendado

22

Una solución completa (SAMQFS)

23

Solución completa de almacenamiento

Red IBSAN

Archive

Lustre – datos online SAM-QFS – datos archivados

Nodos de cómputo

Servidores de datos

Data Movers

Recuperar

Near Line Archive

Tier 1 Archive

Servidores demetadatos

24

¿Quién lo utiliza?

25

¿Quién lo utiliza?

• Lustre es el sistema de ficheros lider en entornos HPC

– Siete de los sistemas del TOP 10

– 50% de los treinta primeros sistemas del TOP 500

26

Sandia Red Storm340 TB Storage; 50GB/s I/O throughput

12.960 multi­core compute sockets

Livermore Blue Gene/LSCF3.5 PB storage; 52 GB/s I/O throughput

131.072 processor cores

TACC Ranger1.73 PB storage; 40GB/s I/O throughput

62.976 processor coresres

ORNL Jaguar10.5PB storage; 240 GB/s I/O throughput goal

265.708 processor cores

27

FRAMESTORE CFC ­ MediaNecesidades del cliente>Eliminar los cuellos de botella en el almacenamiento derivados de la falta de escalabilidad de NFS

>Aumentar el rendimiento y la estabilidad del almacenamiento

Propuesta de valor de lustre>Duplicó su almacenamiento con un coste tres veces menor al de otras soluciones

>Posilibilidad de proporcionar un sistema de ficheros único a sus artistas de producción

>Software open source con gran flexibilidad en el hardware que puede utilizar

 “ While we were working on The Golden Compass, we faced the most intensive I/O requirements on any project to date. Lustre played a vital role in helping us to deliver this project. ”— Daire Byrne, senior systems integrator, Framestore 

28

Level3  ­ Telecomunicaciones

Necesidades del cliente>Asegurar la disponibilidad permanente

>Porporcionar un servicio escalable

>Controlar los costes

Propuesta de valor de lustre>Posibilidad de escalar de forma sencilla

>Funciona con cualquier tipo de almacenamiento

>Alto rendimiento y fiabilidad

NBC broadcast 2008 Summer Olympics live online over Level 3 network using Lustre

“With Lustre, we can achieve that balancing act of maintaining a reliable network with less­costly equipment. It allows us to replace servers and expand the network quickly and easily”   ­ Kenneth Brookman, Level 3 Communications

29

Chebron ­ EnergíaNecesidades del cliente>Procesar grandes cantidades de datos

>Mantener el coste del hardware dentro de lo razonable

>Escalar el cluster existente con facilidad

Propuesta de valor de lustre>Capacidad de dar respuesta al crecimiento exponencial de los datos

>Capacidad para que los clusters de computación escalen

>Reducir los costes hardware

>Reducir los costes de mantenimiento

More   Success  

30

GraciasGregorio Chillóngregorio.chillon@sun.com

30

Recommended