UNIVERSIDAD CARLOS III DE MADRID Área de Arquitectura y Tecnología de Computadores Sistemas...

Preview:

Citation preview

UNIVERSIDAD CARLOS III DE MADRIDÁrea de Arquitectura y Tecnología de Computadores

Sistemas Operativos Avanzados

Nuevas tendencias en procesadores

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 2 –

Arquitecturas con varios procesadores

Arquitectura

Tecnología

Mercado

Aplicaciones

Posibilidades

Restricciones Económicas

Selección

Demanda

Nuevas Restricciones

Posibilidades

Posibilidades

Capacidades PrestacionesPromueve

Generación

Fundamental

Fuerte

VisibleAdaptado de Vajapeyam/Valero (Computer, Abril 2001)

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 3 –

Tecnología

Procesadores de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos.

Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores)

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 4 –

Aplicaciones y Mercados

Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador.

Demanda elevada de disponibilidad: Procesamiento de transacciones. Sistemas de control con restricciones de alta

seguridad (medicina, transportes, ...). Aplicaciones sobre internet (mercados financieros

contínuos, acceso a información, computación móvil) necesidad de disponibilidad 24x7.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 5 –

La falsa ley de Moore

El rendimiento se multiplica por dos cada dos años. El progreso en rendimiento de los dos próximos años

igualará el progreso de todo el pasado.

No tiene en cuenta que: La latencia de la memoria no progresa al mismo

ritmo.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 6 –

CPU / Memoria

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 7 –

La verdadera ley de Moore

El número de transistores en un chip se dobla cada 18-24 meses.

Pero con las latencias de memoria incrementándose, esto no tiene efecto sobre aplicaciones en un único hilo.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 8 –

Ritmo de mejora

SI PROSIGUE

Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible

Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado)

SI NO PROSIGUE

Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 9 –

Mejoras en la tecnología

Mejoras: Reducción del tamaño de los transistores. Aumento de la superficie.

Efectos: Más transistores por circuito integrado.

Microarquitecturas más complejas en un solo circuito integrado.

Paralelismo entre instrucciones Procesadores superescalares.

Reducción de la longitudo de puerta y tiempo de conmutación.

Mayores frecuencias de funcionamiento.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 10 –

Reducción de ciclos por instrucción

IF ID EX MEM WB

IF ID EX MEM

WB

IF ID EX MEM WB

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

Inst. 1

Inst. 2

Inst. 1

Inst. 2

Inst. 3

Inst. 4

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

IF ID EX MEM

WB

Inst. 1

Inst. 2

Inst. 3

Inst. 4

5T

No segmentado

Segmentado

Superescalar o VLIW

CPI=5

T

CPI=1

T

CPI=0.5

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 11 –

Procesadores superescalares

Procesador más complejo.

Más recursos para ejecutar más instrucciones por ciclo.

Captador

BTB

Cola deInstrucciones

Decodificador

Buffer de Reorden

Banco de Registros

Ventana deInstrucciones

Saltos Desplz.ALU Comp. Direcc.

Buffer de Reorden

Banco de Registros

Ventana deInstrucciones

Suma Mult.Conv. Div. Direcc. Saltos

Buffer deAlmacen.

Buffer deCarga

Unidad de Enteros

Unidad de Flotantes

Captador

BTB

Cola deInstrucciones

Decodificador

Buffer de Reorden

Banco de Registros

Ventana deInstrucciones

Saltos Desplz.ALU Comp. Direcc.

Buffer de Reorden

Banco de Registros

Ventana deInstrucciones

Suma Mult.Conv. Div. Direcc. Saltos

Buffer deAlmacen.

Buffer deCarga

Unidad de Enteros

Unidad de Flotantes

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 12 –

Límites de la mejora

La mejora prevista para procesadores superescalares es del 12% anual hasta 2014 Factor de incremento de prestaciones de 7.4.

Factor de mejora anual anterior = 55% Factor acumularo de 1700.

Alternativas: Procesamiento de un único hilo: VLIW Procesamiento praralelo de varios hilos SMT y CMP

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 13 –

VLIW: Itanium 2 (IA-64)

Paralelismo responsabilidad del compilador

Cache L1 ITLB L1I

Predicción de Saltos

Patrones de Historia

Buffer Direcciones relativas a IP

+32

Buffer de Instrucciones (8 haces = 24 instr.)

Decodificación y distribución de instrucciones

M M M M I I F F B B B

TLB L2D

ALATCache

L1DALU

enteros Multim.enteros

Saltos

Coma Flotante

RSE

Detección de Riesgos

Renomb.

FPRenombramiento Enteros

Registros para EnterosRegistros

FP

Marcas L2

CacheL2

CacheL3

Interfaz Sistema

IPG

ROT

EXP

REN

REG

EXE FP1

DETFP2WRBFP3

FP4

Antesala

Núcle

o

Cache L1 ITLB L1I

Predicción de Saltos

Patrones de Historia

Buffer Direcciones relativas a IP

+32

Buffer de Instrucciones (8 haces = 24 instr.)

Decodificación y distribución de instrucciones

M M M M I I F F B B B

TLB L2D

ALATCache

L1DALU

enteros Multim.enteros

Saltos

Coma Flotante

RSE

Detección de Riesgos

Renomb.

FPRenombramiento Enteros

Registros para EnterosRegistros

FP

Marcas L2

CacheL2

CacheL3

Interfaz Sistema

IPG

ROT

EXP

REN

REG

EXE FP1

DETFP2WRBFP3

FP4

Antesala

Núcle

o

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 14 –

SMT: Pentium 4 HT

Procesador ejecuta dos hilos simultaneamente. Hilos pueden pertenecer

al mismo proceso o a procesos diferentes.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 15 –

CMP: IBM Power 4

Dos procesadores superescalares en un único chip.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 16 –

Otra arquitectura novedosa: Cell

Originalmente concebido por Sony para la PlayStation 3.

Trabajo conjunto de Sony, IBM y Toshiba.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 17 –

Razones

Sony y Toshiba desan ahorrar costes produciendo sus propios componentes.

La siguiente generación de electrónica de consumo requiere alta potencia de cómputo (un decodificador de televisión digital que procese todos los canales simultáneamente).

IBM ha anunciado servidores basados en Cell.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 18 –

Especificaciones

Formado por: 1 procesador principal (PPE). 8 procesadores auxiliares (SPE’s). Bus de interconexión (EIB). Controlador DMA (DMAC). 2 controladores de memoria Rambus XDR. Interfaz de entrada salida Rambus.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 19 –

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 20 –

PPE

Núcleo de procesador convencional. Ejecuta el SO y parte de las aplicaciones,

descargando partes a los SPE’s. Es un procesador de 64 bits con arquitectura

“Power”. Caché 512 KB.

IMPORTANTE: Juego de instrucciones compatible con PowerPC, pero arquitectura totalmente rediseñada. Los ciclos por instrucción no son comparables a

igualdad de frecuencia de reloj.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 21 –

PPE

Es un procesador de dos hilos (SMT).

Diseño muy simple al no implementar ejecución de instrucciones fuera de orden ahorro de mucho silicio. ahorro de consumo.

Contrapartida: Más trabajo para el compilador Necesidad de

buenos compiladores.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 22 –

SPE’s

Procesador vectorial. Cada SPE contiene:

128 registros de 128 bits. 4 unidades de coma flotante. 4 unidades artiméticas enteras. Memoria local de 256 KB. No tienen cachés.

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 23 –

Cell como procesador de flujo

Área de Arquitectura y Tecnología de ComputadoresUNIVERSIDAD CARLOS III DE MADRIDDoctorado en Ingeniería Informática – Sistemas Operativos AvanzadosCurso 2005/2006

Página – 24 –

Algunos retos

Integración en la planificación del consumo de los hilos.

Sistemas de memoria: Nuevas jerarquías de memoria.

Compiladores que generen código que evite necesidades hardware.

Paralelización automática de aplicaciones secuenciales.

Optimización dinámica del código.

Recommended