Arqii 00 Repaso 2014

Embed Size (px)

DESCRIPTION

a

Citation preview

  • Repaso de Arquitectura y Organizacin

    Criterios de clasificacinv.2014

    William Stallings, Organizacin y Arquitectura de Computadores, 8 ed, 2010Andrew S. Tanenbaum, Organizacin de Computadoras, 4 ed, 2000

    John Hennessy David PattersonArquitectura de Computadores Un enfoque cuantitativo

    (1 ed, 1990, cap 1 a 5) (4 ed, 2007, cap 1 & ap. B)

    http://electro.fisica.unlp.edu.ar/arq/

  • Ingeniera en Computacin E3093 CUAT Conceptos de Arquitectura de Computadoras (INFO)5 CUAT Introduccin al Diseo Lgico6 CUAT Taller de Arquitectura7 CUAT Circuitos Digitales y Microcontroladores

    Ingeniera Electrnica E2267 CUAT Introduccin a los Sistemas Lgicos y Digitales8 CUAT Circuitos Digitales y Microprocesadores9 CUAT Arquitectura de Computadores I

  • 4 Introduccin, repaso de Arquitectura I, bibliografa. Definicin de Arquitectura de Computadoras. Prehistoria e historia de las computadoras. Clasificacin segn el repertorio de instrucciones. Clasificacin segn la organizacin. Clasificacin segn la tecnologa. Clasificacin segn la aplicacin. Objetivos de la materia.

    Arquitectura de ComputadorasContenido de las clases intoductorias

  • 5 Representacin digital de la informacin. Sistemas numricos posicionales en base 2. Operaciones aritmticas implementadas con lgica. Otros tipos de informacin.

    El programa almacenado. Arquitectura de von Neumann. Tipos de instrucciones. Codificacin ISA.

    Organizacin mnima. Datapath (REG y ALU) + UC. Buses. Programas y algoritmos. Re-programabilidad vs. sistemas dedicados.

    Hardware vs. software. El ciclo de instruccin. Interrupciones. Sistema de entrada/salida. La jerarqua de memoria. Localidad. MMU. Cache. Programacin de alto nivel y sistemas operativos.

    Arquitectura de ComputadorasIntroduccin

    COMPUTADORADispositivo electrnico, digital y programable, utilizado para el

    procesamiento y/o manipulacin de informacin.

  • 6Arquitectura de ComputadorasBibliografa bsica Arq I

    Stallings Tanenbaum NullIntroduccin 1-2 1 1Nmeros A A-B 2Sistemas digitales 8 3 3Von Neumann y buses 3 2-3 4Repertorio de instrucciones 9-10 4-5 5Memoria 4-5 2 6Entrada/salida 6 2 7Sistemas operativos 7 6 8Arquitectura II 11-16 8 9-10

  • 7Arquitectura de ComputadorasArquitectura II

    PRIMERA PARTE: PARALELISMO DENTRO DEL PROCESADORArquitectura RISC, segmentacin y sistema de cach

    Procesadores superescalares y VLIWDSP y GPU

    SEGUNDA PARTE: PARALELISMO ENTRE PROCESADORESProcesadores SIMD y Vectoriales

    Arquitecturas MIMDClusters

    Diferentes formas de paralelismo

  • 8LGICA (Software?) ISA (INSTRUCTION SET ARCHITECTURE): Diseo a nivel del

    lenguaje de mquina, visible para el programador o compilador. Repertorio de instrucciones, registros, tipo y tamao de operandos, modos de direccionamiento.

    IMPLEMENTACIN (Hardware?) ORGANIZACIN: Estructura del bus, diseo CPU, sistema de

    memoria, cache, ciclo de instruccin. TECNOLOGA: Diseo lgico, integracin, encapsulado, potencia.

    Arquitectura de ComputadorasDefinicin

    La arquitectura de computadoras, como otras arquitecturas, es el arte de determinar las necesidades del usuario de una estructura y luego disearla para satisfacer dichas necesidades tan eficientemente como sea posible dentro de ciertas limitaciones econmicas y tecnolgicas. Frederick P. Brooks, IBM, 1962.

    Diseodecomputadoras

  • 9Procesadores Intel Dos procesadores con idntica ISA pero diferente ORG: Celeron y

    Celeron D.

    Dos procesadores con idnticas ISA y ORG, pero diferente tecnologa: Celeron 1GHz y Celeron 2.8GHz.

    Dos procesadores con diferentes ISA, ORG y Tecnologa: Celeron e Itanium.

    ERROR COMNSuponer que dos procesadores con idntica ISA

    se pueden comparar por su reloj

    OTROS EJEMPLOSComputadora ptica (cambiando Tec puedo mantener la ISA y ORG)

    Computadora analgica (cambia ORG)Computadora vectorial (cambia ISA y ORG)

    EjemplosAplicacin de procesamiento de seales:La ARQUITECTURA, dispone de MAC, MUL o nada? (ISA); cuntos ciclos demora? (ORG); cul es la frecuencia de trabajo/consumo de potencia? (TEC).

  • 10

    Arquitectura de ComputadorasPrehistoria: arq de 8/16 bits

    4004 (4-bit 640B) 19718008 (8-bit 16KB) 19728080 (8-bit 64KB) 1972

    8086 (16-bit 16MB) 19788088 (8/16-bit) 1980

    IBM PC

    6800 (8-bit 64KB) 197368000 (16/32-bit 16MB) 1979

    68008 (8/16-bit) 1982

    Apple II/Mac Personal Computer

  • 11

    Arquitectura de ComputadorasHistoria: arq de 32 bitsDespus de 30 aos de existencia de las computadoras y 10 de los microprocesadores [Null, Cap 1], se produce un renacimiento de la Arquitectura en la dcada del 80, principalmente por dos motivos:

    LENGUAJES DE ALTO NIVEL: Desaparece la programacin en assembler, por lo tanto no es necesaria la compatibilidad de cdigo objeto.SISTEMAS OPERATIVOS: Se reducen el costo y el riesgo de lanzar al

    mercado una nueva arquitectura.

    Nacimiento de las nuevas Arquitecturas RISC:

    ILP (pipeline + superescalares) CACHE

    Crecimiento sostenido durante 20 aos (ley de Moore)

  • 12

    Arquitectura de ComputadorasHistoria: arq de 32 bitsDespus de 30 aos de existencia de las computadoras y 10 de los microprocesadores [Null, Cap 1], se produce un renacimiento de la Arquitectura en la dcada del 80, principalmente por dos motivos:

    LENGUAJES DE ALTO NIVEL: Desaparece la programacin en assembler, por lo tanto no es necesaria la compatibilidad de cdigo objeto.SISTEMAS OPERATIVOS: Se reducen el costo y el riesgo de lanzar al

    mercado una nueva arquitectura.

    Nacimiento de las nuevas Arquitecturas RISC:

    ILP (pipeline + superescalares) CACHE

    Crecimiento sostenido durante 20 aos (ley de Moore)

  • 13Nmero de transistores por integrado.

    Duplicacadadosaos,crecimientoexponencialsostenido.

  • 14

    Capacidad de los discos rgidos para PC (en GB)Crecimientoexponencialsostenido.

  • 15

    Performance relativa a VAX-11 (1978)Crecimientoexponencialsostenido(19862002).Luegodesaceleracin(apesarde

    quetantoladensidaddetransistorescomoelrestodelastecnologasacompaaron).Elaumentodelnmerodetransistoresnorepercutedirectamenteenlaperformance.DependedelosavancesenARQUITECTURA,tantoenhardwarecomoensoftware.

  • 16

    Arquitectura de ComputadorasClasificaciones

    Segn la arquitectura del repertorio de instrucciones (ISA)

    Segn la organizacin

    Segn la tecnologa

    Segn la aplicacin

  • 17

    1. Clase: Nmero y almacenamiento de operandos. Adems de memoria, dnde? Utilizacin de registros.

    2. Direccionamiento de memoria. Byte ordering (endianness). Alineacin.

    3. Modos de direccionamiento. Cantidad. Puede cualquiera de los operandos estar en memoria?

    4. Tipo y tamao de los operandos.

    5. Tipos y variedad de operaciones.

    6. Control de flujo.

    7. Codificacin del repertorio de instrucciones.

    8. Interrupciones y modos privilegiados (user, supervisor,protected).

    Arquitectura de ComputadorasClasificacin a nivel lenguaje de mquina (ISA)

    ORTOGONALIDADTodos los modos de direccionamiento y

    todos los tipos de datos disponibles para todas las instrucciones.

    Gran ventaja para los compiladores.

  • 18

    Clasificacin a nivel lenguaje de mquina

    Almacenamiento de operandos

    TAXONOMA DE PATTERSON: PILA, ACC, R-M, R-R, M-M

    Add A,B,C

  • 19

    Clasificacin a nivel lenguaje de mquina

    Nmero de operandos

  • 20

  • 21

    M3=M1+M2

    Bn=(An+An1)/2

    MM

    RR

    RM

    Arquitectura Memoria-Memoria

    Arquitectura Registro-Memoria

    Arquitectura Registro-Registro

    Suma de dos enteros

    Filtro en punto fijo

    EJEMPLO: Velocidad vs. Densidad de cdigo

    Analizaremoselimpactodedosproblemasdiferentes:

    Sobretresarquitecturasdiferentes:

  • 22

    ADDM1,M2,M3

    LOADR1,M1 (4c)ADDR1,M2 (5c)STORER1,M3 (4c)

    LOADR1,M1 (4c)LOADR2,M2 (4c)ADDR1,R2,R3 (3c)STORER3,M3 (4c)

    FDCO1TR1C02TR2ECO3TR3=9c

    LOAD:FDCOTR=4c

    ADD:FDE=3c

    ADD:FDCOTRE=5c

    MM

    RR

    RM13c

    M3=M1+M2

    15c

    9c

    LOAD:FDCOTR=4c

  • 23

    ADDM1,M2,M3

    LOADR1,M1 (4c)ADDR1,M2 (5c)STORER1,M3 (4c)

    LOADR1,M1 (4c)LOADR2,M2 (4c)ADDR1,R2,R3 (3c)STORER3,M3 (4c)

    FDCO1TR1C02TR2ECO3TR3=9c

    LOAD:FDCOTR=4c

    ADD:FDE=3c

    ADD:FDCOTRE=5c

    MM

    RR

    RM13c

    M3=M1+M2

    15c

    9c

    LOAD:FDCOTR=4c

    Bn=(An+An1)/2

    ADDAn,An1,BnDIVBn,#2,Bn

    18c

    LOADR1,An1 (4c)ADDR1,An (5c)DIVR1,#2 (5c)STORER1,Bn (4c)

    18c

    LOADR1,An (4c)ADDR1,R2,R3 (3c)DIVR3,#2,R3 (3c)STORER3,Bn (4c)ADDR1,#0,R2 (3c)

    17c

    MM

    RM

    RR

  • 24

    ADDM1,M2,M3

    LOADR1,M1 (4c)ADDR1,M2 (5c)STORER1,M3 (4c)

    LOADR1,M1 (4c)LOADR2,M2 (4c)ADDR1,R2,R3 (3c)STORER3,M3 (4c)

    FDCO1TR1C02TR2ECO3TR3=9c

    LOAD:FDCOTR=4c

    ADD:FDE=3c

    ADD:FDCOTRE=5c

    MM

    RR

    RM13c

    M3=M1+M2

    15c

    9c

    LOAD:FDCOTR=4c

    Bn=(An+An1)/2

    ADDAn,An1,BnDIVBn,#2,Bn

    18c

    LOADR1,An1 (4c)ADDR1,An (5c)DIVR1,#2 (5c)STORER1,Bn (4c)

    18c

    LOADR1,An (4c)ADDR1,R2,R3 (3c)DIVR3,#2,R3 (3c)STORER3,Bn (4c)ADDR1,#0,R2 (3c)

    17c

    MM

    RM

    RR

    1

    3

    4

    1

    2

    2.5

  • 25

    Clasificacin a nivel lenguaje de mquina

    Modos de direccionamiento

  • 26

    Clasificacin a nivel lenguaje de mquina

    Repertorio de instrucciones

    Todas las arquitecturas disponen de un repertorio compuesto al menos por las tres primeras categoras.

  • 27

    Clasificacin a nivel lenguaje de mquina

    Tipo y tamao de operandos

    Arquitecturas con operandos de 8, 16, 32 o 64 bits. Operandos enteros y/o punto flotante (simple y doble precisin).

    CODIFICACIN DEL SET DE INSTRUCCIONESTamao de los programas

    Implementacin del procesador (ORG+TECH)

    RISC vs CISC(largo fijo vs.

    variable)

  • 28

    Estructura interna de la CPU La unidad de control (microprogramada vs. cableada) El camino de los datos (Datapath = Registros + ALU) El ciclo de instruccin, segmentacin Escalaridad Cache de datos e instrucciones CPI, latencia Productividad (throughput)

    Arquitectura de ComputadorasClasificacin segn la organizacin

    PARALELISMO ...

  • 29

    Clasificacin segn la organizacin

    CU & Datapath

  • 30

    Para llevar a cabo el ciclo de instruccin (CAPTACION-DECODIFICACION-EJECUCION-INTERRUPCION) la CPU necesita registros de almacenamiento temporario.Registros visibles

    a) Usos generales: pueden utilizarse en cualquier operacin.b) Uso especfico: para datos o direcciones (ej. puntero de

    segmento).Registros de control

    PC (puntero), IR (instruccin), MAR (direccin) y MBR (datos)Registros de estado

    PSW (program status word)

    Clasificacin segn la organizacin

    Registros

  • 31

    Para llevar a cabo el ciclo de instruccin (CAPTACION-DECODIFICACION-EJECUCION-INTERRUPCION) la CPU necesita registros de almacenamiento temporario.Registros visibles

    a) Usos generales: pueden utilizarse en cualquier operacin.b) Uso especfico: para datos o direcciones (ej. puntero de

    segmento).Registros de control

    PC (puntero), IR (instruccin), MAR (direccin) y MBR (datos)Registros de estado

    PSW (program status word)

    Clasificacin segn la organizacin

    Registros

  • 32

    Clasificacin segn la organizacin

    El ciclo de instruccin

    CAPTACION DELA INSTRUCCION

    CAPTACION DELA INSTRUCCION

    DECODIFICACIONDECODIFICACION

    CAPTACION DELOPERANDO

    CAPTACION DELOPERANDO

    EJECUCION DELA INSTRUCCION

    EJECUCION DELA INSTRUCCION

    CALCULO DIRDEL OPERANDO

    CALCULO DIRDEL OPERANDO

    MEMORIA

    MEMORIA

    ALU

    ALU

    UC

    F

    D

    CO

    FO

    E

  • 33

    Tecnologas que condicionan el diseo de la ISA:

    Circuitos integrados (densidad de transistores 55%/ao) DRAM semiconductora (densidad celdas 40-60%/ao) Discos magnticos (capacidad 100%/ao) Networking (ancho de banda 100%/ao)

    La ISA debe sobrevivir a lo largo de ciclos de 5 aos (2 de diseo + 3-2 de produccin).

    Arquitectura de ComputadorasClasificacin segn la TECNOLOGA

  • 34

    Tecnologa del proceso CMOS ( celda DRAM, expected average half-pitch of a memory cell).

    Un elemento ms pequeo implica mayor cantidad de transistores disponibles, conmutacin ms rpida, menor energa y menor temperatura.

    Tecnologa de integracin

    180nm 2000 PII130nm 2001 PIII90nm 2003 P4yPPC65nm 2006 Core2,PS345nm 2008 Xeon,PS3slim,Power732nm 2010 Corei3i5,AMDFX22nm 2012 Corei714nm 2014? LIMITE?gate5nm tunneling10nm 2015? nanoelectrnica

    180nm 2000 PII130nm 2001 PIII90nm 2003 P4yPPC65nm 2006 Core2,PS345nm 2008 Xeon,PS3slim,Power732nm 2010 Corei3i5,AMDFX22nm 2012 Corei714nm 2014? LIMITE?gate5nm tunneling10nm 2015? nanoelectrnica

  • 35

    Lmites al tamao del intregrado: Potencia (max ~70W)Yield del waffer (cuntos fallan)Encapsulado (nmero de patas)

    Condiciona la cantidad disponible de transistores. Compromiso entre:CU (cantidad de instrucciones y modos

    de direccionamiento)Registros (cantidad y tamao)ALU (funcionalidad, fp?)CACHE

    Tecnologa de integracin (cont)

  • 36

  • 37

  • 38

    Arquitectura de ComputadorasClasificacin segn la aplicacinPor qu existen arquitecturas tan diferentes? Cul es mejor?

    DISCUSIN: Equivalente con la industria automotriz.

    Diseo de alto rendimientoSERVERS ($5K) [cmputo masivo, grficos]Availability, reliability, scalability, throughput.

    Diseo de bajo costoEMBEDDED SYSTEMS ($50) [consolas, switches]Minimizacin de memoria y potencia.

    Diseo costo/rendimientoDESKTOP ($500) [debe incluir sw!]

    Marketing vs. rendimiento, informacin incompleta o vaga, medidas inapropiadas, recurrir a la popularidad.

  • 39

    Mvil: ARM

    Celulares y reproductores multimedia Consolas de mano Tablets y PDA

    Desktop: Intel/AMD

    PC, laptop.

    High Performance: IBM POWER Servidores para clculo masivo Consolas de juego de 7 generacin

  • 40

    Consolas de juego4ta Generacin 5ta Generacin 6ta Generacin 7ma Generacin 8va Generacin

    Ao 1990 1995 2000 2005 2013Bits 16b 32b 64b 128b 64b

    SEGA

    NINTENDO

    SONY

    MICROSOFT

    Soporte Cartridge CD DVD Bluray Bluray/InternetConectividad Ethernet WiFi Gigabit EthernetPC Equiv PII/PowerPC PIII/PIV/AMD K7 Core/ADM64 Athlon

    Sega GnesisMotorola 68000

    Sega SaturnHitachi SupeH RISC

    Sega DreamcastHitachi SuperH RISC

    Super NintendoWDC W65C816

    Nintendo 64MIPS R4200

    Nintendo GamecubePOWER Gekko

    Nintendo WiiPOWER Broadway

    Nintendo Wii UPOWER7

    PlayStationMIPS 3000

    PlayStation IIEmotion Eng. (MIPS)

    PlayStation IIIPOWER Cell

    PlayStation 4AMD Jaguar x86-64 AMD Radeon

    XboxPentium III

    Xbox 360POWER Xenon

    Xbox OneAMD Jaguar x86-64 AMD Radeon

    IBM POWERBroadway 90nm 730MHz Gekko ??Xenon 65nm 3.2GHz 3 PPE simtricoCell 45nm 3.2GHz 1 PPE + 7 SPE

  • 41

    Arquitectura de ComputadorasRESMEN

    Arquitecturade

    computadoras

    DISEO DEL REPERTORIO DE INSTRUCCIONES (ISA)

    Implementacin

    ORGANIZACION TECNOLOGIA

    SW

    HW

  • 42

    PRCTICA DE REPASOArquitecturas ARM

    CLASIFICAR, SEGN LOS CRITERIOS EXPUESTOS, LOS PROCESADORESARM7, ARM7TDMI, ARM9, ARM11

    ARM Cortex-A7/8/9/15, ARM Cortex-M0/1/3/4, ARM Cortex-R

    Resumen de los repertorios de instrucciones de los diferentes Cortex-M y datapath del ARM7 (Wikipedia)

  • 45

    EJEMPLO: Smart Phones

    ARM CortexQuad-core 1.2 GHz / Dual-core 1.7 GHz

  • 46

    Moto G $200Chipset Qualcomm MSM8226 Snapdragon 400CPU Quad-core 1.2 GHz Cortex-A7GPU Adreno 305 (450 MHz)28 nm

    Moto X $300Chipset Qualcomm MSM8960Pro Snapdragon S4 ProCPU Dual-core 1.7 GHz Krait 300 (Cortex-A15)GPU Adreno 320 (400 MHz)28 nm

    NotaEl procesador Cortex-A15 ocupa cuatro veces el area y presenta el doble de performance que el Cortex-A7.http://www.eetimes.com/author.asp?section_id=36&doc_id=1318968

    Quad-core 1.2 GHz / Dual-core 1.7 GHz

  • 47

    Quad-core 1.2 GHz / Dual-core 1.7 GHz

  • 48

    Quad-core 1.2 GHz / Dual-core 1.7 GHz

  • 49

    OTRO EJEMPLO

    Apple A5X SoC2 ARM Cortex-A9 cores and 4 GPU cores

    nVidia Tegra 3 SoC4 ARM Cortex-A9 cores and 12 GPU cores

    Apple dice que el suyo es More powerful

    http://geeknizer.com/ipad-a5x-vs-tegra-3/

  • 50

    AGOSTO 2014http://m.v3.co.uk/v3-uk/news/2359539/ibm-unveils-brain-inspired-truenorth-chip-with-supercomputer-power

    Pgina 1Pgina 2Pgina 3Pgina 4Pgina 5Pgina 6Pgina 7Pgina 8Pgina 9Pgina 10Pgina 11Pgina 12Pgina 13Pgina 14Pgina 15Pgina 16Pgina 17Pgina 18Pgina 19Pgina 20Pgina 21Pgina 22Pgina 23Pgina 24Pgina 25Pgina 26Pgina 27Pgina 28Pgina 29Pgina 30Pgina 31Pgina 32Pgina 33Pgina 34Pgina 35Pgina 36Pgina 37Pgina 38Pgina 39Pgina 40Pgina 41Pgina 42Pgina 45Pgina 46Pgina 47Pgina 48Pgina 49Pgina 50