72
COMPRESION DE VIDEO UCH : Ing. Luis Degregori C.

UCH TV Digital - Compresion de Video 2013

Embed Size (px)

DESCRIPTION

Clase Universidad de Ciencias Y Humanidades, sobre teoría de imágenes digitales en TV, dek ingeniero Luis Degregori C. .

Citation preview

  • COMPRESIN DE VIDEO

    COMPRESIN DE VIDEO

    COMPRESION DE VIDEO

    UCH : Ing. Luis Degregori C.

  • Almacenamiento eficiente de videos (para archivo y transporte)

    Reducir con eficacia el ancho de banda requerido para transmitir vdeo a travs de emisin terrestre, a travs de televisin por cable, a travs de servicios de televisin por satlite.

    1. OBJETIVO

    13/03/2015 2

  • Conceptos Preliminares

    Percepcin de las seales audiovisuales

    Sistema Visual Humano (HVS)

    Qu percibe nuestra vista, figuras y colores

    visibles, intensidad de luz?

    Cmo interpreta nuestro cerebro los estmulos

    visuales?

  • Sistema Visual Humano (HVS)

    La luz, el espectro visible. Fenmeno de la Visin El ojo humano Mezcla aditiva espacial. Agudeza Visual Mezcla aditiva temporal. Memoria Visual

    Conceptos Preliminares

  • Sistema Visual Humano Respuesta del Ojo

    Sensacin de luz: Valoraciones empricas/perceptuales Funcin de la frecuencia de la luz Funcin de la cantidad de luz Dos tipos de receptores en el ojo (bastones y conos) Visin Fotpica Conos (luz suficiente, en TV) Visin Escotpica Bastones (poca luz)

    Bastones

    Conos

  • Sistema Visual Humano El Fenmeno de la Visin

  • Fuentes primarias o emisivas (aditivas)

    [illuminating]

    Emisores de luz (e.g., sol, bombilla,

    monitos TV)

    El color percibido depende de la

    frecuencia de la

    luz emitida

    Siguen ley aditiva

    R+G+B = White (Blanco)

    Suma de luces generadas

  • Fuentes secundarias o reflectivas

    (substractivas) [reflecting]

    Reflejan una luz incidente (e.g., pintura, tejido

    teido, papel impreso)

    El color percibido depende de la frecuencia de la

    luz reflejada

    Frecuencias emitidas frecuencias absorbidas

    Siguen ley substractiva

    R+G+B = Black (Negro)

    Resta de luces absorbidas = Suma de luces reflejadas

  • La descripcin RGB (del ingls Red, Green, Blue;

    "rojo, verde, azul") de un color hace referencia a la

    composicin del color en trminos de la intensidad

    de los colores primarios con que se forma: el rojo,

    el verde y el azul.

    Es un modelo de color basado en la sntesis

    aditiva, con el que es posible representar un color

    mediante la mezcla por adicin de los tres colores luz primarios.

    http://es.wikipedia.org/wiki/Colorhttp://es.wikipedia.org/wiki/Colores_primarioshttp://es.wikipedia.org/wiki/S%C3%ADntesis_aditiva_de_colorhttp://es.wikipedia.org/wiki/S%C3%ADntesis_aditiva_de_color

  • El rojo se obtiene con (255,0,0), el verde con (0,255,0) y el azul con (0,0,255),

  • Una imagen se digitaliza con en conversor A/D; asi

    un A/D de 1 bit, slo podra asignar dos valores: 0

    1, presencia de luz o ausencia de ella.

    Con un A/D de 8 bits generamos valores de 8

    cifras, por lo que combinando ceros y unos

    podemos obtener un total de 256 resultados que

    equivalen a la cantidad de grises que el ojo

    humano podra distinguir.

  • Con imagenes en color, los

    dispositivos digitales vienen

    equipados con conversores

    de, por lo menos, 24 bits, esto

    es, 8 bits para cada canal.

    Con esta combinacin de 24

    nmeros entre unos y ceros,

    el resultado es de algo ms de

    16 millones de posibilidades

    (colores) que nuestra visin

    sera capaz de reconocer.

  • La crominancia es el componente de la seal

    de vdeo que contiene las informaciones del color.

    Por otra parte, la luminancia es el componente de

    la seal de vdeo que contiene las informaciones de la luz o brillo.

    http://es.wikipedia.org/wiki/V%C3%ADdeo

  • La reduccin de informacin (compresin) se basa en eliminar informacin redundante o irrelevante aprovechando tcnicas de codificacin: Intra-frame (redundancia espacial) y Inter-frame (redundancia temporal) en imgenes.

    2.CONCEPTOS PREVIOS

    13/03/2015 15

  • Qu es el Video?

    El video es la representacin de la visin. El video es la captura de una secuencia de imgenes de tal forma que al ser proyectadas bajo ciertas condiciones al sistema visual de un ser humano, se produzca la sensacin de movimiento. El video se basa en las caractersticas de nuestro sistema visual.

    3. EL VIDEO

  • Qu es el Video?

    La Persistencia de la Visin Es un principio establecido por el fsico Joseph Plateau que consiste en una "imperfeccin" del ojo que provoca que la imagen se grabe en la retina durante una fraccin de segundo despus de que fue vista. Por ejemplo cuando alguien nos toma una foto, segundos despus seguimos viendo el puntito blanco del flash. Cuando la luz es intensa el proceso es mayor, por eso las salas de cine estn a oscuras, la retina se adapta a la oscuridad y la luminosidad de la pantalla hace que la persistencia aumente.

    3. EL VIDEO

  • Qu es el Video?

    La persistencia de la visin es una propiedad por la cual una imagen es retenida en nuestra retina por un intervalo pequeo de tiempo antes de que otra imagen sea tomada. Nuestro sistema visual puede captar 24 imgenes diferentes en 1 segundo. Si proyectamos algo a ms de 24 imgenes por segundo nuestro cerebro captar eso como una secuencia de movimiento continuo.

    Mientras mayor sea la cantidad de imgenes mayor ser la sensacin de

    movimiento.

    A ms de 24 imgenes por segundo no logramos distinguir las imgenes

    individuales y percibimos un movimiento continuo.

    3. EL VIDEO

  • Con imagenes en color, los

    dispositivos digitales vienen

    equipados con conversores

    de, por lo menos, 24 bits, esto

    es, 8 bits para cada canal.

    Con esta combinacin de 24

    nmeros entre unos y ceros,

    el resultado es de algo ms de

    16 millones de posibilidades

    (colores) que nuestra visin

    sera capaz de reconocer.

  • 20

    Si codificamos

    cada una de las

    componentes

    RGB, las tres

    deberan

    codificarse con

    mucha calidad

  • 21

    Se codifican otras tres seales relacionadas con ellas (luminancia y crominancia).

  • 22

  • 23

  • 24

  • 25

  • 26

    De todos los pxeles se obtienen

    muestras de luminancia.

    De crominancia solo de la mitad

    de ellos.

  • 27

  • 28

  • 29

  • 30

  • 31

  • 4. DCT (Discrete Cosine Transform)

    13/03/2015 32

    Muestra el espectro de frecuencia

    contenido en una imagen fija. Una

    imagen fija es independiente del

    tiempo.

    La DCT muestra el espectro

    espacial de frecuencias.

    Pixel : es una muestra de una seal con un valor de amplitud

    y contenido de frecuencia implcita (referido al cambio de valor)

    en un tiempo finito y breve.

    Los valores de seal de cada pixel se ordenan en una MATRIZ

  • 13/03/2015 33

    Por convencin se aplica la DCT a bloques de 8 x 8 pxeles, sucesivamente. Origina COEFICIENTES en otra matriz de 8 x 8 (componentes de frecuencia de cada pixel).

    Una matriz conduce a un proceso de clculos de operacin muy grande. La DCT permiten la aplicacin por separado a sub matrices.

    La alta compresin lograda por la DCT es del tipo Lossy (con prdidas) y consiste en una nueva operacin sobre la matriz para reducir a cero los coeficientes prximos a cero. Los coeficientes de la matriz transformada son los datos que representan la imagen. La transmisin de estos datos se hace uno a uno en una secuencia.

  • 4.1 Transformacin DCT (Compresion Espacial)

    13/03/2015 34

    Bajas frecuencias Altas frecuencias

    DCT Coeficientes mas significativos

    Coeficientes 0

  • Explota la redundancia espacial que existe en una imagen mediante un anlisis frecuencial de la misma.

    Se efecta con la informacin que contiene la imagen actual que se esta procesando y no en relacin con cualquier otra imagen de la secuencia de vdeo.

    Procesos involucrados

    -Transformacin (DCT).

    -Promediado: tablas de cuantizacin.

    -Escaneo.

    -Codificacin entrpica.

    5. INTRA-FRAME

    13/03/2015 35

  • 36

    DCT 8x8

    Cada coeficiente representa la contribucin de una frecuencias horizontales y verticales a la imagen

  • 5.1 Transformacin

    13/03/2015 37

  • 5.2 Promediado: tablas de cuantizacin

    13/03/2015 38

    Los coeficientes transformados de cada pxel del macrobloque, se pueden promediar, o no, mediante tablas de cuantizacin (Q) cuyos valores resultan de estudios psicovisuales. Su uso supondr una degradacin de la calidad de la imagen ya que se perdern los coeficientes transformados del bloque de menor valor (energa).

  • 5.3 Escaneo

    13/03/2015 39

    Leer los coeficientes transformados que sern transmitidos y ordenarlos. Tpicamente se utiliza el escaneo "Zigzag" que lee los coeficientes siguiendo un patrn determinado en forma de zig-zag.

  • 5.4 Codificacin entrpica

    13/03/2015 40

    Existirn muchos valores a 0 para transmitir, por este motivo se utilizar codificacin de longitud fija (RLC) para transmitir el nmero de ceros en vez de cada cero uno a uno. Enviar un palabra cdigo nica en vez de una cadena de ceros.

  • 5.5 Esquema del Intraframe

    13/03/2015 41

    En resumen vemos que el intraframe consta de los siguientes procesos basados en DCT.

    DESCOMPOSICION EN BLOQUES

    CODIFICACION DE LOS MENSAJES

    TRANSFORMADA COSENO

    CUANTIFICADOR

    Imagen

    Original

    Imagen

    Comprimida

  • 6. INTER-FRAME prediction.

    13/03/2015 42

    Explota la correlacin temporal entre cuadros consecutivos para poder codificar con el mnimo nmero de bits posibles. Para codificar, se debe predecir un frame a partir de frames anteriores y/o futuros, aplicando sobre stos un movimiento dictado por unos vectores de movimiento. Esta tcnica se utiliza en estandares como el MPEG-2.

  • 43

    Prediccin Inter Frame

    Se Intenta predecir la imagen siguiente a partir de las anteriores explotando la redundancia temporal.

    Es muy probable que los bloques sean muy parecidos en imgenes sucesivas

    Se puede utilizar esquemas de prediccin tan sencillos como tomar la imagen anterior a modo de prediccin y transmitir el error cometido

  • 13/03/2015 44

    Se divide en bloques, luego el codificador trata de encontrar un bloque similar al que se codifico previamente. Este proceso se realiza mediante el algoritmo Block matching. Comprime a partir de similitudes entre los fotogramas. Este mtodo tiene menor calidad.

    6. INTER-FRAME

  • 13/03/2015 45

    Se la secuencia de imgenes (GOP) esta formada por 03 tipos de cuadros. SECUENCIA = I B B P B B P B B P B B P B B.

    Solo Compresin Espacial.

    Compresin: Espacial y Temporal

    Compresin: Espacial y Temporal

    B: Bidireccional P: Predictivo I: Intraframe

    6. INTER-FRAME

  • 13/03/2015 46

    Se la secuencia de imgenes (GOP) esta formada por 03 tipos de cuadros. SECUENCIA = I B B P B B P B B P B B P B B.

    Solo Compresin Espacial.

    Compresin: Espacial y Temporal

    Compresin: Espacial y Temporal

    B: Bidireccional P: Predictivo I: Intraframe

  • 47

  • 48

  • 49

    Imagen Predicha

    Ojo!!

    (VLC)

  • 50

  • 51

    Es un esquema mas avanzado de prediccin de imagen.

    Explota el hecho de que a lo largo del tiempo los pxeles se desplazan en la pantalla

    Por lo tanto slo transmito el macrobloque de referencia (mediante el vector de desplazamiento) y el error cometido

    Evidentemente, siempre puedo transmitir el macrobloque completo, en caso de no encontrar ninguno que se le parezca

  • 52

    Normalmente la compensacin de movimiento se basa en macrobloques 16x16, mientras que la redundancia espacial se basa en bloques de 8x8.

    Sin embargo la precisin es a nivel de pxel (el macrobloque referencia puede estar situado en cualquier localizacin)

  • 53

    La carga computacional de buscar el macrobloque que mas se parezca es muy alta

    Limitamos la bsqueda a una zona determinada

    Hierarchical block matching

  • 54

    Compromiso entre Tamao Macrobloque y Bit Rate Vectores de Desplazamiento Macrobloque Grande => Menos informacin vectores

    Macrobloque Pequeo => Mayor precisin estimacin

    Utilizamos una combinacin de dos tcnicas para reducir el ancho de banda ocupado por los vectores Codificacin diferencial a partir de vectores anteriores

    VCL sobre prediccin de error de codificacin diferencial

  • 7. Mtodos de compresin vdeo digital

    13/03/2015 55

    Veamos algunos metodos conocidos de compresion:

  • 7.1.1 MPEG2 (Norma ISO 13818).

    13/03/2015 56

    Formato de compresin MPEG2 aparece en 1994.

    Ofrece imgenes de calidad, alcanza velocidades

    en la Tx. Dx. de 3 a 15 Mbps (Con HDTV).

    Usado para codificar audio y vdeo en seales de

    transmisin, que incluyen TDT, por satlite o cable.

    Admite flujos de vdeo escaneado de manera tanto

    progresiva como entrelazada.

    Fue usado por los discos SVCD, DVD y ahora Blue

    Ray para grabar pelculas.

    Este formato ofrece la transmisin de ficheros de

    vdeo digital a pantalla completa.

  • 7.1.1 MPEG2

    13/03/2015 57

    Esquema del sistema de compresion MPEG2

    Fuente de A/V

    Y Datos.

    Sincronismo

    Codific. Compresion

    Video

    Codific. Compresion

    Audio

    Codific. Compresion

    Datos

    Flujo Empaquetado Primario (PES)

    Flujo Empaquetado Primario (PES)

    Flujo Empaquetado Primario (PES)

    TS

    H PAYLOAD

    4 bytes 184 bytes

    Trama tipica

    de un PES

    Transporte

    Streaming: TS

  • 7.1.2 MPEG3

    13/03/2015 58

    El MPEG3, se desarroll para la televisin digital

    de alta calidad aunque el formato MPEG2

    tambin cumpla perfectamente esta funcin.

    Diseado para tratar seales HDTV entre 20 a 40

    Mbits/s.

    MPEG-3 no debe confundirse con MPEG-1 Audio

    Layer 3, que suele conocerse como MP3.

    Como el MPEG3 consumia mayor ancho de

    banda que el MPEG2, el mercado abandon el

    MPEG3.

  • 7.1.3 MPEG4 (Norma H.264)

    13/03/2015 59

    Toma muchas de las caractersticas de MPEG-1 y

    MPEG-2, aparece en 1999.

    Es un formato de muy buena calidad, ideal para

    aplicaciones multimediales interactivas.

    Factor de compresin mucho ms elevado que

    otros formatos, ideal para aplicaciones en

    internet.

    Los usos principales del MPEG-4 son los flujos de

    medios audiovisuales, la distribucin en DVD, la

    transmisin bidireccional por videconferencia y

    emisin de televisin SDTV y HDTV (Con tasas de

    solo 9Mbps).

  • 7.1.3 MPEG4 (Norma H.264)

    13/03/2015 60

    MPEG-4 es un standard dinamico y con los aos

    van mejorando sus caracteristicas.

  • 7.1.4 MPEG7

    13/03/2015 61

    Es una representacin estndar de la informacin

    audiovisual que permite la descripcin de

    contenidos.

    Puede describir informacin audiovisual, de manera

    que sea posible desarrollar sistemas capaces de

    indexar grandes bases de material multimedia .

    Este formato codificar adems de la imagen, datos

    en lenguaje XML de metadatos, en un intento de

    favorecer la interoperabilidad y la creacin de

    aplicaciones.

    Sera de gran ayuda para el avance de la nueva

    televisin interactiva con introduccin de buscadores

    de contenidos, bsquedas de audiovisuales etc.

  • Es un grupo de algoritmos de compresin que pertenecen a la compaa Microsoft, y que fue desarrollado por la empresa para que fuera parte integrante del framework denominado Windows Media.

    Debido a esto, no es de extraar que la mayora de las veces un archivo audiovisual con extensin .wmv combine en su interior sonido cuyo formato tambin pertenece a la suite, es decir Windows Media Audio.

    8. Windows Media Video (WMV)

    13/03/2015 62

  • De todas formas, es importante destacar que en realidad cuando hablamos de WMV nos estamos refiriendo puntualmente al video, de la mismas manera que si hablamos de WMA es solamente sonido.

    Por ello, el video WMV puede estar dentro de algn contenedor y de esta manera unido a su respectivo audio en WMA. Por lo general este contenedor es el llamado ASF, que incluye audio y video.

    13/03/2015 63

    8. Windows Media Video (WMV)

  • Es un cdec de vdeo libre que est siendo desarrollado por la Fundacin Xiph.org, como parte de su proyecto Ogg.

    Basado en el cdec VP3 donado por On2 Technologies, Xiph.org lo ha refinado y extendido dndole el mismo alcance futuro para mejoras en el codificador como el que posee el cdec de audio Vorbis.

    Google en 2010 empez a financiar parte del proyecto de Ogg Theora.

    9. Theora

    13/03/2015 64

  • Theora es un mtodo de compresin de vdeo con prdidas.

    El vdeo comprimido puede ser almacenado en cualquier contenedor multimedia conveniente (ej Matroska), pero generalmente se encuentra en el formato contenedor Ogg que es el recomendado por Xiph.org y es frecuentemente usado con el formato de audio Vorbis.

    Theora I es un cdec de transformacin basado-en-bloque y compensacin de movimiento basada-en-bloque. Esto lo coloca en la misma clase de cdecs que MPEG-1, MPEG-2, MPEG-4

    13/03/2015 65

    9. Theora

    http://es.wikipedia.org/wiki/Vorbis

  • Caractersticas:

    Compensacin de movimiento basada-en-bloque

    Bit rate variable de forma-libre (VBR)

    Tamao de bloque mnimo de 8x8

    Codificacin flexible de la entropa

    Formatos de submuestreo de croma 4:2:0, 4:2:2, y 4:4:4

    8 bits por pxel por color de canal

    Mltiples cuadros (frames) de referencia

    Cuadros intra (I-frames en MPEG), cuadros inter (P-frames en MPEG), pero no B-frames (en MPEG4 ASP, AVC)

    Tecnologas ya usadas por Vorbis

    Permite transcodificacin desde VP3 sin prdidas

    13/03/2015 66

    9. Theora

  • Antes XviD es el nombre de un popular cdec desarrollado como un proyecto de software libre, despus de que el proyecto OpenDivX fuera cerrado en julio de 2001.

    Xvid est basado en el estndar MPEG-4 ASP.

    El formato fue creado como una alternativa libre a otros cdecs comerciales de vdeo.

    Su calidad y eficiencia lo han convertido en uno de los cdecs ms populares.

    La reproduccin de pelculas Xvid est soportada en los reproductores de DVD ms modernos.

    10. Xvid

    13/03/2015 67

  • Puede comprimir una pelcula completa con una calidad cercana a la de la fuente original para que ocupe tan solo 700 MB (en ocasiones 1400 MB, dependiendo de la duracin y otros factores).

    Las pelculas codificadas en Xvid ofrecen vdeos de alta calidad en archivos de tamao reducido, adems de llevar menos tiempo su compresin que en MPEG-2 debido a un algoritmo de compresin ms avanzado.

    El vdeo usualmente se combina con audio MP3, o AC3 para tener audio y vdeo de alta calidad.

    Estos factores y el hecho de que el cdec se distribuya de forma libre han contribuido al xito de este formato

    13/03/2015 68

    10. Xvid

  • Caractersticas Uso de B-frames, o fotogramas bidireccionales, que almacenan entre

    dos fotogramas, uno anterior y otro posterior.

    Quarter pixel (Q-pel), se trabaja con una precisin doble en los vectores de movimiento de los bloques en la compensacin del movimiento, es ms til en resoluciones bajas.

    Global motion compensation (GMC) o compensacin global de movimiento, que entra en juego en giros de cmara y zoom, consiste en almacenar los vectores de movimiento de forma global (en relacin a unos pocos) y consiguiendo hacer que muchos valgan 0, reduciendo su tamao.

    Entrelazado, ideal para imgenes entrelazadas como la televisin, ya que mejora mucho la compresin y el resultado final en estos casos.

    Cuantizacin adaptativa, es una innovacin psicovisual de Xvid, en ella se emplean diferentes matrices de cuantizacin por cada macrobloque, comprimiendo ms fuerte aqullos que son muy claros o muy oscuros, ya que son menos notables por el ojo que en los de tonalidad media.

    13/03/2015 69

    10. Xvid

  • Es un formato contenedor, desarrollado por la Fundacin Xiph.org y es el formato nativo para los cdecs multimedia que tambin desarrolla Xiph.org.

    El formato es libre de patentes y abierto al igual que toda la tecnologa de Xiph.org, diseado para dar un alto grado de eficiencia en el streaming" y la compresin de archivos. Como con la mayora de formatos contenedores, Ogg encapsula datos no comprimidos y permite la interpolacin de los datos de audio y de vdeo dentro de un solo formato conveniente. Otros ejemplos de formatos contenedores son AVI y Matroska.

    11. Ogg

    13/03/2015 70

  • Incluye un nmero de cdecs separados e independientes de vdeo y audio, ambos desarrollados en cdigo abierto.

    Los archivos terminados en la extensin ".ogg" pueden ser de cualquier tipo de archivo Ogg, audio o vdeo, aunque existe la recomendacin de renombrarlos con la extensin ".oga" para audio y ".ogv" para video.

    Ogg es un contenedor orientado a stream, lo que significa que puede ser escrito y ledo en un solo paso, hacindolo adecuado para streaming en internet.

    Esta orientacin a stream es la mayor diferencia en diseo sobre otros formatos contenedores basados-en-archivo.

    13/03/2015 71

    11. Ogg

  • Es un formato contenedor propietario usado

    para transmitir video por Internet

    usando Adobe FlashPlayer.

    Entre los sitios ms conocidos que utilizan el

    formato FLV se encuentranYouTube, Google

    Video, Yahoo! Video y MySpace.

    13/03/2015 72

    11. FLV (FLASH VIDEO)