44
Espectro visible Se le llama un espectro visible a la región del espectro electromagnético que el ojo humano es capaz de percibir. A la radiación electromagnética en este rango de longitudes de onda se le llama luz visible o simplemente luz . No hay límites exactos en el espectro visible; un típico ojo humano responderá a longitudes de onda desde 400 a 700 nm aunque algunas personas pueden ser capaces de percibir longitudes de onda desde 380 a 780 nm . Índice 1 Generalidades 2 Historia 3 Colores del espectro 4 Espectroscopia 5 Espectro de los dispositivos de visualización en color 6 Véase también 7 Referencias 8 Enlaces externos Generalidades La correspondiente longitud de onda en el agua y en otros medios está reducida por un factor igual al índice de refracción . En términos de frecuencia, ésta corresponde a una banda en el campo de valores entre 450 y 750 terahercios . Un ojo adaptado a la luz generalmente tiene como máxima sensibilidad un valor de 555 nm , en la región verde del espectro visible. El espectro sin embargo no contiene todos los colores que los ojos humanos y el cerebro puedan distinguir. Marrón , rosada y magenta están ausentes, por ejemplo, porque se necesita la mezcla de múltiples longitudes de onda, preferiblemente rojos oscuros. La longitud de onda visible al ojo también se pasa a través de una ventana óptica, la región del espectro electromagnético que pasa muy atenuada a través de la atmósfera terrestre (a pesar de que la luz azul es más

Impri Mir

Embed Size (px)

Citation preview

Page 1: Impri Mir

Espectro visible

Se le llama un espectro visible a la región del espectro electromagnético que el ojo humano es capaz de percibir. A la radiación electromagnética en este rango de longitudes de onda se le llama luz visible o simplemente luz. No hay límites exactos en el espectro visible; un típico ojo humano responderá a longitudes de onda desde 400 a 700 nm aunque algunas personas pueden ser capaces de percibir longitudes de onda desde 380 a 780 nm.

Índice

1 Generalidades 2 Historia 3 Colores del espectro 4 Espectroscopia 5 Espectro de los dispositivos de visualización en color 6 Véase también 7 Referencias 8 Enlaces externos

Generalidades

La correspondiente longitud de onda en el agua y en otros medios está reducida por un factor igual al índice de refracción. En términos de frecuencia, ésta corresponde a una banda en el campo de valores entre 450 y 750 terahercios. Un ojo adaptado a la luz generalmente tiene como máxima sensibilidad un valor de 555 nm, en la región verde del espectro visible. El espectro sin embargo no contiene todos los colores que los ojos humanos y el cerebro puedan distinguir. Marrón, rosada y magenta están ausentes, por ejemplo, porque se necesita la mezcla de múltiples longitudes de onda, preferiblemente rojos oscuros.

La longitud de onda visible al ojo también se pasa a través de una ventana óptica, la región del espectro electromagnético que pasa muy atenuada a través de la atmósfera terrestre (a pesar de que la luz azul es más dispersa que la luz roja, que es la razón del color del cielo). La respuesta del ojo humano está definida por una prueba subjetiva, pero las ventanas atmosféricas están definidas por medidas físicas. La ventana visible se la llama así porque ésta superpone la respuesta humana visible al espectro; la ventana infrarroja está ligada a la ventana de respuesta humana y la longitud de onda media infrarroja, la longitud de onda infrarroja lejana están muy lejos de la región de respuesta humana.

Los ojos de muchas especies perciben longitudes de onda diferentes de las del espectro visible del ojo humano. Por ejemplo, muchos insectos, tales como las abejas pueden ver la luz ultravioleta que es útil para encontrar el néctar en las flores. Por esta razón, los éxitos reproductivos de las especies de plantas cuyos ciclos de vida están vinculados con la polinización de los insectos, dependen de que produzcan emisión ultravioleta, más bien que del colorido aparente a los ojos humanos.

Page 2: Impri Mir

Historia

Trabajo de Newton sobre Óptica.

Descomposición de la luz por medio de un prisma.

Dos de las primeras explicaciones del espectro visible vienen de Isaac Newton, que escribió su óptica y de Johann Wolfgang Goethe en su Teoría de los colores, a pesar de sus tempranas observaciones que fueron hechas por Roger Bacon que por primera vez reconoció el espectro visible en un vaso de agua, cuatro siglos antes de los descubrimientos de Newton con prismas permitieran estudiar la dispersión y agrupación de la luz blanca.

Newton uso por primera vez la palabra espectro (del latín, "apariencia" o "aparición") en 1671 al describir sus experimentos en óptica. Newton observó que cuando un estrecho haz de luz solar incide sobre un prisma de vidrio triangular con un ángulo, una parte se refleja y otra pasa a través del vidrio, mostrando diferentes bandas de colores. La hipótesis de Newton era que la luz estaba hecha por corpúsculos (partículas) de diferentes colores y que la diferencia en los colores era debido a la diferencia de velocidades de cada uno de ellos, de modo que en un medio transparente, la luz roja era más veloz que la luz violeta. El resultado es que la luz roja se doblaba (refractaba) menos que la luz violeta cuando pasaban a través del prisma, creando el espectro de colores.

Círculo de colores de Goethe, 1809

Page 3: Impri Mir

Newton dividió el espectro en siete colores llamados rojo, anaranjado, amarillo, verde, azul, añil y violeta. Imaginó que eran siete colores por una creencia procedente de la antigua Grecia, de los sofistas, que decían que había una conexión entre los colores, las notas musicales, los días de la semana y los objetos conocidos del sistema solar.1 2 El ojo humano es relativamente insensible a las frecuencias índigo y algunas personas no pueden distinguir del añil al azul y al violeta. Por esta razón algunos comentarios, incluidos el de Isaac Asimov, han sugerido que el añil debería dejar de ser tomado como un color entre el azul y el violeta.

Johann Wolfgang von Goethe sostuvo que el espectro continuo era un fenómeno compuesto. Mientras que Newton redujo a haces de luz para aislar el fenómeno, Goethe observaba que con una apertura más amplia no había en el espectro bordes amarillos ni del azul-cían con blanco entre ellos y el espectro solo aparecía cuando esos bordes eran muy cercanos al solapamiento.

Ahora se acepta generalmente que la luz está compuesta de fotones (que tienen algunas de las propiedades de una onda y algunas de partícula) y que toda la luz viaja a la misma velocidad en el vacío (velocidad de la luz). La velocidad de la luz en un material es menor a la misma en el vacío y la proporción de velocidad es conocida como el Índice de refracción de un material. En algunos materiales, conocidos como no dispersivos, la velocidad de diferentes frecuencias (correspondientes a los diferentes colores) no varía y así el índice refractario es constante. Sin embargo, en otros materiales (dispersos), el índice de refracción (y así su velocidad) depende de la frecuencia acorde con una relación de dispersión. Los arcoíris son un ejemplo ideal de refracción natural del espectro visible.

Colores del espectro

Los colores del arco iris en el espectro visible incluye todos esos colores que pueden ser producidos por la luz visible de una sola longitud de onda (violeta, azul, verde, amarillo, naranja y rojo), los colores del espectro puro o monocromáticos. El espectro visible no agota los colores que el hombre es capaz de distinguir. Colores sin saturar como el rosa, o variaciones del púrpura como el magenta no pueden reproducirse con una sola longitud de onda.

A pesar que el espectro es continuo no hay cantidades vacías entre uno y otro color, los rangos anteriores podrían ser usados como una aproximación.3

violeta 380–450 nmazul 450–495 nm

verde 495–570 nmamarillo 570–590 nm

anaranjado 590–620 nmrojo 620–750 nm

Espectroscopia

Los estudios científicos de objetos basados en el espectro de luz que emiten es llamado espectroscopia. Una aplicación particularmente importante de éste estudio es en la astronomía donde los espectroscopios son esenciales para analizar propiedades de objetos distantes. La espectroscopia astronómica utiliza difracción de alta dispersión para observar espectros muy altas resoluciones espectrales. El helio fue lo primero que se detectó en el análisis del espectro del sol; los elementos químicos pueden ser detectados en objetos astronómicos por las líneas espectrales y las líneas de absorción; la medida de líneas espectrales puede ser usada como medidas de corrimiento al rojo o corrimiento al azul de objetos distantes que se mueven a altas velocidades. El primer exoplaneta en ser descubierto fue el encontrado por el análisis de efecto Doppler de estrellas a las que su alta resolución que variaba su velocidad radial tan pequeñas como unos pocos metros por

Page 4: Impri Mir

segundo podrían ser detectadas: la presencia de planetas fue revelada por su influencia gravitacional en las estrellas analizadas.

Espectro de los dispositivos de visualización en color

Espectro de color generado en un dispositivo de visualización.

Los dispositivos de visualización en color (como la televisión o la pantalla de ordenador) mezclan los colores rojo, verde y azul para generar el espectro de color. En la ilustración, las barras estrechas inferiores de rojo, azul y verde muestran las mezclas relativas de estos tres colores usados para producir el color que se enseña arriba.

Referencias

1. Hutchison, Niels (2004). «Music For Measure: On the 300th Anniversary of Newton's Opticks ». Colour Music. Consultado el 11-08-2006.

2. Newton, Isaac (1704). Opticks.3. Thomas J. Bruno, Paris D. N. Svoronos. CRC Handbook of Fundamental Spectroscopic Correlation

Charts. CRC Press, 2005.

Nuestro órgano de la visión es mucho más complejo que cualquier cámara, pero puede decirse que su resolución máxima es de 250 megapíxeles. Una cámara digital crea archivos de imagen compuestos por puntos o píxeles, y para registrarlos entran en acción los photosites o componentes fotosensibles. En el ojo, estos "sitios" se corresponden con los conos y bastones, las células fotosensibles de la retina. Tenemos 250 millones de ellas y, por tanto, podemos captar este número de píxeles. Pero la cosa no es tan simple, porque conos y bastones no se distribuyen uniformemente y, además, las imágenes captadas por dos células del ojo se entrelazan, lo que incrementa la resolución.

El Efecto Purkinje

¿Alguna vez os habéis planteado por qué durante el día los colores rojos, naranjas y amarillos parecen los más brillantes, pero cuando la luz se ausenta por completo únicamente somos capaces de reconocer colores de tonos azules, verdes y violetas? El efecto Purkinje es la explicación.

A medida que la luminosidad se pierde, la retina del ojo humano pierde sensibilidad para largas longitudes de onda de la luz (correspondientes a los colores amarillo, naranja y rojo), a la par que gana sensibilidad para cortas longitudes de onda de la luz (correspondientes a los colores verde, azul y violeta). De tal modo que observando a la penumbra cualquier superficie coloreada, a medida que se pierde la luz pasaríamos de apreciar los colores rojos como los más brillantes, a apreciar los colores azules como los más brillantes.

La razón fisiológica es la presencia en la retina de dos tipos de células receptoras distintas. Los conos son más sensibles a la luz amarilla, mientras que los bastones, que son más sensibles a la luz en general (y por lo tanto más importantes con pocas luz). Los bastones, pese a no distinguir colores, responde mejor ante los colores azules y verde, razón por la cuál estos se muestran más brillantes en situaciones de baja luminosidad.

Page 5: Impri Mir

I: Efecto Purkinje

La imagen de arriba muestra como existen dos tipos de equilibrio y de luminosidad ideal para el ojo humano. La visión fotópica es la que se da con gran luminosidad, los conos alcanzan su mayor respuesta consiguiendo que el ojo tenga una interpretación de los colores adecuada. El segundo punto de equilibrio se corresponde con la visión escotópica, cuando los conos dejan de funcionar adecuadamente, y los bastones se convierten en los receptores principales, provocando que se aprecien mejor los colores correspondientes a cortas longitudes de onda.

Esta peculiaridad es también la responsable de que nuestra vista durante el amanecer y el atardecer sea más imprecisa que de día o de noche, ya que nuestros ojos no consiguen adaptarse ni a la visión fotópica, ni a la visión escotópica.

Este efecto fue descubierto por el investigador Johannes Evangelista Purkinje en el siglo XIX, el mismo que fue responsable de muchos otros descubrimientos y avances relacionados con el ojo humano como las células de Purkinje o las fibras de Purkinje

II: Johannes Evangelista Purkinje

¿Cuál es la mejor resolución de pantalla para el ojo humano?

Page 6: Impri Mir

« en: Enero 14, 2013, 12:53:38 pm »

Para la mayoría de los consumidores de tecnología más es mejor; más grande, más pequeño, más rápido, más caro, más delgado, y las pantallas son su más claro ejemplo. En este CES 2013 pudimos ver pantallas 4K de varias marcas así como el asombroso 8K . Pero te haz preguntado si el ojo humano puede soportar estas definiciones o más.

El ojo humano tiene una resolución finita. Por ello, se puede leer la pantalla de la computadora desde donde estamos sentados, pero no si estamos al otro lado de la habitación. Todo el mundo es diferente, pero la persona promedio tiene una agudeza visual entre 1 a 0.4 minutos de arco (un minuto de arco es 1/60 de un grado sexagesimal) como lo máximo que la fisiología nos puede ofrecer.

Pero antes de que traduzcamos estas cifras a pixeles o tamaños de pantalla, hay que tener en cuenta de que el tamaño del pixel varia con la distancia.

Un niño puede enfocar desde una distancia de 5cm y un adulto promedio lo hace en 10 cm, por lo que suponiendo que el valor más bajo sea de 10 cm equivaldría que a esta distancia un pixel tendría que tener 11.6 micras de tamaño para los 0.4 minutos de arco y 29 micrones para los de 1 minuto de arco para ver la imagen claramente. En términos para las pantallas que se miden en  pulgadas que equivalen a 25.4mm seria para los de 0.4 minutos de arco una resolución de 2190 ppp (puntos por pulgada) y de 876 ppp para los de 1 minuto de arco.

Esto quiere decir que si un adulto sano pone cualquier pantalla o papel impreso o lo que sea a 10 cm de su cara la resolución máxima es de 2190 ppp, pero actualmente la norma legal aceptada de visión 20/20 es de 876 ppp a 10 cm.

Para que se den una idea de estos números las revistas se imprimen en promedio a 300 ppp ya que la distancia de lectura es de aproximadamente 30 cm, los monitores de computadora están en promedio a 100 ppp, el nuevo ipad tiene 264 ppp. Las pantallas LCD o LED se encuentran alrededor de 50 y 90 ppp, ya que por el tamaño de las pantallas y el tamaño de las habitaciones donde se colocan en promedio a 1.8 metros del televidente, el ojo humano con 0.4 minutos de arco a tiene una resolución de 120 ppp y uno con un 1 minuto de arco de 50 ppp.

Por ejemplo una pantalla full HD (1920 x1080) de 50 pulgadas no necesitas más de 100 ppp para que el espectador a 1.8 m de distancia disfrute la imagen plenamente, a esta misma distancia y tamaño una pantalla 4k (3840 x 2160) se acercan mucho a lo que el ojo humano puede resolver con menos de 60 ppp, lo que estaría cerca de ser la máxima definición apreciable para el humano común en una habitación promedio, con 1.8 m como un mínimo entre la tv y el televidente.

Una pantalla similar de 8k (7680×5320) a esta misa distancia supera al ojo con 20 ppp por lo que en este caso necesitaríamos una gran sala con una distancia de al menos 5 metros para disfrutar en su totalidad esta resolución.

En conclusión, una mayor definición claro que se vera mejor al ser una imagen más detallada, pero todo dependerá de que tamaño y a que distancia estará de nuestros ojos ya que mientras más grande sea esta, el tamaño de la pantalla y la distancia en la que podrá visualizarse también aumentaran, con el problema de que si hay más distancia el detalle  de las imágenes disminuirá a pesar de su resolución, todo esto simple y sencillamente por la limitación de nuestra capacidad visual.

Page 7: Impri Mir

Por lo que a la hora de adquirir una pantalla la recomendación es tener en cuenta los parámetros de tamaño/ distancia para realizar una buena compra.

El ojo humano y la importancia de los FPS.

1) El ojo humano procesa una imagen en sólo 150 microsegundos.

2) El ojo humano ve 13 millones de colores y soporta hasta 16,7 millones.

3) El ojo humano procesa 34 fps. (30-40 fps,dependiendo la persona)

Explicando:

1) Velocidad que tarda en procesar una imagen (verla).

2) Mientras mas cantidad de colores se procesen, mayor será la resolución y claridad.

3) Mientras mas FPS (Frames por segundo) , mejor será la visión.. es decir..Si estamos viendo un video con pocos FPS (unos 20), nos parecería mas una "animación" que un video.. Por Que?.. Es sencillo.. Mientras menos sean los fotogramas o conocido generalmente como "FPS" (Frames o cuadros por segundo) menos será la claridad de la imagen...Imaginen esto.. cuando nosotros por ejemplo estamos viendo algún dibujo en la televisión (ahora , o antes por lo menos se hacían con muchas hojas con dibujos corriendo en una película, proyectándolos y así formando una imagen fluida y constante) en ese caso.. si el dibujante o la empresa encargada de ocuparse de ese sector,* * reproducirá unos 20 "FPS",(produciendo menos fluidez y constancia) el ojo humano lo notaria al instante, notando "faltantes" entre cada fotograma..nos parecería mas a una "animación" que a un dibujo..

Resumiendo: en resumen el ojo humano procesa 34 fps es decir, que si vos corres al Counter-Strike:Source a unos 200 FPS, el ojo humano no nota la diferencia..a ver si me explico..

200 FPS ~ 40 FPS (Constantes) = Mismo resultado de visión.

Mientras vos corras al source entre unos 35-40 FPS (constantes) estas bien, no te preocupes ni lo metas de excusa .Dicho esto espero que se terminen los comentarios "huu no.. lo corro a 40 fps" .. Nada de eso, yo en su momento comente que jugaba el mapa "cs_assault" a unos 17 FPS (Frames por segundo) en ese caso se podía distinguir claramente la diferencia frente a otros mapas con unos 50-60 FPS (constantes).

Información aidiciónal:

Un ojo normal, enfocado al infinito (a partir de unos 5 metros) está en reposo. Aparte de la posible contracción del iris para regular la cantidad de luz (como en una cámara fotográfica con el diafragma), la otra parte dinámica del sistema óptico, es decir el cristalino, está en reposo. O sea, que el ojo humano para ver de lejos no necesita esfuerzo adicional.

(Esto quiere decir, que mientras mas estemos de un objeto, mayor será el esfuerzo por procesarlo y/o detallarlo) en el caso de un monitor con demasiada resoluciones es realmente enorme el esfuerzo por reproducir tantos píxels, colores fuertes, brillos,gamas,etc.. y por eso no es recomendable permanecer demasiado tiempo frente a un monitor.En el caso de un televisor también se exige mucho al ojo humano, pero vale la pena destacar que un televisor común y corriente no posee la misma resolución que un monitor.En el

Page 8: Impri Mir

caso de un monitor de computadora de 17" resolución normal : "1024x768" (máxima:"1940 x 1440", mientras que un televisor normal es de "800x600",diferencia notoria, no?.En otras palabras cuanto mayor sea la resolucion, mas se esfuerza la vista y/o se deteriora mas con el correr, del tiempo.

Un fotograma es la imagen obtenida sin la cámara fotográfica, por medio de un proceso que consiste en la superposición del objeto a registrar sobre el material fotosensible de placa o de película fotográfica, de modo que el fotograma es cada una de las imágenes impresionadas de este modo químicamente en la tira de celuloide.

En el cine se le llama fotograma a cada una de las imágenes individuales captadas por la cámara cinematográfica y proyectada por el cinematógrafo; por extensión también se llama de ese modo a cada una de las imágenes individuales captadas por cámaras de video y registradas analógica o digitalmente.

Cuando una secuencia de fotogramas es visualizada de acuerdo a una determinada frecuencia de imágenes por segundo se logra generar la sensación de movimiento en el espectador. La fórmula de esta frecuencia es la siguiente:

Se expresa en fotogramas por segundo (en inglés frames per second y abreviado FPS) o en hercios (Hz). Para conseguir que el sistema visual humano vea movimiento ha de tenerse en cuenta que:

Para observar parpadeo se ha de tener una frecuencia de fotograma menor de 50 Hz. La discontinuidad de movimiento tiene una frecuencia de fotograma menor de 12 a 15 Hz.

Las frecuencias de fotograma de algunos de los sistemas más conocidos son las siguientes:

Cine mudo: 16–18 Hz. Cine: 24 Hz. Televisión, normas europeas (PAL & SECAM): 25 Hz. Televisión, norma estadounidense (NTSC): 29,97 Hz.

En televisión y video

Las frecuencias utilizadas para la sucesión de los fotogramas van en relación a la frecuencia de la corriente eléctrica usada en las distintas regiones del mundo. En Europa, el Cono Sur americano, Australia y asia y otras tantas zonas del mundo es de 50 Hz, es decir el doble de la frecuencia de la televisión que es de 24 fotogramas cada segundo o, lo que es lo mismo, 25 Hz. En Estados Unidos y Japón es de 60 Hz, el doble de la frecuencia de la televisión que es de 30 fotogramas cada segundo o, lo que es prácticamente lo mismo, 29,98 Hz.

PSICOACUSTICA

La psicoacústica estudia la compresión sonora, tales como la amplitud, ecualización y acústica. Estas cualidades o características del sonido están, a su vez, determinadas por los propios parámetros del sonido, principalmente, frecuencia y amplitud. También estudia la relación entre la sensación percibida por un sonido determinado y los parámetros de éste. Los parámetros psicoacústicos más relevantes son:

Page 9: Impri Mir

1. Sonoridad : Percepción subjetiva de la intensidad (amplitud) sonora.2. Altura : está ligada a la percepción del tono (en concreto, con la frecuencia fundamental de la señal

sonora). ¿Cómo se percibe lo grave o agudo que es sonido?3. Timbre : Es la capacidad que nos permite diferenciar los sonidos. El timbre está caracterizado por la

forma de la onda, es decir, por su componente armónico.

Debido a la sensibilidad (eficiencia de la respuesta en frecuencia) del oído humano, estos términos en el contexto de la psicoacústica no son totalmente independientes. Los tres se influyen mutuamente. Modificando un parámetro, cambian los otros y la percepción del sonido cambia. Por ejemplo, si se modifica la intensidad de un sonido (su sonoridad) esto afecta a la percepción de la altura y del timbre, etc.

Algunos ejemplos para comprender qué es la psicoacústica es escuchar un disco en dos monitores que están frente a nosotros y luego escucharlo con un par de auriculares, es claro que la percepción de las distancias no es la misma, en el caso de los auriculares la voz la tenemos en el centro de la cabeza, incluso podríamos decir adentro, sin embargo al escucharla con dos monitores frente a nosotros, la voz esta justamente frente a nosotros y la percepción de distancia se hace en sentido paralelo a nosotros y en el caso de los auriculares, en sentido perpendicular.

Otro ejemplo claro es escuchar una voz alentada en pitch lo que la hace muchísimo más grave, y luego escuchar la misma frase acelerada (voz de ardilla). En el primer caso vamos a sentir que nos habla un gigante o un demonio, en el segundo caso sentiremos que nos habla alguien de menor tamaño que nosotros, eso también se lo considera psicoacústica.

Por otra parte podríamos hablar de casos como el tempo de una canción, la generación de extensiones de acordes, la rítmica y demás componentes de una pieza que generan diferentes estados en el oyente. Los volúmenes también forman parte de la psicoacústica, dado que a niveles de sonido más altos, los volúmenes se generan armónicos, nuestra percepción puede hacer que al comparar una canción o un instrumento a altos volúmenes nos haga pensar que suenan mejor.

El estándar JPEG

Joint Photographic Experts Group

JPEG es un método comúnmente utilizado para la compresión de imágenes fotográficas. El grado de reducción se puede ajustar, lo que permite seleccionar el compromiso que existe entre el tamaño de almacenamiento y la calidad de la imagen. Normalmente alcanza una compresión de 10 a 1 con pocas pérdidas perceptibles en la calidad de la imagen.

Además de ser un método de compresión, es a menudo considerado como un formato de archivo. JPEG/Exif es el formato de imagen más común utilizado por las cámaras fotográficas digitales y otros dispositivos de captura de imagen, junto con JPEG/JFIF, que también es otro formato para el almacenamiento y la transmisión de imágenes fotográficas en la World Wide Web. JPEG/JFIF es el formato más utilizado para almacenar y transmitir archivos de fotos en Internet. Estas variaciones de formatos a menudo no se distinguen, y se llaman JPEG.

Page 10: Impri Mir

El estándar JPEG

"JPEG" significa "Joint Photographic Experts Group", nombre de la comisión que creó la norma, la cual fue integrada desde sus inicios por la fusión de varias agrupaciones en un intento de compartir y desarrollar su experiencia en la digitalización de imágenes. La ISO, tres años antes (abril de 1983), había iniciado sus investigaciones en el área, Además de ser un método de compresión, es a menudo considerado como un formato de archivo. JPEG/Exif es el formato de imagen más común utilizado por las cámaras fotográficas digitales y otros dispositivos de captura de imagen, junto con JPEG/JFIF, que también es otro formato para el almacenamiento y la transmisión de imágenes fotográficas en la World Wide Web. JPEG/JFIF es el formato más utilizado para almacenar y transmitir archivos de fotos en Internet. Estas variaciones de formatos a menudo no se distinguen, y se llaman JPEG.

Compresión del JPEG

Es un algoritmo de compresión con pérdida. Esto significa que al descomprimir la imagen no obtenemos exactamente la misma imagen que teníamos antes de la compresión.

Una de las características que hacen muy flexible el JPEG es el poder ajustar el grado de compresión. Si especificamos una compresión muy alta se perderá una cantidad significativa de calidad, pero obtendremos archivos de pequeño tamaño. Con una tasa de compresión baja obtenemos una calidad muy parecida a la del original, y un archivo mayor.

Esta pérdida de calidad se acumula. Esto significa que si comprime una imagen y la descomprime obtendrá una calidad de imagen, pero si vuelve a comprimirla y descomprimirla otra vez obtendrá una pérdida mayor. Cada vez que comprima y descomprima la imagen, ésta perderá algo de calidad. La compresión con pérdida no es conveniente en imágenes o gráficos que tengan textos o líneas y sobre todo para archivos que contengan grandes áreas de colores sólidos.

El algoritmo de compresión JPEG se basa en dos defectos visuales del ojo humano, uno es el hecho de que es mucho más sensible al cambio en la luminancia que en la crominancia, es decir, notamos más claramente los cambios de brillo que de color. El otro es que notamos con más facilidad pequeños cambios de brillo en zonas homogéneas que en zonas donde la variación es grande, por ejemplo en los bordes de los cuerpos de los objetos.

Codificación

o

Page 11: Impri Mir

El algoritmo JPEG, transforma la imagen en cuadrados de 8×8 y luego almacena cada uno de estos como una combinación lineal o suma de los 64 recuadros que forman esta imagen, esto permite eliminar detalles de forma selectiva, por ejemplo, si una casilla tiene un valor muy próximo a 0, puede ser eliminada sin que afecte mucho a la calidad.

Esquema del modelo RGB.

Page 12: Impri Mir

Esquema del modelo YUV.

Muchas de las opciones del estándar JPEG se usan poco. Esto es una descripción breve de uno de los muchos métodos usados comúnmente para comprimir imágenes cuando se aplican a una imagen de entrada con 24 bits por pixel (ocho por cada rojo, verde, y azul). Esta opción particular es un método de compresión con pérdida.

Transformación del espacio de color

Comienza convirtiendo la imagen desde su modelo de color RGB a otro llamado YUV ó Y Cb Cr. Este espacio de color es similar al que usan los sistemas de color para televisión PAL y NTSC, pero es mucho más parecido al sistema de televisión MAC.

Este espacio de color (YUV) tiene tres componentes:

La componente Y, o Luminancia (información de brillo), es decir, la imagen en escala de grises. Las componentes U o Cb y V o Cr, respectivamente Saturación (la cantidad de blanco, o la pureza

del color) y Tono (el nombre del color propiamente dicho, o la longitud de onda asociada); ambas señales son conocidas como crominancia (información de color).

El resultado es una imagen en la que la luminancia está separada de la crominancia.

Las ecuaciones que realizan éste cambio de base de RGB a YUV son las siguientes:

Y = 0.257 * R + 0.504 * G + 0.098 * B + 16Cb = U = -0.148 * R - 0.291 * G + 0.439 * B + 128Cr = V = 0.439 * R - 0.368 * G - 0.071 * B + 128

Las ecuaciones para el cambio inverso se pueden obtener despejando de las anteriores y se obtienen las siguientes:

B = 1.164 * (Y - 16) + 2.018 * (U - 128)G = 1.164 * (Y - 16) - 0.813 * (V - 128) - 0.391 * (U - 128)R = 1.164 * (Y - 16) + 1.596 * (V - 128)

NOTA: Estas ecuaciones están en continua investigación, por lo que se pueden encontrar en libros y en la red otras ecuaciones distintas pero con coeficientes muy parecidos.

Page 13: Impri Mir

Si se analiza el primer trío de ecuaciones veremos que las tres componentes toman como valor mínimo el 16. El canal de luminancia (canal Y) tiene como valor máximo el 235, mientras que los canales de crominancia el 240, todos estos valores caben en un byte haciendo redondeo al entero más próximo. Durante esta fase no hay pérdida de información.

NOTA: Esta última afirmación no es del todo cierta ya que debido a los redondeos se introduce un pequeño margen de error aunque imperceptible para el ojo humano.

Submuestreo

Ligera explicación visual sobre el submuestreo, la imagen de arriba a la izquierda es la original, las otras sufren unos submuestreos de color salvajes que dan idea de los efectos de esta técnica. Ampliar para mejor visualización.

Una opción que se puede aplicar al guardar la imagen, es reducir la información del color respecto a la de brillo (debido al defecto en el ojo humano comentado anteriormente). Hay varios métodos: si este paso no se aplica, la imagen sigue en su espacio de color YUV, (este submuestreo se entiende como 4:4:4), con lo que la imagen no sufre pérdidas. Puede reducirse la información cromática a la mitad, 4:2:2 (reducir en un factor de 2 en dirección horizontal), con lo que el color tiene la mitad de resolución (en horizontal), y el brillo sigue intacto. Otro método, muy usado, es reducir el color a la cuarta parte, 4:2:0, en el que el color se reduce en un factor de 2 en ambas direcciones, horizontal y vertical. Si la imagen de partida estaba en escala de grises (blanco y negro), puede eliminarse por completo la información de color, quedando como 4:0:0.

Algunos programas que permiten el guardado de imágenes en JPEG (como el que usa GIMP) se refieren a estos métodos con 1×1,1×1,1×1 para YUV 4:4:4 (no perder color), 2×1,1×2,1×1 para YUV 4:2:2 y 2×2,1×1,1×1 para el último método, YUV 4:2:0.

Las técnicas algorítmicas usadas para este paso (para su reconstrucción exactamente) suelen ser interpolación bilineal, vecino más próximo, convolución cúbica, Bezier, b-spline y Catmun-Roll.rh

Transformación discreta de coseno o DCT

Page 14: Impri Mir

"Antes de", en un bloquecillo 8×8 (ampliación ×16).

"Después de", en un bloquecillo 8×8, se notan errores respecto a la primera imagen, como en la esquina inferior izquierda, que está más clara.

Entonces, cada componente de la imagen se divide en pequeños bloques de 8×8 píxeles, que se procesan de forma casi independiente, de esto resulta la formación de los bloques, que se hace notable en imágenes guardadas con altas compresiones. Si la imagen sufrió un submuestreo del color, los colores quedarían en la imagen final en bloques de 8×16 y 16×16 pixeles, según fuese 4:2:2 o 4:2:0.

Después cada pequeño bloque se convierte al dominio de la frecuencia a través de la transformación discreta de coseno bidimensional, abreviadamente llamada DCT. Un ejemplo de uno de esos pequeños bloques de 8×8 inicial es este:

El siguiente proceso es restarles 128 para que queden números entorno al 0, entre -128 y 127.

Page 15: Impri Mir

Se procede a la transformación por DCT de la matriz, y el redondeo de cada elemento al número entero más cercano.

Nótese que el elemento más grande de toda la matriz aparece en la esquina superior izquierda, este es el coeficiente DC.

NOTA: Se ha comprobado que los resultados anteriormente expuestos están correctos.

Cuantificación

Como ya habíamos comentado, el ojo humano es muy bueno detectando pequeños cambios de brillo en áreas relativamente grandes, pero no cuando el brillo cambia rápidamente en pequeñas áreas (variación de alta frecuencia), esto permite eliminar las altas frecuencias, sin perder excesiva calidad visual. Esto se realiza dividiendo cada componente en el dominio de la frecuencia por una constante para ese componente, y redondeándolo a su número entero más cercano. Este es el proceso en el que se pierde la mayor parte de la información (y calidad) cuando una imagen es procesada por este algoritmo. El resultado de esto es que los componentes de las altas frecuencias, tienden a igualarse a cero, mientras que muchos de los demás, se convierten en números positivos y negativos pequeños.

Una matriz de cuantificación típica es la matriz de Losheller que se usa opcionalmente en el estándar JPEG:

Dividiendo cada coeficiente de la matriz de la imagen transformada entre cada coeficiente de la matriz de cuantificación, se obtiene esta matriz, ya cuantificada:

Page 16: Impri Mir

Por ejemplo, cuantificando el primer elemento, el coeficiente DC, sería así:

Codificación entrópica

La codificación entrópica es una forma especial de la compresión sin pérdida de datos. Para ello se cogen los elementos de la matriz siguiendo una forma de zig-zag, poniendo grupos con frecuencias similares juntos, e insertando ceros de codificación, y usando la codificación Huffman para lo que queda. También se puede usar la codificación aritmética, superior a la de Huffman, pero que rara vez se usa, ya que está cubierta por patentes, esta compresión produce archivos un 5% menores, pero a costa de un mayor tiempo de codificación y decodificación, esta pequeña ganancia, puede emplearse también en aplicar un menor grado de compresión a la imagen, y obtener más calidad para un tamaño parecido.

En la matriz anterior, la secuencia en zig-zag, es esta:−26, −3, 0, −3, −2, −6, 2, −4, 1 −4, 1, 1, 5, 1, 2, −1, 1, −1, 2, 0, 0, 0, 0, 0, −1, −1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

JPEG tiene un código Huffman para cortar la cadena anterior en el punto en el que el resto de coeficientes sean ceros, y así, ahorrar espacio:−26, −3, 0, −3, −2, −6, 2, −4, 1 −4, 1, 1, 5, 1, 2, −1, 1, −1, 2, 0, 0, 0, 0, 0, −1, −1, EOB

Ruido producido por la compresión

El resultado tras la compresión, puede variar, en función de la agresividad de los divisores de la matriz de cuantización, a mayor valor de esos divisores, más coeficientes se convierten en ceros, y más se comprime la imagen. Pero mayores compresiones producen mayor ruido en la imagen, empeorando su calidad. Una imagen con una fuerte compresión (1%-15%) puede tener un tamaño de archivo mucho menor, pero tendrá tantas imperfecciones que no será interesante, una compresión muy baja (98%-100%) producirá una imagen de muy alta calidad, pero, tendrá un tamaño tan grande que quizás interese más un formato sin pérdida como PNG.

La mayoría de personas que naveguen por Internet estarán familiarizadas con estas imperfecciones, son el resultado de lograr una buena compresión; para evitarlos, se tendrá que reducir el nivel de compresión o aplicar compresión sin pérdida, produciendo mayores ficheros después.

Decodificación

El proceso es similar al seguido hasta ahora, sólo que de forma inversa. En este caso, al haber perdido información, los valores no coincidirán.

Page 17: Impri Mir

Se toma la información de la matriz, se decodifica, y se pone cada valor en su casilla correspondiente. Después se multiplica cada uno de estos valores por el valor correspondiente de la matriz de cuantización usada, como muchos valores son ceros, sólo se recuperan ( y de forma aproximada) los valores de la esquina superior izquierda.

Después se deshace la transformación DCT:

Errores producidos por una compresión excesiva: Antes de y después de.

Page 18: Impri Mir

Y finalmente se suma 128 a cada entrada:

Tras la compresión, suelen quedar a veces bloques como estos, en este caso en un trozo de una imagen ampliado.

Para comparar las diferencias entre el bloque original y el comprimido, se halla la diferencia entre ambas matrices, la media de sus valores absolutos, da una ligera idea de la calidad perdida:

Page 19: Impri Mir

Se puede observar que las mayores diferencias están cerca de la mancha, y por la parte inferior, entre la esquina izquierda y el centro, notándose más esta última, ya que corre una mancha clara que antes estaba más hacia la esquina. La media de los valores absolutos de las restas es 4.8125, aunque en algunas zonas es mayor.

Compresión de video

La necesidad de comprimir la señal de video se evidencia al estudiar como es el proceso de digitalización del vídeo analógico. El vídeo analógico define cuantas líneas hay por fotograma y cuantos fotogramas se difunden por segundo (téngase en cuenta que no todas las líneas contienen vídeo activo). Para digitalizar una señal de vídeo analógico es necesario muestrear todas las líneas de vídeo activo. Cada muestra de color se codifica en señal Y-U-V (Y- luminancia, U y V crominancia). Un ejemplo de conversión de señal analógica de televisión en color a una señal en vídeo digital sería

Sistema PAL : 576 líneas activas, 25 fotogramas por segundo, para obtener 720 pixels y 8 bit por muestra a 13,5Mhz:

Luminancia(Y): 720x576x25x8 = 82.944.000 bits por segundo Crominancia(U): 360x576x25x8 = 41.472.000 bits por segundo Crominancia(V): 360x576x25x8 = 41.472.000 bits por segundo

Por tanto, el número total de bits resultante es de: 165.888.000 bits por segundo (aprox. 166Mbits/seg.). Ninguno de los sistemas comunes de transmisión de vídeo proporcionan las transferencias suficientes para este caudal de información (el Vídeo CD tiene un índice de transferencia de 1,4 Mbps y la televisión por cable 6Mbps) por tanto es preciso disminuirlo utilizando técnicas de compresión.

Diferentes Tipos de Compresión

Compresión MPEG

En los años 1988-1990 se establecieron grupos de trabajo para la creación de métodos de codificación digital de señales de audio y video. Con el paso de los años se han aprobado normas dedicados a los diferentes usos y formatos, principalmente JPEG y MPEG. Dentro de la familia MPEG, se aprobaron varias normas: MPEG-1, MPEG-2, MPEG-4 definidas específicamente para la compresión de vídeo que se utiliza para transmitir imágenes en vídeo digital. El algoritmo empleado, además de comprimir imágenes estáticas, compara los fotogramas presentes con los anteriores y los futuros para almacenar sólo las partes que cambian. La señal incluye sonido en calidad digital. El inconveniente de este sistema es que debido a su alta complejidad necesita apoyarse en hardware específico.

Existen diferentes opciones dependiendo del uso:

JPEG. Creado por el grupo Joint Picture Experts Group de ISO, se diseñó para la codificación y transmisión de fotografías e imágenes fijas, completas y en movimiento, pero estas últimas de manera limitada. La compresión en JPEG puede ser con o sin pérdida de información. Utiliza la señal de luminancia (Y), y las dos señales de color, azul (U = Cb) y roja (V = Cr)

MPEG-1. Creado por el Moving Picture Experts Group. Para este formato se quería conseguir el almacenamiento y la reproducción en un CD-ROM, con un flujo de 1,5 Mbps para imagen y sonido. La norma MPEG-1 se compone del "MPEG sistema" que define la estructura del múltiplex MPEG-1, el "MPEG video" que define la codificación de video en MPEG-1 y el "MPEG audio" que define la codificación de audio MPEG-1. Es la norma diseñada para Vídeo-CD: calidad VHS con sonido digital. Ancho de banda medio (hasta 1,5 Mbps)

Page 20: Impri Mir

MPEG-2 : se definió para la codificación digital de la señal broadcast de radiotelevisión. MPEG-2 está relacionada con las normas europeas DVB sobre teledifusión digital. Al igual que el MPEG-1 el MPEG-2 se compone de cuatro partes básicas: Parte 1.- "MPEG sistema" que define la estructura de MPEG-2, Parte 2.- "MPEG video" que define la codificación de video MPEG-2, Parte 3.- "MPEG audio" que define la codificación de audiovisual MPEG-2, y Parte 4 "Pruebas de conformidad". Se usa en los DVD (Digital Vídeo Disk). Calidad superior al MPEG-1. Ancho de banda Alto (Hasta 40 Mbps.) Puede tener video entrelazado y gran variedad de resoluciones de pantalla.

MPEG-3 Gran calidad de vídeo: 1920x1080x30 Hz con transferencias entre 20 y 40 Mbps. En la actualidad forma parte del MPEG-2 Nivel Alto-1440

MPEG-4 Optmizado para videoteléfonos y PDA, bajo ancho de banda.

Compresión MJPEG

Básicamente consiste en tratar al vídeo como una secuencia de imágenes estáticas independientes y su compresión y descompresión mediante el algoritmo JPEG, para luego, recomponer la imagen de vídeo. Esto se puede realizar en tiempo real e incluso con poca inversión en hardware. El inconveniente de este sistema es que no se puede considerar como un estándar de vídeo pues ni siquiera incluye la señal de audio. Otro problema es que la dependencia que tiende de las transferencias del sistema de almacenamiento, pues el índice de compresión no es muy grande. En la práctica es factible conseguir la calidad SVHS con lo que se pueden realizar trabajos semiprofesionales.

Compresión MPEG-2

Fue desarrollado inicialmente para aplicaciones que excluían las producciones de difusión de televisión aunque se realizaron avances posteriores para completar las posibilidades del estándar en cuanto a difusión: que fuese escalable y capaz de resolver diferentes resoluciones de imagen. Sin embargo, los últimos desarrollos posteriores que iban a estar agrupados dentro un nuevo estándar (MPEG-3) coincidieron con la finalización del desarrollo de MPEG-2 y ambos trabajos se consolidaron en único estándar MPEG-2.

MPEG-2 se desarrolló por ISO/IEC/JTC/SC29/WG11 como la norma ISO/IEC 13818 o UIT-T H.262. Esta norma sirve para codificar video CCIRR-601 o superior con alta calidad y tasas de transmisión de 4 a 9Mbps. Sirve para transmitir videos de calidad CCIR/ITU-R en NTSC, PAL, y SECAM, así como calidades HDTV, para lo que precisa tasas superiores a 10 Mbps, con fuentes progresivas y entrelazadas.

Niveles y perfiles en MPEG-2

MPEG-2 es una recomendación muy compleja que soporta una amplia gama de aplicaciones y servicios de diferente ancho de banda, resolución y calidad de imagen. En principio, puede tener una amplia variedad de combinaciones (sobre 106), pero para que los sistemas y aplicaciones sean interoperables las normas lo limitan a 4 perfiles y 4 niveles, tal como se muestra en la figura.

Page 21: Impri Mir

Niveles: proporcionan el rango de cualidades potenciales, definen los máximos y mínimos de la resolución de la imagen, muestras Y por segundo (luminancia), el número de capas de audio y vídeo soportados por los perfiles escalables, y la máxima velocidad binaria por perfil. A continuación se presenta una explicación resumida de cada uno de ellos:

o Nivel Bajo: tiene un formato de entrada el cual es un cuarto de la imagen definida en la norma ITU-R 601.

o Nivel Principal: tiene una trama de entrada completa definida en la norma ITU-R 601. o Nivel Alto 1440: tiene un formato de alta definición con 1440 muestras por línea. o Nivel Alto: tiene un formato de alta definición con 1920 muestras por línea (para

aplicaciones sin limitación de velocidades de datos).

Perfiles: definen la resolución del espacio de color y la escalabilidad. La norma tiene cinco diferentes perfiles, cada uno es progresivamente más complejo y añade funciones adicionales (y por supuesto más costoso para el cliente) con la característica de ser compatible con el anterior. Esto significa que un decodificador equipado con un alto perfil descodificará perfiles simples. A continuación se presenta una pequeña explicación de los perfiles:

o Perfil Simple: es el que ofrece poca funcionalidad. o Perfil Principal: tiene una funcionalidad extendida o mejorada con respecto al perfil simple

y predicción bidireccional. Tendrá mejor calidad para la misma velocidad binaria que el perfil simple.

Page 22: Impri Mir

o Perfil Escalable SNR y Perfil Escalable Espacial. Estos dos niveles son llamados escalables porque permiten codificar vídeo que sean particionados dentro de una capa base y una o más señales "Top-up". La señal Top-up puede tratar tanto la proporción S/N (SNR escalable) como la resolución (escalable espacial).

o Perfil Alto: este incluye todas las funcionalidaes de las versiones anteriores y mejoradas. Tiene la característica de codificar simultáneamente las diferencias de color entre líneas. Es un super sistema diseñado para aplicaciones donde no haya limitaciones al ancho de banda (velocidades de los bits).

Para muchas de las aplicaciones típicas (incluyendo la transmisión por satélite) el Perfil Principal, Nivel Principal (MP@ML, siglas en ingles) proporciona una buena relación entre calidad de imagen y la complejidad VLSI, por tanto, el MP@ML es el punto óptimo de los actuales sistemas DCTV.

Los modos escalables de MPEG 2

El video escalable solo hay en los perfiles Principal y Escalable. Hay cuatro modos escalables en MPEG 2. Estos modos transforman el vídeo MPEG 2 en diferentes capas (base, media, y alta) para priorizar los datos que forman la imagen de vídeo. Otro objetivo de la escalabilidad es para divisiones complejas. Por ejemplo, en HDTV, el flujo digital de alta prioridad (720x480) puede ser descodificado bajo condiciones de ruido donde no pueda decodificarse el de baja prioridad (1440x960).

Presentamos a continuación una breve explicación de los modos escalables:

Escalabilidad espacial: Este método en el dominio del espacio codifica la capa base con un muestreo más bajo (por ejemplo: resolución) que las capas superiores. Las capas bajas (base) reconstruidas del muestro son usadas como predicción de las capas superiores. Se emplea en simulcasting

Particionamiento de datos: es un método en el dominio de la frecuencia que divide los bloques de 64 coeficientes cuantizados de la transformada, en dos flujos binarios. El primero, el flujo de alta prioridad, contiene los coeficientes más críticos de las frecuencias bajas e información complementaria (tales como valores DC, vectores de movimiento, etc.), el segundo, el flujo binario de baja prioridad, lleva los datos AC de las frecuencias más altas.

Escalabilidad SNR: es un método en el dominio del espacio donde los canales son codificados a velocidades de muestreo idénticas, pero con diferentes calidades de imágenes. El flujo binario de alta prioridad tiene datos de la capa base que se añaden a la capa de refinamiento de menor prioridad, para construir una imagen de alta calidad.

Escalabilidad temporal: Un método en el dominio temporal, que se emplea por ejemplo en vídeo estereoscopico. El primero, el flujo digital de alta prioridad codifica el vídeo con una velocidad de tramas, y los flujos intermedios se codifican en un segundo flujo digital, que efectúa una reconstrucción de la primera cadena binaria como predicción. Por ejemplo en una visión estereoscopica, el canal de vídeo izquierdo puede ser predecido del canal derecho.

Compresión MPEG-4

Representa el siguiente paso en tecnología de compresión. Fue consecuencia de la necesidad de mantener una calidad de imagen aceptable con mayores relaciones de compresión, posibilitando transmisiones de vídeo sobre canales estrechos como Internet o redes inalámbricas. En 2001, el grupo MPEG y el grupo Video Coding Experts Group (VCEG) de la ITU-T, juntaron esfuerzos en el desarrollo de la norma H.264 formando el JVT (Joint Video Team). El desarrollo obtenido recibió, en consecuencia, diferentes nombres: AVC (Advanced Video Coding), H.264, ó MPEG-4 Parte 10.

Page 23: Impri Mir

Tipo de imágenes MPEG

Para explorar la capacidad de compresión y de compensación de movimiento y para incorporar funciones de avance rápido y retroceso rápido (fast forward y fast reverse, FF/FR), propias de los servicios de almacenamiento digital, MPEG 2, incorpora algunos esquemas de codificación intertrama. El concepto está basado en Intra-trama (I), tramas predecibles (P), tramas interpoladas o bidireccionales (B) y tramas D (Imágenes DC).

Una trama I es codificada sin referencia con respecto a otras imágenes o tramas contenidas en la secuencia del vídeo. Cualquier trama I trabaja como un punto de referencia para la función FF/FR. Tiene muy baja compresión.

Las tramas P son codificadas con referencia a las tramas previamente codificadas, tanto I y P. Ellas incorporan compensación de movimiento, la compresión es más alta que las tramas I.

Las tramas B requieren como referencia tanto las tramas futuras como pasadas, las tramas B usan compensación e interpolación de movimientos y logra alta compresión.

Tramas D (imágenes DC) son imágenes que contienen solamente la DC (bloques de 8x8) para cada bloque. El soporte de éste tipo de trama es opcional, y las secuencias pueden no contener tramas D mezcladas con los otros tipos de tramas.

La proporción entre las tramas I, P y B es conocida como N/M, donde N representa el número de tramas entre imágenes o tramas I y M es el número de tramas entre imágenes o tramas P. Valores típicos son de 15 y 3 para N y M respectivamente.

La incorporación de estos tres tipos de tramas, aportan alta compresión, buen acceso aleatorio y funcionalidad FF/FR. Este método de codificación también incrementa significativamente el retraso de codificación porque las tramas de las imágenes deben ser almacenadas en un buffer. Por ejemplo, el codificador considerará la primera trama como una trama I, la segunda y tercera trama serán tramas B, luego ellas son predecidas e interpoladas basadas en la trama previa I (o P) y la próxima trama P, serán puestas en el buffer y codificada la próxima trama como P, la cual sólo es referida a la trama previa I. Después de codificar la trama P, el codificador retornará a trabajar con la trama almacenada B. El descodificador revertirá el proceso. El recibirá la trama I, la trama P y la trama B y reconstruirá la trama original del vídeo (ver la siguiente figura). El proceso, requiere más memoria en el descodificador que en el codificador. Este retraso de codificación hace que MPEG 2 no sea bueno para aplicaciones interactívas.

MPEG-3: se definió para la compresión de la televisión de alta definición HDTV, pero debido a que estas características se integraron en el MPEG-2, se abandonó el MPEG-3.

MPEG-4: es una nueva forma de compresión para la transmisión de audio y video de baja calidad propio de teléfonos móviles y PDA's. El ancho de banda de este formato es muy reducido.

MPEG-4

MPEG-4 es un método para la compresión digital de audio y vídeo. Fue introducido a finales de 1998 y designado como un estándar para un grupo de formatos de codificación de audio, video y las tecnologías relacionadas acordadas por la ISO / IEC Moving Picture Experts Group (MPEG) (ISO / IEC JTC1 / SC29/WG11), formalmente estándar ISO/IEC 14496 – Codificación de objetos audiovisuales. Los usos de MPEG-4 incluyen la compresión de datos de audiovisuales para la web, (streaming) y distribución de CD, voz (teléfono, videoconferencia) y difusión de aplicaciones de televisión.

Page 24: Impri Mir

Antecedentes

MPEG-4 absorbe muchas de las características de MPEG-1 y MPEG-2 y otros estándares relacionados, añadiendo nuevas características, tales como VRML(extendido) soporte para 3D, archivos compuestos orientados a objetos (incluyendo audio, vídeo y objetos VRML), soporte para Gestión de derechos digitales especificado externamente y diversos tipos de interactividad. AAC se ha normalizado como un complemento a MPEG-2 (como parte 7) antes de que MPEG-4 fuera emitida.

MPEG-4 es todavía un estándar en desarrollo y se divide en un número de piezas. Las empresas que promueven la compatibilidad MPEG-4 no siempre manifiestan claramente a que "parte" de nivel de compatibilidad se están refiriendo. Las piezas clave para tener en cuenta son MPEG-4 parte 2 (incluyendo el perfil simple avanzado, utilizado por códecs como DivX, Xvid , Nero Digital y 3ivx y Quicktime 6) y MPEG-4 parte 10 (MPEG-4 AVC/H.264 o Codificación de vídeo avanzada, utilizados por el codificador x264, por Nero Digital AVC, con QuickTime 7, y vídeo de alta definición en los medios como el Blu-ray).

La mayoría de las características incluidas en MPEG-4 se dejan a la voluntad del desarrollador decidir si implementarlas o no. Esto significa que probablemente no hay implementaciones completas de todo el conjunto de normas MPEG-4. Para hacer frente a esto, la norma incluye el concepto de "perfiles" y "niveles", lo que permite un conjunto específico de capacidades para definir de una manera apropiada un subconjunto de las aplicaciones.

Inicialmente, MPEG-4 se dirige principalmente para comunicación de vídeo con baja tasa de bits; sin embargo, su alcance se amplió más tarde a un estándar de codificación multimedia. MPEG-4 es eficiente a través de una variedad de tasas de bits que van desde unos pocos kilobits por segundo a decenas de megabits por segundo. MPEG-4 ofrece las siguientes funciones:

Mejora de la eficiencia de la codificación en comparación con MPEG-2 Capacidad de codificación de datos con datos mixtos (video, audio, habla) Capacidad de recuperación de errores para permitir una transmisión robusta Capacidad para interactuar con la escena audiovisual generada en el receptor

Descripción

MPEG-4 ofrece una serie de tecnologías para los desarrolladores, para proveedores de servicios y para los usuarios finales:

MPEG-4 permite a diferentes desarrolladores de software y hardware crear objetos multimedia que posean mejores habilidades de adaptabilidad y flexibilidad para mejorar la calidad de los servicios y tecnologías como la televisión digital, Animation de gráficos, la World Wide Web y sus extensiones.

Los proveedores de la red de datos puede utilizar MPEG-4 para la transparencia de los datos. Con la ayuda de procedimientos estándar, los datos MPEG-4 pueden ser interpretados y se transformados en otros tipos de señales compatibles con cualquier red disponible.

El formato MPEG-4 proporciona a los usuarios una amplia gama de interacción con diversos objetos animados.

Estandarizada la señalización de Gestión de derechos digitales, también conocido en la comunidad MPEG como Gestión de la Propiedad Intelectual y Protección (IPMP).

El formato MPEG-4 se puede realizar diversas funciones, entre las cuales se podrían nombrar las siguientes:

Multiplexación y sincronización de datos, asociados con los objetos del medio, de tal manera que pueden ser eficientemente transportados a través de canales de la red.

Interacción con la escena audiovisual, que se forma en el lado del receptor.

Page 25: Impri Mir

Perfiles y niveles

MPEG-4 ofrece un conjunto amplio de herramientas para la codificación. Subconjuntos de herramientas MPEG-4 se han proporcionado para su uso en aplicaciones específicas. Estos subconjuntos, llamados 'Perfiles', limitan el tamaño de la herramienta que un decodificador está obligado a implementar.1 con el fin de limitar la complejidad computacional, uno o varios "niveles" se establecen para cada Perfil.1 Un perfil y una combinación de nivel permite:1

Un constructor de codec para implementar sólo el subconjunto del estándar necesario, manteniendo al mismo tiempo la interoperabilidad con otros dispositivos MPEG-4 que implementan la misma combinación.1

Comprobar si los dispositivos MPEG-4 cumplen con el estándar, conocida como pruebas de conformidad.1

Partes MPEG-4

MPEG-4 se compone de varios estándares denominados 'partes', incluyendo los siguientes (cada parte cubre un determinado aspecto de la especificación completa):

Partes MPEG-4

Parte Numero

Fecha de la

primera versión pública

(primera edición)

Últimas fecha de

lanzamiento público (última edición)

Últimas modificación

Título Descripción

Parte 1

ISO/IEC 14496-1

1999 2010 2010 Sistemas

Describe la sincronización y la multiplexación de vídeo y audio. Por ejemplo, el formato de archivo MPEG-4 versión 1 (obsoleto en la versión 2 definido en MPEG-4 Parte 14). La funcionalidad de una pila de un protocolo de transporte para transmitir y / o almacenar contenido que cumpla con el estándar ISO/IEC 14496 no está dentro del alcance de 14496-1 y sólo la interfaz a esta capa se considera (DMIF).Información sobre el transporte de contenido MPEG-4 se define por ejemplo, en flujo de transporte MPEG-2 , Perfiles de Vídeo y audio RTP entre otros.6 7 8 9 10

Parte 2

ISO/IEC 14496-2

1999 200411 2009 Visual Un formato de compresión para los datos visuales (video, todavía texturas, imágenes sintéticas, etc.). Uno de los

Page 26: Impri Mir

Partes MPEG-4

Parte Numero

Fecha de la

primera versión pública

(primera edición)

Últimas fecha de

lanzamiento público (última edición)

Últimas modificación

Título Descripción

muchos "perfiles" en la parte 2 es el Perfil simple avanzado (ASP).

Parte 3

ISO/IEC 14496-3

1999 200912 201013 14 Audio

Un conjunto de formatos de compresión de codificación perceptual de las señales de audio, incluyendo algunas variaciones de codificación de audio avanzado (AAC), así como otros componentes de audio / formatos de codificación de voz y herramientas (por ejemplo, Codificación de audio sin perdidas (ALS), Codificación escalable sin perdidas (SLS), Audio Estructurado, interfaz texto-habla (TTSI), HVXC, CELP entre otras)

Parte 4

ISO/IEC 14496-4

2000 200415 2010 (2011)Pruebas de conformidad

Describe los procedimientos para pruebas de conformidad a otras partes del estándar.

Parte 5

ISO/IEC 14496-5

2000 200116 2010 (2011)Software de referencia

proporciona Software de referencia para demostrar y aclarar la otras partes del estándar.

Parte 6

ISO/IEC 14496-6

1999 200017

Framework de Integración de distribución Multimedia (DMIF)

Es una interfaz entre la aplicación y la capa de transporte, la aplicación podrá funcionar sobre las capas de transporte que estén soportadas por la instancia DMIF.

Parte 7

ISO/IEC TR 14496-7

2002 200418

Optimización de software de referencia para la codificación de los objetos audiovisuales

Proporciona ejemplos de cómo para hacer implementaciones mejoradas (por ejemplo, en relación a la parte 5).

Parte 8

ISO/IEC 14496-8

2004 200419 Transporte de contenidos ISO / IEC 14496 a través de redes IP

Especifica un método para llevar contenido MPEG-4 sobre redes IP. También incluye pautas para el diseño formatos RTP de carga útil, uso de reglas SDP para transportar información relacionadad con ISO/IEC 14496-1, definiciones de tipo MIME, análisis de

Page 27: Impri Mir

Partes MPEG-4

Parte Numero

Fecha de la

primera versión pública

(primera edición)

Últimas fecha de

lanzamiento público (última edición)

Últimas modificación

Título Descripción

seguridad RTP y multidifusion.

Parte 9

ISO/IEC TR 14496-9

2004 200920Descripción de hardware de referencia

Provee diseños de hardware para la demostración de cómo aplicar las otras partes del estándar.

Parte 10

ISO/IEC 14496-10

2003 200921 (201022 )Codificación de Video Avanzada (AVC)

Un formato de compresión para señales de video que es técnicamente idéntico al estándar UIT-T H.264.

Parte 11

ISO/IEC 14496-11

2005 200523 2009

Descripción de la escena y el motor de la aplicación

Puede ser utilizado para un contenido rico e interactivo con múltiples perfiles, incluidas las versiones en 2D y 3D. MPEG-4 Parte 11 revisa MPEG-4 Parte 1 - ISO / IEC 14496-1:2001 y hace dos enmiendas a MPEG-4 Parte 1. En él se describe una descripción a nivel de sistema al motor de la aplicación (la entrega, ciclo de vida, el formato y el comportamiento de la descarga del bytecode de aplicaciones JAVA), el formato binario para la escena (BIFS) y el formato textual extendible MPEG-4(XMT) – una representación textual del contenido multimedia MPEG-4 utilizando XML, etc.23 (Es también conocido como BIFS, XMT, MPEG-J.24 MPEG-J fue definido en MPEG-4 Parte 21)

Parte 12

ISO/IEC 14496-12

2004 200825 200926 (20102 )formato de archivo base ISO

Un archivo de formato para el almacenamiento basado en el tiempo del contenido. Se trata de un formato general que constituye la base para otros formatos de archivo más específicas (por ejemplo, 3GP, Motion JPEG 2000, MPEG-4 Parte 14). Técnicamente es idéntica al estándar ISO/IEC 15444-12 (JPEG 2000 sistema de codificación de imágenes – Part 12).

Parte 13

ISO/IEC 14496-13

2004 200427 Extensiones de Gestión y

MPEG-4 Parte 13 revisó una enmienda a MPEG-4 Parte 1 -

Page 28: Impri Mir

Partes MPEG-4

Parte Numero

Fecha de la

primera versión pública

(primera edición)

Últimas fecha de

lanzamiento público (última edición)

Últimas modificación

Título Descripción

Protección de la Propiedad Intelectual (IPMP)

ISO/IEC 14496-1:2001/Amd 3:2004. En él se especifica el manejo común de la propieded intelectual y procesmiento de seguridad (IPMP), la sintaxis y la semántica para el transporte de herramientas de IPMP en el flujo de bits,el transporte de información IPMP, autenticación mutua para las herramientas de IPMP, una lista de autoridades de registro necesarias para el apoyo de las especificaciones modificadas (por ejemplo, CISAC), etc. se definió debido a la falta de interoperabilidad de los distintos mecanismos de protección (diferentes sistemas DRM) para proteger y distribuir contenidos digitales con derechos de autor como música o vídeo.28 29 30 31 32 33 34 35 36

Parte 14

ISO/IEC 14496-14

2003 200337 (201038 )Formato de archivo MP4

También conocido como "formato de archivo MPEG-4 versión 2". El contenedor designado para el formato de archivo para contenido MPEG-4, el cual es basado en la parte 12. El revisa y reemplaza la clausula 13 del ISO/IEC 14496-1 (MPEG-4 Parte 1: Sistemas), en el cual el formato de archivo MPEG-4 fue previamente especificado.

Parte 15

ISO/IEC 14496-15

2004 200439 2008 (201040 )Formato de archivo para (AVC)

Para el almacenamiento de video (Parte 10). El formato de archivo se basa en la Parte 12, pero también permite el almacenamiento en otros formatos de archivo.

Parte 16

ISO/IEC 14496-16

2004 200941 (201042 ) Extensión del Framework de animación (AFX)

Especifica la extensión del Framework de animación (AFX) de MPEG-4, modelo para representar el contenido de gráficos 3D. MPEG-4 se amplía con objetos sintéticos de nivel

Page 29: Impri Mir

Partes MPEG-4

Parte Numero

Fecha de la

primera versión pública

(primera edición)

Últimas fecha de

lanzamiento público (última edición)

Últimas modificación

Título Descripción

superior para especificar la geometría, la textura, la animación y algoritmos de compresión dedicados.

Parte 17

ISO/IEC 14496-17

2006 2006Formato de texto por streaming

Formato de subtitulos de texto temporizado.

Parte 18

ISO/IEC 14496-18

2004 2004Compresión y streaming de fuentes

Para Open Font Format definido en la Parte 22.

Parte 19

ISO/IEC 14496-19

2004 2004Flujo de textura sintetizado

Sintetiza flujos de textura que se utilizan para la creación de clips de vídeo sintéticos a tasas de bits muy bajas.

Parte 20

ISO/IEC 14496-20

2006 2008 2009

Aplicación de representación de escena lijero (LASeR) y formato simple de agregación (SAF)

Los requisitos de Láser (eficiencia en la compresión, el código y huella de la memoria) se cumplen mediante la construcción sobre Gráficos de vector escalables (SVG) formato definido por el Consorcio World Wide Web.47

Parte 21

ISO/IEC 14496-21

2006 2006

Extensiones añ Framework gráfico MPEG-J (GFX)

Describe un entorno de programación ligero para aplicaciones Multimedia interactivas avanzadas - un framework que se casa con un subconjunto del estándar MPEG de aplicaciones Java y entorno (MPEG-J) con una API Java.24 48 49 50

Parte 22

ISO/IEC 14496-22

2007 2009Open Font Format

Esta basado en la versión 1.4 del formato de especificación de fuente OpenType, y es técnicamente equivalente a esa especificación.52 53 Reached "CD" stage in July 2005, published as ISO standard in 2007

Parte 23

ISO/IEC 14496-23

2008 2008Representación Simbólica de Música (SMR)

Parte 24

ISO/IEC TR 14496-24

2008 2008Audio y Sistemas de interacción

Describe el comportamiento conjunto deseado entre el formato de archivo MPEG-4 y Audio MPEG-4.

Parte ISO/IEC 2009 2009 Modelo de Define un modelo para conectar

Page 30: Impri Mir

Partes MPEG-4

Parte Numero

Fecha de la

primera versión pública

(primera edición)

Últimas fecha de

lanzamiento público (última edición)

Últimas modificación

Título Descripción

25 14496-25compresión de gráficos 3D

herramientas de compresión de gráficos 3D definidos en el estadar MPEG-4 y primitivas gráficas definidas en otro estándar o especificación.

Parte 26

ISO/IEC 14496-26

2010 2010Conformidad de Audio

Parte 27

ISO/IEC 14496-27

2009 (2010 )Conformidad de gráficos 3D

Resume los requisitos, les hace referencias cruzadas a las características, y define como la conformidad de ellos puede ser probada. Se dan las pautas en la construcción de pruebas para verificar la conformidad decodificador.

Parte 28

ISO/IEC CD 14496-28

Representación compuesta de fuente

En desarrollo

Los perfiles se definen también en "partes", por lo que una implementación de una parte no suele ser una implementación de una parte completa.

MPEG-1, MPEG-2, MPEG-7 y MPEG-21 son otro conjunto de estándares MPEG.

Niveles MPEG4

Perfil, nivelSP, L0

SP, L0b

SP, L1

SP, L2SP, L3

ASP, L0

ASP, L1

ASP, L2ASP, L3

ASP, L3b

ASP, L4ASP, L5

tasa de bits max. (kbit/s)

64 128 64 128 384 128 128 384 768 1500 3000 8000

buffer max. (kbit)

160 320 160 640 640 160 160 640 640 1040 1280 1792

retardo max. @ tasa de bits max.(sec)

2.5 2.5 2.5 5 1.66 1.25 1.25 1.66 0.86 0.69 0.43 0.22

tamaño VP max.(bit)

20482048 2048 4096 8192 20482048 4096 4096 4096 8192 16384

tamaño VOP max.(MB)

99 99 99 396 396 99 99 396 396 396 792 1620

tasa decodificacion max.(MB/s)

14851485 1485 59401188

029702970 5940

11880

11880

23760 48600

Page 31: Impri Mir

tamaño trama max. @ 30Hz

- -128×9

6256×192 CIF

QCIF

QCIF

256×192 CIF CIF352×576,704×

288720×57

6

tamaño trama max. @ 25Hz

- -144×9

6304×192,288×

208CIF

QCIF

QCIF

304×192,288×208

CIF CIF352×576,704×

288720×57

6

tamaño trama max. @ 24Hz

- -160×9

6304×208 CIF

QCIF

QCIF

304×208 CIF CIF352×576,704×

288720×57

6

tamaño trama max. @ 15Hz

QCIF

QCIF

QCIF CIF CIFQCI

FQCI

FCIF CIF CIF

352×576,704×288

720×576

tamaño trama max. @ 12.5Hz

QCIF

QCIF

QCIF CIF CIFQCI

FQCI

FCIF CIF CIF

352×576,704×288

720×576