65
Tema 3.- Audio. Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 1/65 Tema 3.- Audio.

Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Embed Size (px)

Citation preview

Page 1: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 1/65

Tema 3.- Audio.

Page 2: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 2/65

Índice ÍNDICE........................................................................................................................................................................ 2

SONIDO....................................................................................................................................................................... 3 3.1. INTRODUCCIÓN. ............................................................................................................................................. 3 3.2. PRINCIPIOS DEL SONIDO. ................................................................................................................................ 3 3.3. CARACTERÍSTICAS DE LOS SONIDOS............................................................................................................... 4 3.4. HARDWARE PARA SONIDO ............................................................................................................................. 6

3.4.1. Tarjetas de Sonido. ............................................................................................................................... 6 3.4.2. EL DAC, Sensibilidad, Linealidad y Ruido........................................................................................... 8 3.4.3. Micrófonos .......................................................................................................................................... 10 3.4.4. Altavoces ............................................................................................................................................. 15

3.5. DIGITALIZACIÓN DEL SONIDO. ..................................................................................................................... 21 3.6. EDICIÓN DE SONIDO DIGITAL. ...................................................................................................................... 23 3.7. EL ESTÁNDAR M.I.D.I. ................................................................................................................................ 24

3.7.1. Descripción del estándar M.I.D.I........................................................................................................ 25 3.7.2. Interfaz M.I.D.I. .................................................................................................................................. 25 3.7.3. Los canales M.I.D.I............................................................................................................................. 25 3.7.4. Conexionados M.I.D.I. ........................................................................................................................ 26 3.7.5. Mensajes M.I.D.I................................................................................................................................. 26 3.7.6. Dispositivos usados en M.I.D.I. .......................................................................................................... 29

3.8. FORMATOS DE ARCHIVOS DE AUDIO. ........................................................................................................... 30 3.8.1. WAV .................................................................................................................................................... 31 3.8.2. MP3..................................................................................................................................................... 31 3.8.3. VQF..................................................................................................................................................... 36 3.8.4. OGG VORBIS ..................................................................................................................................... 37

3.9. AUDIO DIGITAL............................................................................................................................................ 43 3.9.1. SRS. ..................................................................................................................................................... 43 3.9.2. DOLBY DIGITAL AC-3. ..................................................................................................................... 44 3.9.3. SUPER AUDIO-CD ............................................................................................................................ 45 3.9.4. HDCD ................................................................................................................................................. 46 3.9.5. DVD-Audio ......................................................................................................................................... 46 3.9.6. TABLA COMPARATIVA DE SISTEMAS DE AUDIO DIGITAL ....................................................... 50

3.10. SONIDO EN INTERNET .............................................................................................................................. 51 3.10.1. Estrategias de uso del sonido en páginas web .................................................................................... 51 3.10.2. Grabación de sonidos para páginas web............................................................................................ 53 3.10.3. Ejemplos de inserción de sonido en web............................................................................................. 53 3.10.4. Streaming ............................................................................................................................................ 54

3.11. HERRAMIENTAS PARA EL TRATAMIENTO DE AUDIO ................................................................................. 59 3.11.1. Editores ............................................................................................................................................... 59 3.11.2. Compresión/Conversión...................................................................................................................... 63 3.11.3. Streaming ............................................................................................................................................ 65

Page 3: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 3/65

Sonido.

3.1. Introducción. El sonido es uno de los elementos más importantes, junto con el vídeo, en un sistema o

producción multimedia. Como el resto de medios que utilizamos en las producciones multimedia, el almacenamiento y tratamiento del sonido se realizará mediante técnicas digitales. Esto significa que el sonido, un fenómeno físico esencialmente analógico, ha de ser convertido en una señal eléctrica y después transformado en información digital y almacenado en la memoria de un ordenador. Otra forma de manejar el sonido en un sistema multimedia es generándolo directamente mediante instrumentos musicales electrónicos, que pueden estar integrados en los circuitos del propio computador o ser dispositivos externos con los que habrá que comunicarse adecuadamente.

Toda esta problemática se tratará en los puntos siguientes, comenzando por los conceptos básicos

del sonido, señales analógicas, conversión a valores digitales, su almacenamiento y, terminando con los aspectos relacionados con la generación de sonidos sintéticos.

También abordaremos con más detenimiento el estudio de algunos formatos de audio muy

extendidos como el MP3, VQF, Dolby Digital, etc.

3.2. Principios del sonido.

El sonido se produce por la interacción de un objeto que vibra, un medio de transmisión y un receptor, es decir, una onda de presión se transmite a través de un medio, como el aire, y produce una sensación, llamada auditiva, al perturbar el estado de reposo de las estructuras del oído. Para que el sonido sea percibido por el ser humano, el objeto debe vibrar con una frecuencia de entre 20 Hz. y 20 KHz.

Figura 1. El sonido.

La vibración produce una compresión y refracción alternativa del aire que se transmite en forma

de ondas sonoras. Estas ondas llegan al oído, donde se producen unos estímulos eléctricos que el cerebro interpreta como sonidos. Las ondas sonoras se atenúan con la distancia y pueden ser absorbidas o reflejadas por los obstáculos que encuentran a su paso.

La estructura de nuestro sistema auditivo para la recepción del sonido es el que se describe a continuación. El tímpano, que es una membrana, vibrará en simpatía con las partículas de aire que la rodean y provocará la vibración de los huesos del oído interno. En la siguiente figura se puede apreciar la estructura del órgano auditivo.

Page 4: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 4/65

Figura 2. El oído.

El elemento que transforma estos movimientos vibratorios en señales neuronales es la membrana

basilar, dentro de la cóclea. La forma de la cóclea hace que las vibraciones que penetran en ella a través de la ventana oval alcancen de forma más intensa una zona más o menos profunda en función de su frecuencia. La membrana basilar está recubierta de pequeñas vellosidades conectadas a haces nerviosos que transmiten la información al cerebro. Como se puede apreciar por esta descripción, la información espectral del sonido (conjunto de frecuencias que componen la señal en un momento dado) llega ya desmenuzada a los centros auditivos del cerebro.

Figura 3. Esquema del oído.

3.3. Características de los sonidos. Existen una serie de características que nos permiten identificar y diferenciar unos sonidos de

otros. Las principales podemos resumirlas en las siguientes:

INTENSIDAD: Corresponde a la amplitud de la onda sonora, es decir a cuánto se alejan las partículas ( y por

tanto el tímpano) de su posición de reposo en cada periodo de la vibración. El oído responde a un rango de intensidades impresionante, desde el sonido casi imperceptible al umbral del dolor. La sensación sonora se incrementa aproximadamente al doble cada vez que la amplitud del sonido se multiplica por diez. Muchos sonidos presentan un patrón claro de intensidad que varía con el tiempo. A este patrón se le llama envolvente. Por ejemplo, un piano presenta un fuerte golpe de gran intensidad inicial, que decae más o menos rápidamente hasta desaparecer. Una flauta sin embargo, presenta una envolvente más aplanada, ya que no existe golpe inicial, sino una intensidad del sonido mantenida mientras dura la nota.

Figura 4. Envolvente de intensidad de un sonido.

Page 5: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 5/65

Las intensidades de los sonidos que podemos percibir tienen un rango de más de 15 órdenes de magnitud por lo que para su medición se usa una escala logarítmica (decibelios)

2

2

10log10refa

adB =

donde a es la amplitud de onda del sonido que se está midiendo, y aref es la amplitud de

referencia (la del sonido con el cual se compara). Así los decibelios son una relación entre dos amplitudes de onda. Si se toma como amplitud de referencia el umbral de audición, la siguiente tabla muestra la intensidad en dB de algunos sonidos representativos:

Descripción Nivel (dB) Intensidad

Umbral del dolor 130 1013

Concierto heavy metal 120 1012

Martillazos sobre metal 110 1011

Tráfico de vehículos 70 107

Conversación normal 60 106

Restaurante concurrido 50 105

Casa en la ciudad 40 104

Iglesia vacía 30 103

Estudio de grabación 20 102

Umbral de audición 0 1 Relacionado con la intensidad está el concepto de rango dinámico, que es la diferencia en

decibelios entre el sonido más fuerte y más débil que un sistema puede producir. En un aparato de sonido, este valor indica la diferencia entre el volumen máximo y el ruido de fondo que se emite cuando no hay señal. En los equipos de sonido de cierta calidad el rango dinámico oscila entre los 80 dB y los 95 dB.

FRECUENCIA Y PERIODO:

Son dos conceptos que representan el mismo fenómeno físico y que están inversamente

relacionados. Miden, respectivamente, cuántas vibraciones por segundo se producen y cuantas fracciones de segundo dura una vibración. Las unidades en que se mide la frecuencia son los ciclos por segundo, o hercios (Hz). El periodo se mide en segundos. Los humanos somos capaces de percibir frecuencias de entre 20 y 20.000 Hz aproximadamente.

Figura 5. Movimiento armónico simple y ondas complejas.

TONO:

El tono de un sonido está directamente relacionado con la frecuencia, aunque no son sinónimos.

La frecuencia es una magnitud física asociada a todo sonido, mientras que el tono (agudo o grave) es una característica perceptiva que solo captamos en los sonidos periódicos: los que tienen una frecuencia más o menos constante.

Page 6: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 6/65

Desde el punto de vista musical, al duplicar la frecuencia de un sonido, se pasa a la octava siguiente. Por ejemplo, el La de la octava central del piano tiene una frecuencia de 440 Hz., y el La de la siguiente octava (más agudo), 880 Hz. En la música occidental, la octava se divide en 12 semitonos (las doce teclas que hay en cada octava de un piano). Para obtener la frecuencia de un semitono a partir de la frecuencia del anterior, hay que multiplicar por 12 2 = 1,05946. Las notas correspondientes a las teclas blancas del piano se denominan

Terminología europea Do Re Mi Fa Sol La Si Terminología anglosajona C D E F G A B

Las notas correspondientes a las teclas negras del piano se denominan con el nombre de la tecla

blanca situada a la izquierda añadiéndole el símbolo # (sostenido), o con el nombre de la tecla blanca situada a la derecha, añadiéndole el símbolo b (bemol). Así, la tecla negra que está entre el Do y el Re será indistintamente Do# o Re b.

TIMBRE:

Dos instrumentos musicales distintos, como un violín y una flauta, que estén interpretando la

misma nota (frecuencia) con la misma intensidad, son sin embargo claramente diferenciables. Esto es así porque existe una tercera característica importante de los sonidos que es su timbre o forma de onda. Lo que ocurre en realidad es que no todos los sonidos son tan simples como el movimiento armónico de un péndulo, sino que la mayoría están provocados por movimientos complejos de los objetos. Estos movimientos complejos, sin embargo, se pueden descomponer en una suma de movimientos simples. La frecuencia de vibración más grave (frecuencia base o frecuencia fundamental) es la que determina el periodo y la amplitud y es la que percibimos. Las restantes frecuencias, que suelen ser múltiplos de la frecuencia base, son los armónicos. Por ello, el timbre corresponde al conjunto de frecuencias que se pueden encontrar en un sonido en mayor o menor proporción.

Figura 6. Espectros de frecuencias.

3.4. Hardware para sonido

3.4.1. Tarjetas de Sonido. El elemento hardware básico para realizar las tareas relacionadas con el sonido en un ordenador

es la tarjeta de sonido. En los ordenadores personales típicos, las podemos encontrar en BUS ISA (cada vez menos), PCI (las más frecuentes) e incluso integradas en placa base. En la siguiente figura podemos ver el aspecto que presenta una tarjeta de sonido típica.

Page 7: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 7/65

Figura 11. Aspecto de una tarjeta de sonido típica.

Aparte de las capacidades de muestrear y reproducir sonidos (ADC y DAC), la mayoría de las

tarjetas de sonido disponen de los siguientes elementos: • Un chip de síntesis de efectos sonoros por tabla de ondas o por modulación de

frecuencia. Se usa a menudo para emular instrumentos MIDI sin necesidad de conectar un verdadero instrumento a la tarjeta.

• Un mezclador capaz de seleccionar y combinar las señales procedentes del micrófono,

entrada de línea, reproductor de discos compactos, DAC y chip de síntesis, y dirigir esta señal combinada a la salida de altavoces a la de auriculares, o al ADC. La figura 12 ilustra las conexiones del mezclador.

• Controlador de un lector de CD-ROM (esto es menos frecuente en las nuevas tarjetas).

• Procesador de audio, DSP (Digital Sound Processor). Algunas tarjetas poseen un

procesador de audio, capaz de realizar operaciones sobre el audio en tiempo real.

Figura 12. Conexiones del mezclador.

Las tarjetas de Sonido, para relacionarse con el mundo exterior suelen disponer de las siguientes

conexiones:

• Salida Analógica Amplificada para altavoces. En esta salida la tarjeta de sonido suele entregar una señal amplificada de 2 a 4 W. Sirve para conectar los altavoces a la tarjeta.

• Salida Analógica Sin Amplificar (Line Out). Esta señal proviene del mezclador y se

entrega sin amplificar, para conectar la salida de sonido a un amplificador externo.

• Micrófono. Mediante esta conexión se conecta la entrada de la señal del micrófono.

• Entrada Analógica Auxiliar (Line In). Esta entrada permite introducir en la tarjeta la señal proveniente de una fuente externa, como una radio, un equipo de música, etc.

Page 8: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 8/65

• Conector MIDI / Joystick. Este conector permite la conexión de un JoyStick analógico o

bien servir de interfaz para la conexión con otros dispositivos MIDI, como teclado, sintetizadores, etc.

Figura 13. Esquema de conexiones de una Sound Blaster 16.

En cuanto a las capacidades y prestaciones de una tarjeta de sonido, hay que destacar en primer

lugar el número de bits de los ADC y DAC. En las primeras tarjetas había que conformarse con 8 bits, es decir tan sólo 256 niveles de señal discernibles. En la actualidad la mayoría de tarjetas disponibles son de 16 bits, lo cual supone 65536 niveles, proporcionando una relación entre el nivel menor y el mayor superior a la que pueden manejar los circuitos analógicos típicos. Por ejemplo, la Soundblaster Audigy Platinium Ex usa 24 bits. Hay que mencionar también que las denominaciones de algunas tarjetas cuyo nombre comercial incluye números como 32, 64 o 128 (AWE-32, AWE-64, SB128PCI, Terratec Maestro32, etc.) no deben llevar a engaño. Estos números indican típicamente el número de voces MIDI que puede generar su chip de síntesis. La máxima frecuencia de muestreo utilizable es también una característica básica de una tarjeta de sonido, aunque en la actualidad todas las tarjetas superan las 44.000 muestras por segundo, lo cual excede al doble de la máxima frecuencia perceptible por el oído humano normal.

Las tarjetas de sonido actuales disponen todas de la circuitería duplicada para permitir grabación

y reproducción en estereofonía. Otra característica presente en algunas tarjetas de sonido recientes es la capacidad de grabar (ADC) y reproducir (DAC) al mismo tiempo ("full duplex"). Si además las frecuencias de muestreo de la grabación y la reproducción pueden ser distintas, entonces la prestación se denomina "enhanced full duplex". Finalmente, se están introduciendo tarjetas con capacidad de proceso de la señal para simular que el origen de los sonidos se encuentra en una posición y estado de movimiento concretos en el espacio tridimensional alrededor del oyente. Para ello se emplean técnicas de alteración de la amplitud, frecuencia (efecto doppler) y fase de los sonidos. Esto permite que el usuario perciba el sonido como procedente del lugar en el que se desarrolla la acción en un simulador o un juego, por ejemplo. Algunos de estos sistemas proporcionan salida para 4 o más altavoces, en lugar de los 2 tradicionales.

3.4.2. EL DAC, Sensibilidad, Linealidad y Ruido. El elemento clave en la digitalización de audio es el conversor analógico/digital o DAC, que

transforma la señal de audio en una secuencia de datos binarios. Estos conversores se caracterizan por una serie de propiedades, entre las cuales podemos destacar las siguientes: frecuencia de muestreo, resolución de la muestra, umbral de sensibilidad, linealidad de la respuesta y ruido.

Como vemos, la frecuencia de muestreo y la resolución que hemos descrito anteriormente son

sólo dos de las características que definen la calidad de un DAC, y posiblemente las otras tres que mencionamos sean más importantes que estas dos. Vamos a verlas con más detenimiento.

UMBRAL DE SENSIBILIDAD:

Page 9: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 9/65

Imaginemos que estamos en una fiesta entre amigos. Estamos bailando, bebiendo, y en medio de la juerga se nos acerca un amigo y nos pide las llaves del coche. Lo normal es que no le oigamos a la primera y le respondamos que «las 2 de la mañana». Nuestro amigo se da cuenta de que no le oímos bien y eleva la voz; esta vez no pide las llaves en voz alta, sino que grita y se acerca nuestros oídos. Ahora le hemos podido entender. La diferencia de intensidad entre la primera y la segunda vez es el umbral de sensibilidad que tenemos en esos momentos para discernir una conversación. En términos absolutos, el sonido más leve que podemos escuchar es el que producen las alas de un mosquito al batir, y el más intenso, más allá del cual podemos rompernos los tímpanos, es el de un avión a reacción aterrizando.

Los DAC también tienen un umbral de sensibilidad, y una tolerancia, lo que quiere decir que no

sólo es importante que puedan discernir una diferencia de intensidad más o menos amplia, sino que además dos mediciones del mismo sonido deben dar el mismo resultado. Una de las diferencias más importantes entre el DAC de una tarjeta de sonido normal y una profesional es la tolerancia. Esta depende de los controles de calidad que se aplican en la fabricación del chip, y puede variar mucho de uno a otro.

LINEALIDAD:

Volvamos al ejemplo de la fiesta. Estamos bailando un ritmo lento; apenas damos un salto cada

dos o tres segundos. De repente, cambian la música y empieza un tema rock. Los saltos aumentan y ahora es posible que demos uno por segundo. Cambian de nuevo la música y ponen algo heavy; si intentamos mover la cabeza más de tres o cuatro veces por segundo podemos perder la consciencia. Esto quiere decir que nuestra cabeza tiene un comportamiento lineal hasta los tres o cuatro movimientos por segundo. Más allá de esta cifra, rompemos el ritmo (y el cuello). Un DAC también tiene respuesta en frecuencia. Como podemos deducir del ejemplo de la fiesta, los objetos que se comportan bien a una frecuencia puede que no lo hagan en otra; incluso pueden dar resultados erróneos.

La linealidad de la respuesta es otra característica importantísima de los instrumentos musicales

y de los sistemas de grabación y reproducción. La razón de que haya altavoces de dos y tres vías es que cada uno de los conos que los forman sólo responden bien en una franja estrecha del espectro auditivo. Así, es necesario un tweeter para reproducir agudos y un woofer para los tonos graves.

Todo tiene una respuesta en frecuencia característica, desde el micrófono hasta los cables,

pasando por el DAC y las membranas de los altavoces. Por norma un dispositivo es mejor cuanto más lineal es su respuesta, aunque esto tampoco es cierto del todo. Nuestro oído es el primero que no responde por igual a todas las frecuencias. De hecho, es más sensible a los tonos agudos que a los graves.

Los sistemas de audio más profesionales buscan lo que se llama «color» del sonido, que es un

comportamiento algo irregular, parecido al que tiene el oído humano.

RUIDO:

Volvamos, por última vez, al ejemplo de la fiesta. Estamos oyendo un tema y en un momento dado se acaba el disco. Cuando finaliza su reproducción podemos escuchar una especie de silbido que proviene de los altavoces. Pero ¿cómo es posible? Especialmente si utilizamos un lector de discos compactos, no debería escucharse nada cuando no hay música.

El problema es que los circuitos eléctricos y electrónicos tienen ruido. ¿Y qué es el ruido? Pues los

temas de algunos grupos modernos podrían denominarse así, pero en general el ruido es todo aquello que se oye pero no debería oírse.

Los DAC también tienen ruido. Muy poco, es cierto, pero ahí está y si se combina un ruido un

poco elevado con un circuito poco preciso, podemos encontrar que la tolerancia de las muestras llega a distorsionar la grabación. De hecho, esto es lo que ocurre con muchas tarjetas de sonido económicas.

Page 10: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 10/65

3.4.3. Micrófonos

Micrófono es el término genérico que se usa para hablar de los elementos que transforman la energía acústica, (sonido - fuente original: guitarra, voz), en energía eléctrica, (la señal de audio - ya sea Digital o analógica). El micrófono es un tipo de transductor, un dispositivo, que transforma energía de una forma a otra. El micrófono se usa para amplificar la señal de audio original, la cual reproduciremos o copiaremos (ya sea similar o distorsionada) a otra por medio de dispositivos eléctricos, teniendo en cuenta que nunca volverán a ser como habían sido en un principio (por muy buen micro que se tenga, nunca se logrará el sonido original que emite la fuente), es decir, no existe el micro perfecto y nunca reproduciremos el sonido original como la fuente nos a lo ha hecho llegar, pero según el micro lograremos más calidad, semejanza, cercanía, cuerpo, etc… Todo aquello que nos rodea, que es lo que nos va a afectar en la grabación y hay que tenerlo en cuenta en la elección de un micrófono, ya sea la localización, cableado, mesa, conversores, dinámica, acústica de la sala de captación, etc… Y aquí es donde podemos aplicar una de las máximas o mandamientos, dentro del mundo del sonido:

TU EQUIPO SONARÁ COMO SUENE EL PEOR DE LOS COMPONENTES DE TU EQUIPO. Es decir que cuando tengamos que comprar un micrófono o cualquier componente de nuestro

estudio tendremos que tener en cuenta que todos los elementos del estudio sean semejantes unos a otros ya que aunque compremos un gran micrófono el registro del sonido no dependerá solamente de la calidad de ese micrófono, sino de todo la cadena de registro que tengamos, (aunque contra mejor micro, mejor captación, es lógico). Principales diseños de micrófonos

Existen seis diseños comunes de micrófonos: • De mano - tipo de micrófono que usa en la mano el talento o en entrevistas en locación • Lavaliere - Solía colgar de un cordel alrededor del cuello. Una variación más actualizada es el

micrófono personal (de corbata o solapa) o de clip • Cañón (shotgun) - usado en producciones en locación para captar sonidos a distancia de la

cámara • Micrófono piezoeléctrico - llamado PZ o PZM, este tipo de micrófonos ofrecen una óptima

captación de sonidos transmitidos a través de superficies duras, como por ejemplo una mesa • Micrófonos de contacto - captan el sonido en contacto directo con la fuente sonora. Este tipo de

micrófonos se encuentran generalmente montados en instrumentos musicales. • Micrófonos de estudio - es la categoría mas grande de micrófonos e incluye varios diseños según

su aplicación Estas seis categorías poseen diferentes tipos de transductores o elementos encargados de convertir

las ondas sonoras en energía eléctrica. Micrófonos dinámicos Los micrófonos dinámicos (también llamados de bobina móvil) son considerados como los

micrófonos profesionales más resistentes. Este tipo de micrófono es una buena elección para la labor periodística (ENG) donde comúnmente se encuentra una variedad de condiciones difíciles (como el incendio aquí ilustrado). En un micrófono dinámico las ondas sonoras golpean un diafragma soportado en una bobina de cable fino. La bobina se encuentra suspendida en un campo magnético permanente. Cuando las ondas sonoras golpean el diafragma este hace vibrar la bobina en el campo magnético. El resultado es una pequeña corriente eléctrica generada por la fricción, esta corriente tendrá que ser después amplificada miles de veces. Una de sus mayores ventajas es que no requieren de una fuente externa de energía para operar y son particularmente resistentes al abuso físico. Sin embargo su fidelidad no siempre es la mejor. Cuando se requiere de menor tamaño, excelente sensibilidad y la mejor calidad de respuesta, otro tipo de micrófono es preferido: el micrófono de condensador.

Page 11: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 11/65

Micrófonos de condensador / capacitor Los micrófonos de condensador (también llamados capacitores o micrófonos de condensador

eléctrico) poseen una incomparable calidad de respuesta. Además pueden ser tan pequeños que son fáciles de esconder. Sin embargo, la mayoría de los micrófonos de condensador no son tan resistentes como los dinámicos y el trabajo en condiciones climáticas adversas puede resultar un problema. Los micrófonos de condensador funcionan bajo el principio de un condensador eléctrico o capacitor. Un diafragma de metal ultra delgado es fuertemente estirado sobre una pieza plana de metal o cerámica. En la mayoría de los micrófonos de condensador una fuente de poder provee una carga eléctrica entre ambos elementos.

Las ondas sonoras que golpean el diafragma causan fluctuaciones en la carga eléctrica que deben ser

posteriormente amplificada en el preamplificador (pre-amp). Dicho preamplificador puede estar integrado al cuerpo del micrófono o estar ubicado en un dispositivo separado. Debido a que estos micrófonos requieren de un preamplificador ello implica que, a diferencia de sus contrpartes dinámicas, la mayoría de los micrófonos de condensador requieren de una fuente de poder, ya sea de corriente o baterías. Para proveer de corriente AC a un micrófono de condensador usualmente la fuente está integrada en la mezcladora de audio. A esto se le conoce como fuente fantasma (phantom power). Cuando su utiliza este tipo de alimentación el cable del micrófono sirve a dos propósitos: entrega la señal captada por el micrófono a la cósola y lleva la energía de la cósola al preamplificador del micrófono.

El uso de baterías como alimentación del preamplificador es mas conveniente (no se tiene que

utilizar un mezclador especial u otro dispositivo de alimentación de corriente), pero también representa un problema: al final de su ciclo de vida las baterías se "mueren" sin previo aviso. Para evitar esta situación en plena producción, especialmente en vivo, suele colocarse dos micrófonos miniatura de condensador junto al talento. Si alguno de los micrófonos falla, el otro puede ser inmediatamente activado. Esta técnica del micrófono doble es conocida como cobertura dual (dual redundancy).

Existe otro tipo de micrófonos en uso como el micrófono de cinta (ribbon), que es mucho más

sensible, pero aún así los de tipo dinámico y de condensador son los más usados en la producción de televisión.

Micrófonos piezoeléctricos Los Pz (a veces abreviados como PZM) son micrófonos de presión que se utilizan limitadamente

para ciertos efectos. Este micrófono depende enteramente de la reflexión del sonido. En situaciones especiales (como cuando está ubicado en la superficie de una mesa) un PZ tiene una respuesta superior a cualquier otro tipo de micrófono.

Micrófonos de Mano

Normalmente los micrófonos de mano son dinámicos ya que estos controlan mejor las saturaciones

de algunos cantantes. Debido a que estos micrófonos son utilizados a muy cortas distancias, algunas consideraciones especiales deben ser mencionadas. Primero, es aconsejable que el micrófono esté inclinado unos 30 grados y no completamente perpendicular a la boca. Hablar o cantar directamente al micrófono frecuentemente crea un seseo indeseable (una exageración o distorsión del sonido "S"); popeo de sonidos explosivos (palabras que inician en "p, s, t y b) y el indeseable efecto de proximidad (la exageración de las frecuencias bajas que mencionamos antes). La mayoría de los micrófonos de mano están diseñados para usarse a una distancia de 8 a 16 pulgadas, pero esta distancia puede tener que ser reducida en situaciones ruidosas. Muchos micrófonos de mano tienen integrado un filtro de popeo diseñado para reducir el impacto de consonantes explosivas.

Cuando un micrófono es usado muy de cerca es recomendable colocar un escudo de viento sobre el

micrófono para reducir más el efecto de sonidos explosivos. Estas protecciones ayudan en el trabajo en

Page 12: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 12/65

locación a solucionar un problema común: el efecto del viento sobre la membrana del micrófono. Incluso una suave brisa puede crear una turbulencia que estorbe al sonido de una voz. Micrófonos Personales

Los micrófonos personales pueden encontrarse colgando de un cordel alrededor del cuello (lavaliere

o lav mic) o sujetados con un clip a la ropa (clip-on mic). Este tipo de micrófono puede ser de condensador o tipo dinámico. Los micrófonos personales de condensador pueden ser muy pequeños y discretos -- una ventaja importante cuando es necesario ocultar el micrófono. Cuando se coloca un micrófono personal no debe estar junto a piezas de joyería o pins decorativos. Cundo el talento se mueva el micrófono puede rozar contra cualquiera de estos objetos y causar ruido. Los micrófonos personales están diseñados para captar sonidos a 14 pulgadas. Si un micrófono de clip es colocado en la solapa de un saco o el lado de un vestido tenemos que anticipar en que dirección girará el talento en el momento de hablar. Si la persona gira al contrario del micrófono la distancia entre el mismo y su boca se incrementará hasta 2 piés. Micrófono / Audífono

El micrófono / audífono está adaptado a las necesidades de las transmisiones deportivas.

Normalmente un micrófono dinámico unidireccional con un filtro antipopeo está integrado a dos audífonos que llevan dos señales separadas: el audio del evento y las indicaciones del director. El micrófono integrado a la diadema del audífono asegura una distancia constante entre micrófono y boca, aún cuando el locutor se encuentre en movimiento constante.

Efecto de Proximidad

¿Porque será que aún con los ojos cerrados podemos fácilmente percibir si la persona que nos está

hablando se encuentra a dos o quince piés de nosotros? Primero podemos suponer que la voz de una persona a dos piés de distancia se escucharía mas fuerte que la de alguién a 15 piés. Esto es parte de la respuesta, pero existen otras razones. Podríamos pensar que la voz de una persona de cerca suena diferente a una persona a distancia. Esta diferencia se acentúa significativamente cuando tratamos de editar escenas diferentes. Para montar el audio en escenas que tienen notables diferencias de audio debemos entender como cambia el sonido con la distancia. El sonido al viajar por la distancia pierde frecuencias bajas (graves) y en el extremo del recorrido frecuencias altas (agudo). Es por esto que los micrófonos usados a distancias cercanas normalmente sufren lo que llamamos efecto de proximidad -- o sea respuesta exagerada a frecuencias bajas. Algunos micrófonos poseen filtros que reducen las frecuencias graves no naturales provocadas por las distancias cercanas.

Cuando son usados micrófonos direccionales a diferentes distancias la perspectiva sonora o

presencia de audio (balance de frecuencias sonoras y otras características acústicas) cambia en correspondencia con cada distancia diferente. Es posible tratar de corregir este defecto durante la fase de post-producción donde varios sistemas para mejorar el audio son utilizados como ecualizadores gráficos (discutidos antes) para tratar de empatar el audio de escenas sucesivas. De cualquier forma es preferible evitar el efecto de proximidad desde la fuente original. Además diferentes micrófonos y diferentes locaciones poseen características diferentes de audio lo cual complica el proceso de edición.

Conexiones Para asegurar la fidelidad de los micrófonos y equipos de audio en general los conectores deben

mantenerse limpios, secos y en buen estado, sin dobleces o partes sueltas. Los dos conectores en la fotografía de la izquierda son la hembra y el macho de conectores tipo Canon. Estos conectores de tres pins son comunes en equipos de audio profesionales. También existen los conectores miniatura (con el conector flotante al centro) para monoaural y estéreo. Finalmente a la derecha se encuentra un conector tipo RCA. Cuando se usan en locación los conectores de audio deben mantenerse secos, sin embargo los cables de los micrófonos pueden encontrarse sobre pasto mojado o incluso cruzar por agua (nada

Page 13: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 13/65

recomendable) sin efectos dañinos (asumiendo que la cobertura plástica no esté dañada). Si usted debe trabajar en lluvia o nieve la humedad puede evitarse envolviendo los conectores en bolsas plásticas bien selladas. Debe enfatizarse que esto solo se aplica a cables de micrófonos. Micrófonos inalámbricos

Los micrófonos inalámbricos pueden resolver muchos problemas de audio durante una producción,

especialmente cuando el talento debe estar libre de cables que entorpezcan el movimiento. En un micrófono inalámbrico un micrófono de condensador se conecta a un radio transmisor miniatura de frecuencia modulada. Debido a que la señal de audio es convertida en una señal de radio frecuencia estos micrófonos también son conocidos como RF mics. Existen dos tipos de micrófonos inalámbricos: el integrado (todo en una pieza) o el de dos piezas.

En el integrado de mano se encuentran el micrófono, el transmisor, la batería y la antena construidos

en un mismo cuerpo como el que se muestra a la izquierda. Cuando se desea utilizar un micrófono pequeño de clip, un sistema de dos piezas es la mejor opción. En este caso el micrófono se conecta a una unidad separada de transmisión que puede estar sujetada en un cinturón, colocada en un bolsillo, o incluso ocultada bajo la ropa. Muchos de los problemas de interferencia, señal débil y otros que presentaban los primeros micrófonos inalámbricos han sido resueltos y eliminados. Actualmente los micrófonos RF son ampliamente usados en estudio y locación. Incluso las cámaras-grabadoras poseen un receptor integrado para usar micrófonos inalámbricos eliminando el fastidioso cable que normalmente conecta al reportero con la cámara.

Rango de transmisión En un micrófono inalámbrico, el sonido se convierte en una débil señal de frecuencia modulada y se

transmite en patrón semicircular por medio de una antena interna (en el interior del cuerpo del micrófono) o externa (generalmente en forma de un pequeño cable sujetado en la base del cuerpo). En este último caso, la antena debe mantenerse relativamente extendida y no doblada en un bolsillo. En condiciones óptimas los micrófonos inalámbricos pueden transmitir fielmente en un radio de poco mas de 1,000 pies (180 mts.). Si hay obstrucciones, especialmente objetos de metal, esta distancia puede reducirse aproximadamente 250 pies (40 mts.).

Problemas de interferencia Los objetos de metal que interfieren entre el micrófono RF y el receptor crean una condición

conocida como recepción múltiple (multipath), producida en parte por la reflexión de la señal en dichos objetos. Esta señal secundaria interfiere con la señal original. Este problema puede ser particularmente problemático si el talento se encuentra en movimiento alrededor de los objetos que interfieren. Como veremos, este problema puede ser solucionado. Debido a las limitaciones impuestas por la FCC (Comisión Federal de Comunicaciones en Estados Unidos), la señal FM del micrófono, debe ser relativamente débil. Debido a esto otro tipo de radiotransmisiones pueden interferir ocasionalmente. A esto se le conoce como interferencia RF. A pesar que estas señales pueden encontrarse en frecuencias diferentes, las transmisoras cercanas emiten señales armónicas (secundarias) que si son lo suficientemente fuertes pueden ser captadas por un micrófono inalámbrico. Para que una señal de micrófono RF sea fiel debe tener al menos el doble de potencia que la señal de interferencia. La mayoría de los micrófonos RF transmiten en frecuencias mayores que las de la radio FM y del rango VHF (very high frequency), o en parte de la banda UHF (ultra-high frequency) que por encontrarse menos saturada es preferida por muchos ingenieros de audio. Debido a que la frecuencia UHF es utilizada también por otros radio-servicios, los micrófonos inalámbricos profesionales permiten seleccionar diferentes frecuencias. En algunos equipos pueden encontrarse diez grupos diferentes cada uno con siete canales para seleccionar. Con todas estas opciones disponibles generalmente es posible encontrar alguna frecuencia libre de interferencia.

Page 14: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 14/65

Antenas receptoras Una buena señal de micrófono RF tendría poco valor si no puede ser recibida sin recepción múltiple

o cualquier tipo de interferencia. Una de las maneras mas efectivas de eliminar la interferencia es colocando adecuadamente la antena (o antenas) receptora. Existen dos tipos de receptores para inalámbricos. El receptor único usa una sola antena montada en la parte trasera del receptor. Este tipo de receptor es más propenso a problemas de recepción -- especialmente cuando el talento se encuentra en movimiento. En los receptores duales se utilizan dos antenas. Ya que estas pueden ser colocadas a cierta distancia entre ellas, se asume que en el momento en que alguna antena no está recibiendo adecuadamente la señal la otra antena si lo haría. Para evitar que ambas antenas interfieran entre sí, circuitos electrónicos trabajan constantemente en el interior del receptor para seleccionar instantáneamente la más clara y fuerte de las dos señales. Tanto con receptores únicos como duales pueden usarse varios micrófonos inalámbricos simultáneamente, cada uno en una diferente frecuencia de radiotransmisión. Una vez recibida, cada señal es enviada a un mixer de audio y controlada como una señal normales. Micrófonos no visibles en escena

Aunque puede ser apropiado usar micrófonos de mano, lavalier o inalámbricos en entrevistas, hay

muchas situaciones en producción donde se hace necesario usar micrófonos no visibles -- generalmente fuera del campo de la vista de la cámara. Algunos ejemplos son:

Cuando ver un micrófono no sería apropiado, como en el caso de una producción dramática. Cuando los cables del micrófono restringirían el movimiento de talento, como en un número del

baile. Cuando hay demasiadas personas en la escena como para usar micrófono en mano o micrófonos de

RF, como con un coro. Debido a su naturaleza, los micrófonos no-direccionales, omni-direccionales o los de patrón

cardioide usados a una distancia de 2 o más metros recogen sonidos indeseados. Dependiendo de la acústica de la locación, esto causará que el audio suene encajonado y fuera del eje del micrófono. Por ello, en estas situaciones donde la distancia es un factor deben usarse micrófonos super o hiper-cardioide. De la misma forma como el ojo ( en realidad el cerebro) ve selectivamente y no nota un perchero "que sale desde" la cabeza de alguien en un encuadre, el oído escucha selectivamente y "filtra" la reverberación excesiva -- o el ruido de fondo -- en una habitación que haría difícil de entender las palabras.

Acústica Siempre que un cuarto tenga paredes lisas y paralelas, continuas o pisos sin alfombra, la

reverberación (ecos de las paredes) puede convertirse en un problema. La solución más simple en estos casos es mover los micrófonos lo más cerca al sujeto; pero esto no siempre es posible. Otras soluciones podrían ser el uso de micrófonos direccionales, agregar materiales absorbentes en las paredes, o ubicar objetos en la escena que absorban o rompan los sonidos reflejados. La solución más rápida, sobre todo en locación, es utilizar un micrófono muy direccional a un extremo de una caña (fishpole) y sostenerlo fuera del encuadre de la cámara. Como su nombre sugiere, una caña (fishpole) consiste en una barra extensible con un micrófono montado en uno de sus extremos. Un operador con un audífono (para monitorear claramente el registro) dirige el micrófono acorde a las tomas y la posición del talento. Se usan generalmente micrófonos supercardioide y hipercardioide montados en un dispositivo de suspensión llamado shock mount.

Micrófono boom En estudio se usa un método diferente y la simple caña se transmuta en una categoría mucho más

grande llamada micrófono de boom. Los micrófonos de boom pueden ir desde una jirafa pequeña (básicamente una caña sobre un trípode con ruedas) a un boom móvil (que pesa varios cientos de kilos, requiere dos personas para operarlo y puede extender el micrófono a una distancia de 10 o más metros).

Page 15: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 15/65

Los booms más grandes tienen una plataforma central controlada hidráulicamente donde se sientan los operadores y miran la escena en un monitor de televisión mientras controlan cosas tales como:

El movimiento de izquierda y derecha (balance) del brazo del boom. La extensión del boom (alcance del brazo). Paneo a derecha o Izquierda del micrófono atado. Inclinación vertical del micrófono.

Micrófonos suspendidos A veces usted puede manejárselas sin un boom, sobre todo si el talento se limita a un área pequeña.

En este caso pudiera suspender un micrófono (o varios) sobre el área de actuación fijándolo a un tubo fuera del encuadre más abierto de cámara. La desventaja de este método es que los micrófonos no pueden moverse durante la producción. Por supuesto, la calidad del audio variará con la posición de los actores en relación a los micrófonos. Los micrófonos de boom y los micrófonos suspendidos deben evaluarse con las luces del estudio encendidas para asegurar que no proyecten sombras visibles en el fondo o en el set.

Micrófonos ocultos

A veces es posible esconder estratégicamente un micrófono donde el talento se ubicará y fuera de la

vista de la cámara. Esto elimina la necesidad de utilizar micrófonos de mano y los problemas que ocasionan los cables. Los micrófonos se colocan detrás de un elemento de utilería o incluso se esconden en la decoración de una mesa como en un jarrón de flores. Cuando coloque los micrófonos tenga presente el efecto de proximidad discutido en un módulo anterior. Usted puede encontrarse durante la edición que los sonidos captados por diferentes micrófonos a diferentes distancias no se pueden combinar sin crear diferencias molestas en la calidad del sonido. Cuando se usan varios micrófonos en un set, cada micrófono que no se esté usando en un momento en particular debe apagarse para evitar la cancelación de fases que degrada el sonido.

3.4.4. Altavoces

El altavoz es el último eslabón en la cadena de audio. Transforma la energía eléctrica que le entrega

la etapa de potencia en energía mecánica, y por ello se le llama transductor. Su función es inversa a la de otro conocido transductor: el micrófono, que transforma las ondas sonoras que capta su membrana (energía mecánica) en energía eléctrica que entrega a la etapa preamplificadora. En principio, la banda de frecuencias audibles por el oído humano abarcan desde los 16 Hz a los 20 kHz, aunque varía con las personas según sus características fisiológicas, y también varía con la edad. A medida que envejecemos, perdemos sensibilidad hacia los extremos del rango, sobre todo de las altas frecuencias.

Page 16: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 16/65

Podemos representar las ondas sonoras mediante un sistema de ejes cartesianos X-Y donde el eje X

representa el tiempo y el eje Y representa la amplitud o intensidad de esa onda sonora. En el dibujo representamos una onda senoidal, producida por la vibración en el aire de una lámina metálica. Como toda función periódica, es decir, que se repite en un mismo intervalo de tiempo, llamamos período T al tiempo empleado por la onda en completar un ciclo completo. A la inversa del período se denomina frecuencia (f = 1/T) y viene dado en ciclos/segundo, hercios (Hz) o sencillamente (s^-1) que son segundos elevado a menos uno.

El altavoz moderno, tal como lo conocemos, es relativamente reciente. El tipo más extendido, y el que más se utiliza en sistemas hi-fi es el altavoz dinámico.

1.- Cono o diafragma 2.- Campana 3.- Yugo 4.- Imán permanente 5.- Bobina móvil 6.- Araña 7.- Tapa de retención de polvo 8.- Hilos de conexión de la bobina 9.- Bornes de conexión

La impedancia del altavoz habitualmente es de 4 a 8 ohmios. No confundir la impedancia con la resistencia. La impedancia es la resistencia que ofrece el altavoz al paso de una señal senoidal de 1 kHz, mientras que su resistencia es la que mediríamos mediante un óhmetro entre sus bornas de conexión. l altavoz moderno parte de las investigaciones de Edgar Villchur, que en 1954 preconiza el uso de cajas

Page 17: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 17/65

acústicas para extender las frecuencias bajas, encerrando el altavoz en un recinto cerrado. Un año después, la empresa Acoustic Research introduce en el mercado el modelo AR-1W que emplea el principio de suspensión acústica. Posteriormente, a principios de los años 60 Neville Thiele publica "Loudspeakers in Vented Boxes", y junto con Richard Small, ambos ingenieros australianos, establecen los métodos de estudio de los altavoces y los recintos o cajas donde se hallan enclavados. El uso de las cajas bass-reflex (vented box) se inició a principios de los 70 como consecuencia de la aplicación de las teorías de Thiele-Small. Todos los instrumentos musicales, y la voz humana, se halla dentro del rango audible, y ocupa los rangos o regiones del espectro que le corresponden. De todos los instrumentos musicales, el piano ocupa todo el rango de frecuencias, y no en vano se toma a menudo como elemento de prueba o muestra de un equipo hi-fi por este motivo.

Para cubrir todo el espectro audible, un sólo altavoz no es suficiente. Debido a las características de los altavoces, y la tecnología conocida hoy día, se necesitan al menos dos altavoces o drivers para reproducir todo el rango de frecuencias audibles con una fidelidad aceptable, de modo que uno se encargue de las frecuencias más bajas y el otro de las más altas. Podemos dividir en mayor número de tramos este rango en tres, o incluso cuatro tramos, y destinar a cada uno de ellos un tipo de altavoz diferente. A cada uno de estos tramos se denomina vía, y así existen altavoces (cajas) de 2, 3 ó 4 vías dependiendo del número de tramos en que se ha dividido el espectro. No tiene por qué coincidir con el número de altavoces que tenga la caja. Podemos poner 2 altavoces para los graves y un altavoz para los agudos, y será un sistema de 2 vías con tres altavoces. Atendiendo a la gama de frecuencias que el altavoz es capaz de reproducir, los altavoces o drivers pueden dividirse en:

• woofer (graves) • midrange (medios) • tweeter (agudos)

Pero existen altavoces de otros tipos, tales como subwoofers, midbass, etc., que cubren otros

tramos de frecuencias y que se utilizan en sistemas multivía.

Para poder distribuir correctamente la energía que se entrega a la caja, hay que dividir la señal que llega a la misma al tipo de señal que cada altavoz requiere. De otra forma estaríamos desperdiciando la energía, o incluso dañaríamos algún altavoz. Para lograr esto, se recurre al crossover, que es un filtro que deja

Page 18: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 18/65

pasar cierto rango de frecuencias con más facilidad que otros. La complejidad de estos sistemas, hace necesario el estudio de los mismos en capítulo aparte.

No todos los altavoces, dentro de la misma gama de potencia, reproducen una misma señal a un mismo nivel sonoro (SPL). Depende de la sensibilidad del altavoz. La mayoría de los altavoces se mueven en el rango de los 80-100 dB w/m. La unidad w/m nos indica el nivel sonoro del mismo cuando reproduce 1w de señal de entrada a la distancia de 1 metro del oyente. A mayor sensibilidad del altavoz, mayor es la sensación sonora que proporciona. Esta consideración es de vital importancia a la hora de elegir los altavoces correctos para un equipo dado. Un amplificador single-ended a triodo, suele ofrecer una potencia de salida de 5 a 10 watios. Si elegimos unos altavoces con una sensibilidad adecuada, el nivel sonoro puede ser equivalente a un equipo de 60w con altavoces menos sensibles. Cada 3 dB de aumento en la sensibilidad, exige la mitad de potencia para ofrecer el mismo nivel sonoro. Ofrece el mismo nivel sonoro un amplificador de 5w con altavoces de 100 dB/w/m que otro amplificador de 80w con altavoces de 88 dB/w/m. Por ello es muy importante elegir la sensibilidad de acuerdo al amplificador. Mi amplificador tiene una potencia de 30w y los altavoces una sensibilidad de 86 dB/w/m. Si quisiera obtener el mismo SPL con un amplificador de 9w, tendría que poner unos altavoces de 91 dB/w/m. El cálculo del incremento en dB es muy sencillo:

esta cantidad la sumamos a los 86 dB/w/m y obtenemos 91 dB/w/m. Parámetros de Thiele-Small

Gracias a los parámetros Thiele-Small de un altavoz, se puede predecir cual será la respuesta del

mismo en varias cajas diferentes. Los parámetros más importantes son los siguientes:

Parámetros de pequeña señal:

• Frecuencia de resonancia al aire libre del altavoz F(s).- Es la frecuencia del driver cuando está al aire libre, no ubicado en una caja. Es la frecuencia natural que se puede oir cuando se golpea suavemente el cono del altavoz. Una F(s) típica de woofer está en torno a los 20-80 Hz, los midranges se mueven hacia los 300 Hz, y los tweeters tienen F(s) alrededor de 1 kHz. Normalmente, F(s) coincide con la frecuencia más baja que el altavoz es capaz de reproducir.

• Q total del altavoz Q(ts).- Se calcula mediante la Q(ms) y Q(es) que son las Q mecánica y Q

eléctrica del driver correspondiente. Indica cómo de "aguda" es la gráfica de respuesta de frecuencia del altavoz cuando se sitúa en una caja cerrada. Cuanto mayor es Q(ts), la gráfica de respuesta presentará un pico mayor que si Q(ts) fuera menor.

• Volumen equivalente de suspensión del altavoz V(as).- . Indica el volumen de aire que

tendría una rigidez equivalente a la de la suspensión del altavoz cuando se comprime con un pistón cuyo tamaño es igual al del cono del altavoz.

Parámetros de gran señal:

• Potencia máxima, térmicamente limitada P(t).- Representa la máxima potencia que se puede

aplicar a un altavoz de forma continua sin que se llegue a deteriorar debido a sobrecalentamiento excesivo.

• Potencia máxima, mecánicamente limitada P(er).- Este parámetro no puede determinarse

hasta que el altavoz no se ponga en una caja y depende no solamente de la caja, sino también de la frecuencia de la señal que inyectemos. Un sistema podría manejar perfectamente una señal de 300 Hz, pero podría estar muy limitado para manejar otra de 50 Hz, debido a una excesiva excursión del cono del altavoz.

Page 19: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 19/65

• Límite de excursión lineal X(max).- Indica hasta donde puede desplazarse el cono del altavoz antes de que la bobina salga fuera del entrehierro magnético (magnetic gap). Si el cono se desplaza más de lo debido, se incrementa la distorsión del sistema.

• Área del pistón S(D).- Es el área efectiva del cono del altavoz, medido desde el diámetro

medio (punto medio) del surround, que es ese material muy blando que une el cono con el aro de chapa exterior del altavoz.

• Volumen de desplazamiento V(D).- Multiplicando el área del pistón S(D) por la excursión

máxima X(max) se obtiene el volumen de desplazamiento del altavoz V(D) y es un indicativo de la más baja frecuencia que el altavoz puede reproducir

Sistemas de altavoces

La adquisición de unos altavoces es fundamental para disfrutar de las excelencias que ofrece nuestro equipo de audio. Si queremos disfrutar al máximo, la incorporación de unos altavoces de calidad es casi obligada, aunque claro, existen situaciones y soluciones intermedias. Como solución económica, bastaría con adquirir un par de canales, incluso si así lo deseamos autoamplificados. Pero claro, debido a la cobertura que está adquiriendo la reproducción de música en formato MP3 o el vídeo MPEG-2 (DVD) para la mayoría de los usuarios, este sistema se quedaría algo corto. Para ello, sobre la base que hemos comentado, existen alternativas tales como ampliar el número de canales de salida, la inclusión de un subwoofer, o la posibilidad de emplear diferentes efectos digitales para mejorar la calidad del sonido.

Una de las opciones que más se está utilizando (principalmente en juegos de alto nivel y reproducción DVD), es aquel que se conoce como sonido envolvente o 3D. Para lograrlo lo más habitual es aumentar el número de altavoces hasta 4 (2 delanteros y 2 traseros), para que de este modo (siempre y cuando estos estén correctamente situados), se logre un mayor realismo en el audio y podamos "vivir" las imágenes que vemos en nuestro monitor como si nos encontrásemos dentro de la propia escena. De ese modo todos los sonidos que supuestamente provienen de los laterales o de la parte de atrás de la imagen del monitor, nosotros la escucharemos en 3 dimensiones de la misma manera en la que se desarrolla la acción.

De todos modos tampoco es necesario que para lograr un sonido envolvente 3D debamos tener

instalados 4 altavoces y un subwoofer, ya que existen alternativas que con tan sólo dos altavoces, logramos efectos 3D por un precio más reducido. Este sistema, dependiendo de la compañía que lo monte, se conoce como Virtual Surround, Virtual Dolby, CMSS, etc. En muchos casos esta simulación la realiza vía hardware la tarjeta de sonido, aunque también existen modelos a altavoces 5.1 que también cuentan con capacidad para ello. El sentido de esto último se basa en el caso de que conectemos el sistema 5.1 en un equipo con salida estéreo convencional (un reproductor MP3, un walkman, etc). Esta simulación funciona por medio de retardos de tiempo en la reproducción de voces por un lado, efectos por otro, etc; pero presenta un serio inconveniente, y es que el usuario debe colocarse justo en el centro de ambos altavoces y no moverse para no perder el efecto 3D.

Sistemas 5.1

Una de las características que más comúnmente encontramos entre las especificaciones de los

altavoces de gama media / alta que se venden en la actualidad, es aquella conocida como 5.1. Como su propio nombre indica, este es un sistema compuesto por 5 canales independientes además de otro no direccionado o salida dedicada al LFE (efecto de baja frecuencia) para el subwoofer. Aprovechando las capacidades de calidad que 5.1 ofrece, los juegos y películas en DVD ya incluyen una serie de estándares de audio entre los que destacaremos el Dolby Digital y el DTS (Digital Surround), que son los más utilizados. Para dar una mayor eficacia a los sistemas de altavoces 5.1, Dolby Digital utiliza un reparto de los bits que componen el audio en los canales de manera individual. Tal y como su nombre indica, Dolby Digital se trata de una especificación completamente digital que funciona con un máximo de 5.1 canales de información total. Estos 5 canales funcionan con un ancho de banda completa que va desde 20 Hz hasta 20 Khz. De todos modos tiene soporte para una amplia gama de especificaciones entre las que se incluyen opciones desde mono a seis canales. Procedamos a describir cada uno de estos altavoces:

Page 20: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 20/65

• ALTAVOCES FRONTALES: los canales izquierdo y derecho (estéreo) correspondientes a los altavoces frontales crean la anchura de la imagen y son los que reproducirán la música, la ambientación y los efectos especiales como los encuadres o las tomas panorámicas de coches y trenes a través de la pantalla, los efectos que se producen “entre bastidores”, teléfonos que suenan o perros que ladran. Junto con el canal surround su propósito es crear una atmósfera auténtica, real y totalmente envolvente. Sus características principales y posicionamiento son:

o Son los encargados de llevar el peso de la música y los efectos de sonido, así que ambos deberían tener la misma capacidad de respuesta.

o Deberían estar alineados por delante del altavoz central o a su misma altura, pero jamás detrás de este.

o Deberían estar distribuidos formando un ángulo de 45o respecto a la posición del oyente. o Es recomendable que estén a la misma altura que el altavoz central

• ALTAVOZ CENTRAL: este canal se emplea principalmente para acoplar la acción principal y los

diálogos a la pantalla de televisión o de cine. De este modo, donde quiera que esté sentado el espectador estos sonidos le ayudan a mantener un punto focal relevante de la imagen. Los diálogos de los actores proceden de forma convincente de su fuente origen, centralizando todos los sonidos relacionados con la acción principal que se está desarrollando en la pantalla. Si no existe la posibilidad de un altavoz central, se puede usar el Phantom Mode, según el cual la señal se reproduce usando los altavoces izquierdo y derecho. Sus características principales y posicionamiento son:

o El altavoz central debería ser idéntico a los altavoces laterales (modo wide). o También podría usarse un altavoz central más pequeño (modo normal), con lo que se

trasladaría el canal de bajos a los altavoces frontales. o Si fuera necesario, podría pasarse sin un altavoz central (modo fantasma), pero solamente

en el caso en que el oyente estuviera situado en el centro de la sala. o Debería estar alineado por detrás de los altavoces frontales o a su misma altura, pero

nunca por delante de estos. o Debería estar elevado a la altura de los tweeters (altavoz de frecuencias altas agudas) de

los frontales. o No puede estar más lejos de 60cm del televisor y debería estar protegido magnéticamente

para evitar la distorsión de la imagen.

• ALTAVOCES SURROUND: el canal surround(envolvente) se utiliza principalmente para los efectos atmosféricos relacionados con la imagen que aparece en pantalla (tormentas, multitudes, ruido de tráfico, sonidos de la selva, etc.). El papel desempeñado por el canal envolvente es añadir profundidad y sumergir al espectador en la acción que se está representando. Para conseguir un efecto totalmente envolvente, algunos de estos sonidos también pueden reproducirse en los altavoces centrales. Todos los efectos especiales de las películas de acción (aviones, explosiones, balas que rebotan etc.) se reproducen por este canal. Sus características principales y posicionamiento son:

o No necesitan reproducir frecuencias bajas, por lo que pueden ser pequeños. o Su colocación es crucial para conseguir una buena sensación envolvente. A ser posible

deberían colocarse a unos 60-90cm por encima del oyente a ambos lados del área de escucha, y no detrás. Si esto no fuera posible, algunas soluciones podrían ser:

Colocarlos en la pared trasera, ya sea enfocándose uno a otro, enfocando hacia el centro de la sala o dirigiéndolos a las paredes trasera y lateral.

Si no hubiera paredes adyacentes, los altavoces surround pueden colocarse en soportes elevados, encarándose el uno al otro, o a ambos lados o detrás del ángulo de visión enfocados hacia arriba.

• ALTAVOZ SUBWOOFER: es una canal diferenciado para frecuencias más bajas. Este canal es el

resultado de aplicar un filtro pasa bajos a la información de los canales frontales. De este modo, por el altavoz subwoofer se reproducirán los graves amplificados de la señal principal, obteniéndose una sensación más envolvente de la música o los efectos especiales. Sus características principales y posicionamiento son:

Page 21: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 21/65

o Algunos modelos llevan incorporado un amplificador, mientras que otros están diseñados para reproducir la señal procedente de un amplificador externo.

o Su colocación en la sala es indiferente, ya que debido a la amplitud de ondas que produce, no requiere ningún tipo de direccionalidad para crear una sensación envolvente.

En una sala de cine, los altavoces principales (izquierdo, centro y derecho) y el subwoofer se

colocan detrás de la pantalla. También existen varios altavoces surround derechos e izquierdos dispuestos en las paredes laterales y del fondo de la sala. Todos los altavoces están conectados a amplificadores de potencia.

3.5. Digitalización del sonido. Nosotros no percibimos todas las ondas que se propagan a nuestro alrededor. Podemos

comprobar que animales como perros y gatos son capaces de oír frecuencias que nosotros no alcanzamos. El ser humano es capaz de percibir, por término medio, los sonidos que hay en el espectro sonoro desde los 20 Hz a los 20 KHz; es decir, que el sonido más grave que podemos percibir es el que produce una cuerda al oscilar 20 veces por segundo, mientras que el más agudo es el que produce la misma cuerda si vibrase 20.000 veces por segundo. Por tanto, si queremos construir un sistema que grabe el sonido que nos rodea, no nos interesa que lo grabe todo, sino sólo aquellas porciones del espectro de frecuencias que podemos percibir.

Pero ¿cómo podemos grabar el sonido?. Hasta hace pocos años se utilizaban procedimientos

analógicos, que trataban de almacenar en un medio físico las variaciones de intensidad que producen la suma de frecuencias que llegan a una membrana. Esa membrana se comporta de una forma parecida a nuestro tímpano, con la diferencia de que en lugar de generar impulsos nerviosos, genera variaciones en una corriente eléctrica que quedan registradas en una cinta magnética. Este sistema de grabación tiene una ventaja y muchos inconvenientes. La ventaja es que es analógico, es decir, que produce un registro cuya intensidad es proporcional a la señal que le llega de forma continua. El sonido analógico no tiene porqué ser peor que el digital, de hecho, en condiciones óptimas, es mejor. Los principales inconvenientes que presenta son, esencialmente, todos los que se desprenden del ruido que aparece en el interior de los circuitos eléctricos y del que genera el rozamiento de los mecanismos: roce de los cabezales contra la cinta, de los motores, del mecanismo de arrastre, de la deformación de la cinta, etc. La calidad de la señal analógica se degrada en la generación de copias y con la reproducción repetida. Por otra parte, tampoco nos ofrece las posibilidades de edición del sonido digital.

La grabación digital no obtiene un registro de estas variaciones de frecuencia, sino que las analiza

para extraer su descripción detallada. Como lo que llega a la membrana es una suma de frecuencias, estudiamos esta suma como una sola frecuencia, que tiene dos propiedades fundamentales: frecuencia y amplitud. ¿Cuál es la frecuencia de muestreo necesaria para efectuar un buen registro?. La respuesta es sencilla: el doble de la máxima frecuencia de la señal original que queremos grabar si seguimos el teorema de Nyquist. Así, si lo que queremos es hacer un registro perfectamente fiel de todo el sonido que nos llega perceptible por nuestro oído (20Hz – 20KHz), tenemos que tomar muestras al doble de la frecuencia máxima, 20 KHz. Así, esta frecuencia de muestreo debe ser de unos 44 KHz.

Ahora bien, ¿cuál es la diferencia mínima que tenemos que registrar en la amplitud de las ondas?

Se ha demostrado, mediante experimentos de laboratorio, que el ser humano puede diferenciar bastantes matices entre un sonido y otro. Desde luego, son más de los 64.000 intervalos que proporciona un muestreo de 16 bits (216=65.536), pero esta cantidad de muestras es suficiente para satisfacer a la mayoría de los mortales, y es una cifra cómoda para los ordenadores, ya que se trata de la mitad de una palabra de 32 bits.

Como veremos a continuación, la digitalización del sonido consiste en convertir una señal

analógica en una secuencia digital y para ello se llevan a cabo dos procesos: Muestreo o discretización temporal: medida del valor de la señal original a intervalos regulares de

tiempo.

Page 22: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 22/65

Cuantización o discretización de la amplitud: aproximación de cada valor medido al valor entero más próximo.

El sonido, para su manejo en un sistema multimedia, ha de adquirirse por medios electrónicos. El

primer elemento de la cadena es el micrófono, que convierte las variaciones de presión del medio en señales eléctricas. Éstas son después amplificadas para que alcancen los niveles adecuados para atacar las siguientes etapas del proceso.

La digitalización consiste en convertir los valores de intensidad de la señal en valores numéricos

que la representen. Para ello se utilizan circuitos convertidores de analógico a digital ("ANALOG TO DIGITAL CONVERTER", o ADC) que llevan a cabo una conversión o lectura cada cierto tiempo. A cada lectura se la llama muestra y el número de muestras que se toman por segundo es la frecuencia de muestreo. Lógicamente, en algún momento esa misma señal o una versión mezclada, procesada o alterada de ella, ha de volcarse de nuevo al exterior en forma de sonido. Para ello se usa un convertidor de digital a analógico ("DIGITAL TO ANALOG CONVERTER" o DAC) conectado a un amplificador de salida y a un altavoz.

Figura 8. Proceso completo de digitalización del sonido.

La precisión con la que el ADC lee los valores de la señal, es decir, el número de bits de la

representación digital que obtiene, o tamaño de palabra del convertidor, tiene una repercusión directa en la calidad de la señal. En la siguiente figura se puede apreciar claramente este efecto.

Figura 9. Efecto del tamaño de palabra del convertidor en la calidad de la señal obtenida.

La frecuencia de muestreo también tiene una influencia clave en la exactitud con la que la señal se

ve representada en su forma digital, y por tanto en la fidelidad con la que se reproducirá después. Esto se aprecia en la figura 10, en la que se puede comprobar el efecto de deformación "aliasing" que aparece al muestrear una señal a una frecuencia menor al doble de su frecuencia. Efectivamente, según se formaliza en el Teorema de Nyquist, la frecuencia de muestreo debe ser al menos doble que la máxima frecuencia de la señal que se pretenda conservar. Por tanto, para obtener una sensación sonora fiel a la que se tendría frente al sonido original, la frecuencia de muestreo ha de ser superior a 40.000 muestras por segundo.

Page 23: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 23/65

Figura 10. Efecto de la frecuencia de muestreo del convertidor en la calidad de la señal obtenida.

3.6. Edición de sonido digital. Una de las mayores ventajas del sonido digital es la enorme flexibilidad que ofrece a la hora de

editar el sonido. Una vez digitalizado el sonido y convertido en una secuencia de números, los programas de edición de sonido digital permiten aplicar operaciones matemáticas a dichos números para hacer todo tipo de modificaciones en el sonido original.

Se pueden clasificar las técnicas de edición de sonido digital atendiendo al aspecto del sonido que

se modifica. Las propiedades del sonido que podemos modificar y las operaciones que podemos realizar sobre las mismas son:

• MODIFICACIÓN DE LA DIMENSIÓN TEMPORAL:

o Cortar, copiar y pegar: lo que en la edición de sonido analógico se hacía cortando y pegando fragmentos de cinta magnética, se lleva a cabo ahora de manera sencilla con técnicas de manipulación directa. Para evitar ruidos en las transiciones, conviene seleccionar fragmentos con comienzo y final de valor nulo.

o Cambio de sentido: comenzar la reproducción de un sonido por el final y terminar por el principio.

o Eliminar silencios: se define una amplitud por debajo de la cual el sonido se considera silencio, y se eliminan esos fragmentos. Puede servir para quitar las porciones inicial y final de una grabación, así como para eliminar las porciones de silencio entre sonidos.

o Insertar silencios: de una duración determinada a partir de la posición del cursor.

• MODIFICACIÓN DE LA AMPLITUD MEDIANTE OPERACIONES DE MULTIPLICACIÓN:

o Modificar la ganancia: multiplicar las muestras por un número real. Al multiplicar por un valor entre 0 y 1 el nivel sonoro disminuye y si el valor es mayor que 1, aumenta.

o Silenciar: multiplicar por cero las muestras de la zona seleccionada. o Umbral de ruido (“noise gate”): silencia las muestras por debajo de un determinado

valor umbral. Permite eliminar el ruido de fondo, pero solo en aquellas porciones en las que no hay otros sonidos. También consigue que los ataques y decaimientos de los sonidos sean más bruscos.

o Normalizar: es un caso particular de modificación de la ganancia que obtiene la máxima amplitud posible sin que se produzca distorsión. Para ello, se recorre todo el fragmento de sonido y se registra la mayor amplitud de onda. Se calcula el cociente entre la mayor amplitud de onda posible y la mayor amplitud registrada. Finalmente, se multiplican todas las muestras por dicho cociente.

o Aplicación de envolventes: las envolventes son curvas que determinan la evolución temporal de la amplitud. Una envolvente puede especificar, por ejemplo, un aumento gradual del volumen al principio de un sonido, y una disminución brusca del mismo al final.

o Fundido de entrada y de salida (“fade in” y “fade out”): son dos envolventes muy utilizadas. El fundido de entrada tiene valor inicial cero, y valor final uno y se

Page 24: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 24/65

usa para darle un comienzo progresivo al sonido. El fundido de salida tiene un valor inicial 1 y valor final 0 y sirve para darle un final progresivo al sonido.

o Modulación de la amplitud con una señal periódica: El efecto sonoro que se consigue es una variación cíclica del volumen (“trémolo”)

o Inversión: hacer una reflexión de las muestras con respecto al eje horizontal, con lo que los valores positivos pasan a ser negativos y viceversa (cambio de fase). Se trata de un efecto sutil que se percibe mejor cuando se aplica a uno de los dos canales de un sonido estéreo.

• MODIFICACIÓN DE LA AMPLITUD MEDIANTE OPERACIONES DE SUMA:

o Mezclar: se suman los valores de dos fragmentos de sonido. o Desplazamiento del cero (“DC Bias Offset”): algunas tarjetas de sonido tienen un

error constante al digitalizar, con lo que el cero queda desplazado. Si se graba un fragmento de silencio, la línea horizontal queda por debajo o por encima del eje horizontal. Hay programas de edición de sonido que pueden detectar y corregir este error.

• MODIFICACIÓN DE LA FRECUENCIA:

o Cambio de la frecuencia de reproducción: si un sonido muestreado a 44,1 KHz. se reproduce a 22,05 KHz. sonará una octava más grave y durará el doble de tiempo. El fichero original no se modifica.

o Remuestreo: a partir de las muestras de un sonido digital, aumentar o disminuir su frecuencia de muestreo, añadiendo o eliminando muestras respectivamente. Para pasar de 44,1 KHz. a 22,05 KHz. se elimina una muestra de cada dos. Antes de remuestrear a una frecuencia más baja, conviene filtrar el sonido original y eliminar las frecuencias superiores a la mitad de la nueva frecuencia de muestreo. Para pasar de 22,05 KHz. 44,1 KHz., se crea por interpolación una nueva muestra entre cada dos. Hay que aclarar que este proceso no mejora la calidad del sonido, pero puede ser necesario por razones de compatibilidad entre programas o ficheros de sonido.

o Transposición: es un término musical que significa subir o bajar la altura de una melodía uno o más semitonos. La transposición supone una variación de la duración del sonido: dura más cuanto más grave, y menos cuanto más agudo.

o El “pitch bend” o modificación continua de la frecuencia: es similar a la transposición, pero en vez de realizarse en intervalos discretos (semitonos) se lleva a cabo de forma continua. Se puede definir la evolución de la frecuencia en el tiempo mediante una envolvente. El efecto musical así obtenido se llama “glissando” y equivale a desplazar la mano izquierda sobre el mástil de una guitarra mientras suena una cuerda.

3.7. El estándar M.I.D.I. El MIDI (Musical Instrument Digital Interface) es un protocolo para comunicar entre sí

instrumentos musicales electrónicos. Es un método para describir la música mediante comandos, y es por lo tanto mucho más compacto que su equivalente en sonido digitalizado.

Este protocolo de comunicaciones de datos permite a un instrumento musical controlar a otro. El

instrumento controlador recibe el nombre de MAESTRO o MASTER y el instrumento o instrumentos controlados recibe el nombre de ESCLAVOS.

También es posible desde un ordenador controlar la mayoría de los instrumentos musicales

electrónicos y capturar y almacenar la información que genera la ejecución de un intérprete sobre un instrumento.

Page 25: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 25/65

El estándar MIDI data del año 1983 y fue tal su éxito que se mantiene con pocos cambios desde

entonces. Su meta inicial era conseguir que desde un teclado central se pudieran controlar distintos instrumentos musicales electrónicos interconectados, pero con el uso de ordenadores, el MIDI se convierte además en una herramienta para distintas aplicaciones musicales: ayuda a la composición, docencia, edición de partituras...

Podemos distinguir tres aspectos de este estándar de comunicación:

• Las especificaciones físicas: conectores, tensiones, etc. • Las especificaciones de datos: notas. • Las especificaciones de control: cambios de sonido, velocidad, frecuencia, etc.

3.7.1. Descripción del estándar M.I.D.I. El estándar M.I.D.I. es un protocolo de comunicaciones serie (similar al RS-232) asíncrono. Su

velocidad de transmisión es de 31,25 Kbaudios. Dentro de este estándar podemos diferenciar las especificaciones que se describen en los aparatados siguientes.

3.7.2. Interfaz M.I.D.I.

La interfaz es el dispositivo electrónico que se encarga de enviar y recibir información M.I.D.I. hacia y desde otros dispositivos. El interfaz M.I.D.I. transmite información digital por una línea y la recibe por otra. Cada dispositivo debe contar con una interfaz M.I.D.I.

El conector que recibe información, recibe el nombre de M.I.D.I. IN. El que transmite la

información recibe el nombre de M.I.D.I. OUT y el encargado de retransmitir la información que pasa por el M.D.I. IN se llama M.I.D.I THRU. Este último conector se utiliza para conectar más de dos dispositivos M.I.D.I.

Los tres son conectores DIN hembra de 5 pines (figura 14). Los cables MIDI siempre conectan el

MIDI OUT o el MIDI THRU de un dispositivo con el MIDI IN de otro, y no deben tener una longitud superior a 15 metros.

Figura 14. Formato de los conectores M.I.D.I.

3.7.3. Los canales M.I.D.I.

El sistema M.I.D.I. estructura la información en 16 canales diferentes simultáneos, que permiten dirigir los mensajes individuales a 16 instrumentos distintos. Cada mensaje lleva su número de canal al que afecta, de manera que no hay confusión posible.

Page 26: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 26/65

Cada canal MIDI permite implementar un instrumento virtual diferente. En un sintetizador hay

que distinguir 2 conceptos:

• Capacidad polifónica: numero máximo de notas que puede reproducir simultáneamente. • Capacidad multitímbrica: numero máximo de instrumentos musicales diferentes que se

pueden reproducir simultáneamente.

Los sintetizadores MIDI suelen tener una polifonía de 32 ó más notas, y una capacidad multitímbrica de hasta 16 (límite determinado por los 16 canales de estándar MIDI). Los instrumentos que puede reproducir un sintetizador MIDI se llaman también “programas”. Para activar un instrumento determinado, basta con mandar un mensaje de Program Change junto con el número de instrumento que se desee. Si el sintetizador es multitímbrico, se pueden mandar varios mensajes de Program Change, cada uno a un canal MIDI diferente. Inicialmente, los números de los instrumentos en los sintetizadores MIDI no estaban estandarizados, por lo que al reproducir un tema compuesto en otro sintetizador, un piano podía oírse como una flauta. Para resolver este problema, y como complemento del estándar MIDI 1.0, surgió en 1990 el General MIDI (GM), que entre otros aspectos incluye:

• Polifonía mínima de 24 notas. • Capacidad multitímbrica de 16 canales. • Lista estándar de 128 instrumentos o “programas”, numerados del 0 al 127, o del 1 al 128,

según los fabricantes. • Caja de ritmos en el canal 10 con una lista estándar de 59 sonidos de percusión.

El estándar General MIDI no dice nada sobre la calidad de la simulación de los instrumentos, por

lo que ésta puede variar enormemente de un sintetizador a otro. Algunos fabricantes han creado extensiones del General MIDI , como el General Standard de Roland o el XG de Yamaha.

3.7.4. Conexionados M.I.D.I.

Las diferentes conexiones que nos podemos encontrar entre elementos M.I.D.I. son las siguientes:

• CONEXIONADO BÁSICO: se necesitan por lo menos dos teclados, uno que transmita información (MAESTRO) y otro que la reciba (ESCLAVO). Este tipo de conexión se realiza utilizando los conectores MIDI IN y MIDI OUT.

• CONEXIONADO ENCADENADO DAISY O SERIE: en este tipo de conexión se hace uso del conector MIDI THRU.

• CONEXIONADO EN PARALELO: se necesita un elemento llamado “Caja de Enlace Directo”. Consiste en una caja derivadora con varias entradas y salidas MIDI. De esta forma, se pueden alimentar los teclados o elementos esclavos en paralelo.

3.7.5. Mensajes M.I.D.I. Aunque no es necesario conocer en profundidad todos los mensajes MIDI unas nociones

generales sirven para utilizar con más aprovechamiento los programas secuenciadores. Un mensaje MIDI está formado por:

• Un byte de estatus que tiene siempre el bit más significativo a 1. Los tres siguientes bits

codifican el tipo de mensaje, y los cuatro bits menos significativos codifican el canal. • Uno o dos bytes de datos, según el tipo de mensaje, con el bit más significativo siempre a

cero.

En esta tabla se describen los ocho tipos de mensajes MIDI:

Page 27: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 27/65

Nº Nombre Estatus (hex.) Datos 1 Datos 2 1 Note On 8c Altura Velocidad 2 Note Off 9c Altura Velocidad 3 Polyphonic Aftertouch Ac Altura Presión 4 Control Change Bc Tipo de Control Intensidad 5 Channel Aftertouch Cc Presión --- 6 Pitch Bend Dc MSByte LSByte 7 Program Change Ec Programa --- 8 System Message Fc ---

Los siete primeros se llaman genéricamente mensajes de canal, porque actúan sobre un único

canal a la vez (el codificado en los cuatro bits menos significativos del byte de estatus. Los mensajes de sistema tienen una estructura diferente y no se aplican a ningún canal en concreto.

Un dispositivo MIDI no tiene porqué generar o entender todos los mensajes. Cuando un

dispositivo MIDI recibe un mensaje que no entiende, simplemente lo ignora, y lo reenvía por el puerto MIDI THRU. A continuación se describen las características más importantes de los mensajes de canal:

• Note On: se genera al pulsar una tecla en el teclado, e indica que debe comenzar la

reproducción de esa nota. El primer byte de datos indica la altura, desde 0 (la nota más grave) hasta 127 (la más aguda). Así pues el estándar MIDI tiene una extensión de más de 10 octavas (un piano tiene poco más de 7). La nota 60 corresponde al Do central del piano. El segundo byte de datos indica la velocidad de ataque, que depende de la fuerza con la que se pulsa la tecla. Este parámetro se asocia normalmente con la intensidad sonora. La velocidad cero se usa para desactivar la nota si está sonando. Los teclados que no detectan la velocidad de ataque generan siempre un valor de velocidad de 64.

• Note Off: sirve para desactivar una nota que está sonando, y se genera al soltar una tecla

del teclado. El primer byte de datos contiene la nota soltada, y el segundo la velocidad de liberación, pero se usa más el mensaje Note On con velocidad cero.

• Polyphonic Aftertouch: algunos teclados detectan la presión ejercida sobre cada tecla en

cada momento. Cuando se produce un cambio de presión se produce este mensaje. En el primer byte de datos se almacena la nota, y en el segundo, la presión. El sintetizador suele utilizar el parámetro de presión para modificar el nivel sonoro y el timbre. Como este mensaje se genera en grandes cantidades (varias decenas por segundo por cada tecla pulsada) es habitual poder desactivarlo para evitar exceso de tráfico.

• Channel Aftertouch: es una versión simplificada del Polyphonic Aftertouch. En vez de

generar un mensaje por cada nota, se genera un solo mensaje para todo el canal, cuyo valor es la mayor presión de todas las detectadas.

• Pitch Bend: con este mensaje se desafinan momentáneamente las notas (± 2 semitonos

según el estándar General MIDI). El control que suele generar estos mensajes (varias decenas por segundo) en los teclados es una rueda giratoria que vuelve sola a su posición inicial. Los dos bytes de datos definen un valor de 14 bits (ente –8192 y 8191) que especifica la magnitud de la desafinación.

• Program Change: Los distintos sonidos o instrumentos que puede reproducir un

sintetizador se denominan parches, programas o voces. Este mensaje se puede generar desde botones en el teclado o desde el propio programa secuenciador. El único byte de datos indica el programa o instrumento (de 0 a 127). Cuando un sintetizador tiene más de 128 programas, éstos se agrupan en bancos de hasta 128 programas cada uno. Para acceder a todos estos sonidos se utiliza un mensaje de Control Change llamado Cambio de Banco.

Page 28: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 28/65

• Control Change: Es un tipo de mensaje de canal muy flexible ya que engloba 128 posibles mensajes diferentes (no todos están asignados), para modificar distintos aspectos del sonido. El primer byte de datos indica el tipo de control (modulación, volumen, etc.) y el segundo byte de datos, el valor asignado a dicho control. Algunos de los tipos de control más usados por este mensaje son:

o Tipo 0 (cambio de banco): si un sintetizador tiene varios bancos de sonido, con este mensaje se puede acceder a todos ellos. El segundo byte de datos contiene el número de banco deseado. Este mensaje suele ir seguido de otro de cambio de programa. En algunos sintetizadores, el cambio de banco se hace con Control Change 32.

o Tipo 1 (modulación): este mensaje se suele mandar con la segunda de las ruedas de los teclados (la primera era el pitch bend). Su efecto suele ser programable, y se puede usar para modular la amplitud (trémolo), la frecuencia (vibrato), la frecuencia de corte del filtro...

o Tipo 7 (volumen): controla el volumen del canal en su conjunto, como un mezclador.

o Tipo 10 (panorama): un valor de 0 hace que el sonido se emita por el altavoz izquierdo, 64 por los dos y 127 por el derecho. Valores intermedios generan mezclas intermedias entre el altavoz izquierdo y derecho.

o Tipo 121 a 127: son unos mensajes especiales denominados de modo. El 121 devuelve todos los controles a sus valores por defecto. El 123 apaga todas las notas, lo que resulta útil si alguna sigue sonando por haber perdido su mensaje Note Off.

o Existen otros controles denominados genéricamente RPN (Registered Parameter Number) y NRPN (Non-Registered Parameter Number). En ellos se combinan varios mensajes de Control Change para modificar parámetros específicos de un sintetizador. Estos mensajes no están estandarizados, y exigen consultar la documentación de cada sintetizador.

Los mensajes de sistema no son específicos de canal y afectan al comportamiento global del

dispositivo que los recibe. Su byte de estatus comienza por 1111 y los otros cuatro bits definen el tipo de mensaje de sistema. Son 16 en total y se clasifican en tres grupos:

• Comunes: suelen enviarse a secuenciadores, para situarlos en una posición determinada

de una pieza. El más importante es el MTC (Midi Time Code), que se usa para sincronizar secuenciadores con otros dispositivos.

• De tiempo real: sirven para sincronizar dispositivos MIDI que normalmente funcionan cada uno con su reloj interno. Se puede configurar uno como maestro y otro como esclavo y mandar señales de sincronización.

• Exclusivos: son mensajes específicos de cada fabricante para controlar aspectos particulares del hardware de sus modelos.

En la figura siguiente podemos ver un esquema de los diferentes mensajes M.I.D.I.

Figura 15. Mensajes M.I.D.I.

Page 29: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 29/65

3.7.6. Dispositivos usados en M.I.D.I. Los diferentes dispositivos que se pueden usar en una configuración M.I.D.I. son los siguientes:

SINTETIZADORES:

• Formados por dos partes claramente diferenciables: TECLADO MUSICAL y MÓDULO GENERADOR DE SONIDOS.

• Habitualmente el módulo generador de sonidos es capaz de responder simultáneamente a varios canales M.I.D.I. (hasta 16, o incluso 32 en aparatos con dos conectores M.I.D.I. IN).

MÓDULO DE SONIDOS:

• Es la parte encargada de generar los sonidos. Puede presentarse integrada con un teclado musical, en cuyo caso se llama sintetizador o por separado.

• Entre sus características más importantes son: número de notas que pueden sonar simultáneamente, número de sonidos almacenados de fábrica (presets), número de sonidos editables por el usuario, etc.

• Posibilidad de añadir efectos al sonido (eco, coro, etc).

TECLADO MAESTRO: • Si quitamos del sintetizador la parte de generación de sonido (el módulo), obtenemos

un teclado maestro. Sin embargo, bajo este nombre se suele denominar a un equipo con más posibilidades de control:

o split: partición del teclado en varias zonas para controlar distintos canales M.I.D.I. simultaneamente.

o velocity switch: igual pero dependiendo de la fuerza con la que se toquen las teclas.

o …….

SAMPLER: • El sampler o muestreador es un aparato capaz de digitalizar sonidos reales o

electrónicos y usarlos posteriormente como base de nuevos sonidos internos (Akai, Ensoniq, Roland, etc.).

CAJA DE RITMOS:

• Es un aparato dotado de un módulo especializado en sonidos de batería y percusión (a veces también bajos), y un secuenciador especializado en patrones rítmicos.

SECUENCIADOR “HARD”: • Dispositivo creado para grabar, almacenar, editar y reproducir secuencias M.I.D.I.

musicales multipista. • Es la herramienta utilizada por los compositores o arreglistas. • Permite escuchar pistas grabadas anteriormente mientras se graba una nueva,

modificar cualquier nota independiente o conjunto de notas que fueron pulsadas incorrectamente, etc.

MUSICAL WORKSTATION:

• Equipo dotado de todo lo necesario para interpretar, componer y grabar música M.I.D.I. Suele integrar en un solo chasis los siguientes elementos:

o Teclado maestro. o Módulo de sonidos. o Secuenciador hard. o Disco duro interno o conector SCSI. o En ocasiones, unidad de muestreo o sampler.

Page 30: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 30/65

PATCH BAY MIDI:

• Es un equipo que sirve para cambiar cómodamente el interconexionado de un conjunto de equipos M.I.D.I., es decir, la salida de un aparato a la entrada de otro, etc.

• Sólo interesa cuando tienes más de 4 o 5 aparatos M.I.D.I., por lo que se restringe a un campo bastante profesional.

M.I.D.I. MERGE BOX:

• Esta “caja” M.I.D.I. mezcla dos señales M.I.D.I. de dos cables a uno sólo. Esto no es sencillo, puesto que es un código multibyte y los bytes de dos cables distintos no pueden llegar mezclados a su destino.

• Es útil cuando quieres conectar dos controladores o fuentes de mensajes a un solo destinatario; por ejemplo, conectar dos teclados maestros a un solo módulo de sonidos.

M.I.D.I. THRU BOX:

• Es el inverso al anterior: disponemos de una fuente que queremos conectar a varios destinatarios. Este circuito es una especie de “triple” más sencillo que el MIDI MERGE.

• No es necesario usarlo en configuraciones de pocos aparatos MIDI, puesto que para ello existen las conexiones THRU (retransmisión). Se conectaría el MIDI OUT del primer equipo al MIDI IN del segundo, y del THRU de este al IN del 3, del THRU del 3 al IN del 4, etc…

MEZCLADOR (MERGE) M.I.D.I.:

• Mesas de mezclas para combinar varias fuentes de sonido en una.

3.8. Formatos de Archivos de audio.

Históricamente, cada modelo de computador o programa definió su propio formato de fichero para almacenar la información de sonido. Algunos de estos formatos han perdurado y se han convertido en los más empleados actualmente. Podemos distinguir dos estilos de formato, los que contienen una cabecera que indica los parámetros empleados en la codificación (frecuencia de muestreo, número de bits, estéreo/mono, etc.) y los de tipo "raw" o crudo que no contienen más información que los propios datos.

Entre los primeros, podemos citar los siguientes:

Extensión Nombre Origen Comentarios

.au ó .snd NeXT/Sun NeXT, Sun Frecuencia de muestreo variable. Tiene una cadena de información.

.aif(f) AIFF Apple, SGI Frecuencia de muestreo, tamaño de la muestra y número de canales variables.

.aif(f) AIFC Apple, SGI AIFF con compresión.

.iff IFF/8SVX Amiga Frecuencia de muestreo y número de canales variables. Sólo 8 bits. Información de envolvente.

.voc VOC Soundblaster Frecuencia de muestreo variable. Sólo 8 bits, 1 canal.

.wav RIFF, WAVE Microsoft Frecuencia de muestreo, tamaño de la muestra y número de canales variables.

Page 31: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 31/65

Entre los formatos sin cabecera tenemos: Extensión Nombre Origen Comentarios

.snd ó .fssd Mac, PC Frecuencia de muestreo variable. 1 canal. 8 bits sin signo.

.ul Telefonía USA 8000 m/s, 1 canal, 8 bits logarítmicos.

.snd_ Amiga Frecuencia de muestreo variable. 1 canal. 8 bits sin signo.

A continuación vamos a describir algunos de los nuevos formatos que han ido apareciendo en los

últimos años y que despiertan un mayor interés.

3.8.1. WAV

El formato WAV es un formato básico que almacena la onda de la forma de la onda de la señal entrante. Por lo tanto, trata de almacenar las muestras una tras otra (a continuación de la cabecera del fichero, que entre otras cosas indica la frecuencia de muestreo), sin ningún tipo de compresión de datos, con cuantificación uniforme. La sencillez de este formato lo hace ideal para el tratamiento digital del sonido. Los datos numéricos que ocupan más de un byte se representan de la siguiente forma: Primero están los bytes menos significativos, y a continuación los más significativos (convenio "extermista menor", también conocido como "formato Intel"). El formato de los ficheros .WAV es el siguiente:

Bytes Contenido Usual Propósito/Descripción

00 - 03 "RIFF" Bloque de identificación (sin comillas).

04 - 07 ??? Entero largo. Tamaño del fichero en bytes, incluyendo cabecera.

08 - 11 "WAVE" Otro identificador.

12 - 15 "fmt " Otro identificador

16 -19 16, 0, 0, 0 Tamaño de la cabecera hasta este punto.

20 - 21 1, 0 Etiqueta de formato. (Algo así como la versión del tipo de formato utilizado).

22 - 23 1, 0 (mono) ; 2,0 (estéreo) Número de canales (2 si es estéreo).

24 - 27 ??? Frecuencia de muestreo (muestras/segundo).

28 - 31 ??? Número medio de bytes/segundo.

32 - 33 1, 0 Bytes por muestra

34 - 35 8, 0 Número de Bits por muestra (normalmente 8, 16 ó 32).

36 – 39 "data" Marcador que indica el comienzo de los datos de las muestras.

40 - 43 ??? Número de bytes muestreados.

Resto ??? Muestras (cuantificación uniforme)

3.8.2. MP3.

Page 32: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 32/65

Los formatos de grabación digital de audio con calidad de CD requieren mucho espacio de almacenamiento. Por ejemplo, el formato de audio empleado en los discos compactos, usa 44Khz y 16 bits (2 bytes) de precisión cada segundo, es decir, si grabamos en estéreo (2 canales), necesitamos 44.100 x 2 x 2 = 176.400 bytes por segundo (10.584.000 bytes por minuto). Por tanto, una canción de unos 4 minutos ocuparía unos 40 MB. La solución para poder tratar de forma adecuada esta gran cantidad de información es la COMPRESIÓN con la menor pérdida de calidad posible de la señal original.

Dentro de los estándares de vídeo MPEG (de los que hablaremos en temas posteriores) hay

también creados estándares de compresión de audio. Como se permiten distintas calidades existen tres "capas" con distintos esquemas de compresión: la capa 1, la 2 y la 3 (de forma que la complejidad es progresiva y un decodificador funciona también con las capas anteriores), y esta última se conoce por MP3 o MPEG Audio Layer-3.

El MP3 permite comprimir en un factor aproximado de 12 la información original muestreada

(unos 120 Kbits por segundo, es decir, más o menos 1 Mb por minuto) sin perder calidad de sonido de forma apreciable (por un oído no entrenado... y de hecho los estudios de percepción de calidad de mp3 se han hecho con oyentes humanos opinando sobre las diferencias). Para hacernos una idea aproximada de la compresión obtenida, en un CD-ROM podemos almacenar unos 700 minutos de música, es decir, más de ¡11 horas! (unas 175 canciones de 4 minutos cada una).

Formato

Compresión Kb/seg

Layer1 4 a 1 384

Layer2 6 a 1 8 a 1

256 192

Layer3 10 a 1 12 a 1

128 112

El formato mp3 utiliza unos cuantos trucos para comprimir el sonido, fundamentalmente técnicas

de codificación de percepción que aprovechan la manera en la que el oído humano percibe el sonido. Veamos algunas de las claves:

Umbral mínimo de audición. El umbral mínimo de audición humano (minimal audition threshold) no es lineal. De acuerdo a la

ley de Fletcher y Munsen, se representa por una curva entre 2 y 5 KHz. Cualquier sonido situado fuera de este margen puede no codificarse, ya que no será percibido de cualquier modo.

Efecto máscara.

Hay una serie de propiedades de ocultación (masking effect) del oído humano. De la misma forma que al mirar a un objeto muy brillante se anula la percepción de otros objetos que puedan cruzarlo, en audio los sonidos fuertes no dejan oir a los débiles.

Para conseguir aprovechar esta característica mp3 usa un modelo psicoacústico del comportamiento del oído humano, que filtra los sonidos más débiles cuando hay sonidos muy fuertes a la vez.

Reserva de bytes.

Partes de una obra pueden no ser codificados por debajo de un número de bytes por segundo para mantener la calidad. En estos casos, mp3 usa partes que sí pueden codificarse en un tamaño inferior para almacenar parte de los otros, de modo que actúa como una especie de buffer de las partes más exigentes.

Fusión de estéreo.

En muchas músicas, en frecuencias determinadas, el oído humano no puede distinguir el origen espacial de los sonidos de un canal u otro del estéreo. En este caso mp3 puede fusionar las dos señales

Page 33: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 33/65

en una única (mono) añadiendo quizás alguna información de diferenciación de canales para disminuir al mínimo la información determinada por la diferencia entre uno y otro canal.

Codificación de Huffman.

El código Huffman se aplica al final de la compresión. En cierto modo complementa a las otras partes de la codificación mp3: en algunas partes polifónicas se puede reducir mucha información enmascarada o de estéreo, y en ese caso habrá poca redundancia (y por ello poca reducción por codificación Huffman); mientras que en partes de solos se podrán aplicar pocos efectos de máscara pero habrá muchos bytes redundantes (mucha reducción por Huffman).

A continuación vamos a ver las diferentes fases en las que podemos dividir el proceso de

transformar un archivo de CD-Audio en un archivo MP3. 1. Conversión a audio digital sin comprimir.

a. Para convertir un archivo de audio a formato MP3 debemos partir de una copia digital, que puede obtenerse a partir de un disco compacto, o mediante una grabación convencional (conversión de analógico a digital).

b. Este proceso de convertir un archivo en formato CD Audio a Audio Digital en disco duro se realiza mediante ripeadores (Windac, CDDA, CD extractor o similares).

c. Algunas unidades de CD-ROM no permiten la copia de datos digital, por lo que debemos grabarlo como fuente analógica, lo que redundará en una pequeña pérdida de calidad.

2. Codificación a MP3.

a. Para esto podemos utilizar programas como MP3 compresor o similares. b. Se puede instalar un CODEC en ciertos programas para realizar esta conversión. c. Un CODEC es un algoritmo de compresión y descompresión que suele instalarse en

Windows y pueden usarlo todas las aplicaciones que lo necesiten. d. El proceso de compresión es un proceso desesperadamente lento, debido a la complejidad de

los cálculos que deben realizarse.

3. Descomprimir un archivo MP3. a. Pasar de MP3 a CD Audio (WinAmp, Nero, etc.).

4. Reproducir MP3. a. Debe descomprimirse en tiempo real (WinAmp, reproductor de medio de windows, etc.).

Formato de fichero MP3 Los archivos MP3 están segmentados en grupos de frames, cada uno de los cuales contiene una fracción de segundo de datos de audio que pueden ser reconstruidos por el decodificador. Al principio de cada frame de datos existe una cabecera que almacena 32 bits de metadatos relacionados con los datos contenidos en el frame, tal y como aparece en la siguiente figura.

La cabecera MP3 (ver figura siguiente) comienza con un bloque de sincronización de 11 bits. Este bloque permite a los reproductores buscar la primera ocurrencia de un frame válido, lo que es útil para broadcasting. Sin embargo, esto no es suficiente para que el decodificador empiece a funcionar, sino que hay que comprobar la validez del resto de la cabecera.

Page 34: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 34/65

La siguiente tabla muestra el contenido de los 32 bits de la cabecera de datos, separados en 13 posiciones

Señal Longitud (bits)

Posición (bits)

Descripción

A 11 (31-21) Sincronización (todos los bits a 1)

B 2 (20,19) Versión MPEG Audio 00 - MPEG Versión 2.5 01 - reserved 10 - MPEG Versión 2 (ISO/IEC 13818-3) 11 - MPEG Versión 1 (ISO/IEC 11172-3)

Nota: MPEG Versión 2.5 fue añadida al estándar MPEG 2, usada para bitrates muy bajos. Para decodificadores que no soporten esta extensión se recomienda el uso de 12 bits para sincronización en vez de 11.

C 2 (18,17) Descripción de nivel 00 - reserved 01 - Layer III 10 - Layer II 11 - Layer I

D 1 (16) Bit de Protección 0 – Protegido por CRC 1 - No protegido

E 4 (15,12) Bitrate en kbps

Page 35: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 35/65

bits V1,L1 V1,L2 V1,L3 V2,L1 V2, L2 & L3 0000 Libre Libre Libre Libre Libre 0001 32 32 32 32 8 0010 64 48 40 48 16 0011 96 56 48 56 24 0100 128 64 56 64 32 0101 160 80 64 80 40 0110 192 96 80 96 48 0111 224 112 96 112 56 1000 256 128 112 128 64 1001 288 160 128 144 80 1010 320 192 160 160 96 1011 352 224 192 176 112 1100 384 256 224 192 128 1101 416 320 256 224 144 1110 448 384 320 256 160 1111 Mal Mal Mal Mal Mal

V1 - MPEG Versión 1 V2 - MPEG Versión 2 y Versión 2.5 L1 - Layer I

L2 - Layer II

L3 - Layer III "libre": formato libre. Debe ser constante y por debajo del máximo permitido. No tiene por qué ser aceptado por un decodificador. "mal": valor no permitido.

Algunos ficheros MPEG usan bitrate variable (VBR). Cada frame puede poseer un bitare diferente. Esta característica es soportada por los decodificadores Layer III, no por todos los de Layer I y II

F 2 (11,10) Frecuencia de muestreo bits MPEG1 MPEG2 MPEG2.5 00 44100 Hz 22050 Hz 11025 Hz 01 48000 Hz 24000 Hz 12000 Hz 10 32000 Hz 16000 Hz 8000 Hz 11 reserv. reserv. reserv.

G 1 (9) Bit de ajuste 0 - frame no ajustado 1 - frame ajustado con un slot extra

Sirve para asegurarnos que cada frame cumple los requisitos del bitrate.

H 1 (8) Bit Privado, informativo. Si no existe, se pone un checksum de 16 bits antes de los datos de audio

I 2 (7,6) Modo 00 - Stereo

Page 36: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 36/65

01 - Joint stereo (Stereo) 10 - Dual channel (2 mono channels) 11 - Single channel (Mono) Nota: Los archivos de canal dual se construyen a partir de dos mono independientes, cada uno usa la mitad del bitrate.

J 2 (5,4) Extensión de Modo (para Joint stereo)

Determinados directa y dinámicamente por un codificador. Se divide el rango de frecuencias en 32 subbandas. Para Layer I y II los bits determinan las bandas donde se aplica el estéreo intenso. Para Layer III determinan qué tipo de estéreo se usa (intenso o MS)

Layer I y II Layer III valor Layer I & II 00 bandas 4 a 31 01 bandas 8 a 31 10 bandas 12 a 31 11 bandas 16 a 31

Intenso MS off off on off off on on on

K 1 (3) Copyright 0 - Audio sin copyright 1 - Audio con copyright

L 1 (2) Originalidad 0 - Copia 1 - Original

M 2 (1,0) Énfasis 00 - no 01 - 50/15 ms 10 – reservado 11 - CCIT J.17 Indica al decodificador si el fichero ha de ser re-ecualizado. No se suele usar

3.8.3. VQF.

Existe un nuevo formato menos popular que el MP3 pero que obtiene mejores resultados en cuanto a reducción de tamaño y calidad obtenida. Este formato es el VQF.

Este formato ha sido creado por los laboratorios de la empresa nipona NTT y distribuido por

Yamaha. Se prevé que sea el formato sustituto del MP3. Yamaha es el distribuidor de SoundVQ (Player y Encoder para VQF), ya sea para Windows o

MAC. El WinAmp también nos puede servir para reproducir archivos VQF con el plugin adecuado. Los archivos VQF son entre un 30-35% más pequeños que un archivo MP3. Por ejemplo:

• El archivo WAV de una canción de 4 minutos ocupa aproximadamente 40MB. • Al convertir ese archivo a formato MP3 ocupa unos 3.33MB. • Al convertirlo a VQF ocupa solamente 2.33MB. • Hablamos de un ratio de compresión de 1 a 18 en VQF frente al 1 a 12 del MP3.

Page 37: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 37/65

Este nivel de compresión obtenido no afecta de ningún modo a la calidad del sonido resultante, inclusive la calidad del sonido de este formato es mucho mejor que el de MP3.

Si comparamos los formatos VQF y MP3 podemos observar las siguientes ventajas e

inconvenientes: VENTAJAS:

• Los archivos VQF son aproximadamente un 30-35% más pequeños que los archivos MP3. • La calidad del sonido es mucho mejor que la del MP3, ya que tiene un 99% de la calidad del CD

original.

INCONVENIENTES:

• Los archivos MP3 ocupan un 15-20% de la capacidad de procesamiento del ordenador y un archivo VQF ocupa un 30%.

• Son difíciles de encontrar.

3.8.4. OGG VORBIS

Ogg es el nombre que recibe un proyecto que tenía como objetivo diseñar un nuevo sistema multimedia de código abierto. La segunda parte del nombre viene de la denominación que se dio al esquema de compresión de audio usado para crear archivos con este formato. De ahí que el nombre de este nuevo formato sea Ogg Vorbis. Como es lógico, la extensión que toman los ficheros bajo este formato es .ogg. Ogg Vorbis es un nuevo formato de compresión de audio con calidad digital tanto para grabar como para reproducir música. Es comparable a los formatos mencionados anteriormente, aunque cuenta con una característica que le diferencia de los demás y que además es bastante importante, y es que es completamente gratuito y no está sujeto a ninguna patente. A partir de este momento comenzaron a aparecer diferentes componentes de software, de los que luego hablaremos, entre los que no solo encontramos reproductores del formato, sino que además podremos tener acceso al código del formato mediante herramientas de desarrollo que los programadores podrán usar para comenzar a trabajar universalmente con Ogg vorbis. Ogg Vorbis está basado en la licencia pública general de GNU. GNU es el nombre que recibe un proyecto que data del año 1984 cuyo objetivo era el desarrollo de un sistema operativo basado en Unix y con la calificación de software libre. Estos sistemas son hoy en día muy usados bajo el nombre de Linux. El término de Software Libre está asociado íntimamente con el proyecto GNU, y por tanto a Ogg Vorbis, y se basa en la libertad que según los miembros de este proyecto debería existir sobre el software. Para quienes configuran el GNU el hecho de no poseer software libre, supone una privación de la tecnología a cierto sector de la sociedad, algo que no debería estar permitido y que seguirá siendo así mientras exista el copyright. Ogg Vorbis se rige en su totalidad por las normas del proyecto GNU, por lo que se considera un sistema libre que podrá circular, copiarse, mejorarse de manera libre. El código de desarrollo de este formato, está a disposición de los programadores para ir puliendo los pequeños defectos que pueda tener, al tiempo que se mejora su implementación. El objetivo se sitúa en que algún día, todo el software que requiera de contenido de audio, sea desarrollado y distribuido con código de Ogg Vorbis. Por tanto, no está sujeto a patentes como lo está MP3, y su uso no implica la obligación de abonar una cantidad al grupo de desarrollo de Ogg Vorbis. Tenemos un formato de calidad futurible, que no nos dará una sorpresa dentro de un mes, haciéndose de pago. Esto implica un posible soporte para otras empresas, que pueden añadir música de calidad a sus creaciones sin tener que pensar en el presupuesto necesario para poder usar la tecnología actual. La intención de Ogg Vorbis es conseguir una mayor aceptación que el resto de formatos destinados al mismo fin. Pero para lograrlo, el mejor argumento siempre es poseer la mejor calidad, por ello, y aunque las comparaciones son odiosas, el mp3 es el punto de referencia sobre el que fijarnos a la hora de evaluar este formato. En una hipotética situación de compresión de una misma canción, tanto en formato mp3 a 128 kbps como en formato ogg, el espacio que ambos ficheros ocuparían en disco es el mismo aproximadamente, aunque en el segundo caso, la calidad auditiva sería superior. La explicación se debe fundamentalmente a los valores de muestreo en los que es capaz de trabajar este formato, llegando desde

Page 38: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 38/65

los 16 kbps hasta los 128 kbps por canal, aunque en las especificaciones del formato no se detalla específicamente que no se pueda codificar un archivo a 8 kbps o 512 kbps. Ogg Vorbis tiene una muy bien definida cabecera para comentarios en los archivos, que es extensible y fácil de usar, sin tener que usar etiquetas de ID3. Posee además una escala de muestreo, es decir, una función que permite cambiar la cantidad de muestra de un archivo o transmisión sin tener que recodificar el archivo entero, con el tiempo que ello conlleva, simplemente se acortan los paquetes al tamaño deseado. Los archivos Vorbis pueden ser troceados y luego editados con extraordinaria fineza de muestreo, y puede implementar canales múltiples, no solamente uno o dos. Además, los archivos en Vorbis se pueden encadenar lógicamente. Para que realmente sea útil, el formato debe ser soportado por una serie de aplicaciones que provean la funcionalidad mínima exigida al formato, en el mayor número de ámbitos posibles. Ogg Vorbis está fuertemente impuesto en aplicaciones como:

• Icecast (audio streaming10) • XMMS (reproductor de audio) • Sonique (reproductor de audio) • Winamp (reproductor de audio) • Serious Sam (como música de un videojuego) • Super Audio Converter (conversor de formatos)

Método de compresión Hablaremos ahora de unas ligeras explicaciones sobre algunas partes que se usan en el algoritmo de compresión. Usa la MDCT (transformada modificada discreta del coseno), un tipo de DFT(transformada discreta de Fourier), cuyo objetivo primordial es pasar del dominio del tiempo al dominio de la frecuencia. El análisis de Fourier permite representar cualquier forma de onda mediante un conjunto de componentes armónicamente relacionados de amplitud y fase adecuadas. La transformada de una forma de onda de audio típica varía de manera relativamente lenta. La lenta señal sonora procedente del tubo de un órgano o de la cuerda de un violín, o el lento decrecimiento de la mayoría de los sonidos musicales, permite la reducción de la frecuencia a la que la transformada es muestreada, obteniéndose una ganancia de codificación. Las transformadas prácticas requieren bloques (también llamados ventanas) de muestras en lugar de cadenas interminables. La solución está en cortar la forma de onda en cortos segmentos solapados y, seguidamente, transformar cada uno de ellos individualmente. De este modo, cada muestra de entrada aparece en sólo dos transformadas, pero con una ponderación variable dependiendo de su posición en el eje temporal. La DFT requiere gran número de cálculos, debido al requisito de tener que utilizar una aritmética compleja para obtener la fase de las componentes, así como la amplitud. Una alternativa consiste en emplear la Transformada Discreta del Coseno (DCT). Esta presenta una ventaja cuando se utiliza con ventanas solapadas. En la Transformada Discreta del Coseno Modificada (MDCT)[39], se usan ventanas con un solapamiento del 50 %. El problema que surge es al tener un efecto transitorio hacia el final del bloque, ya que el decodificador reproduce la forma de onda correctamente, pero el ruido de cuantización comenzará al principio de bloque, y puede dar lugar a un pre-eco. La solución es utilizar una ventana de tiempo variable de acuerdo con el contenido del transitorio de la forma de onda de audio. Cuando se producen transitorios musicales, se necesitan bloques cortos, por lo que la resolución de la frecuencia y, por tanto, la ganancia de codificación serán bajas. En otras ocasiones, los bloques pueden hacerse más grandes, mejorando así la resolución de la frecuencia de la transformada y obteniéndose una mayor ganancia de codificación. Vorbis usa ventanas de dos tamaños, las grandes y las pequeñas. Los tamaños deben ser pequeñas potencias de 2, normalmente entre 256 y 2048, y se fijan para cada ejecución del algoritmo. El tamaño podría ser igual, y el algoritmo conceptualmente usaría solo ventanas pequeñas. Ambas ventanas se usan para controlar la expansión temporal del pre-eco producido por la MDCT como resultado de un incremento brusco en la energía auditiva, como pueden darse en sonidos como la “p”, por ejemplo. Las ventanas pequeñas se usan cerca de estos sonidos cortantes para aislar el efecto de deslizamiento temporal que ocurriría en otro caso. Las ventanas grandes se usan el en resto. Las ventanas cortas no se usan para los decrementos bruscos, ya que el oído humano es menos sensible a los post-ecos). El algoritmo típico de Ogg Vorbis busca saltos de 24-32 dB en 256 muestras. Usa un filtro paso-alto IIR11 para ignorar los cambios bruscos en la banda de baja frecuencia. Cada par de ventanas consecutivas está

Page 39: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 39/65

separada por 1/4 del tamaño total de la pareja, lo que corresponde a un 50% de solapamiento cuando las ventanas son de idéntico tamaño. Cabe destacar que las curvas son simétricas con respecto a los solapamientos. Es decir, cuando se solapen una ventana grande y una pequeña, la curva de la ventana grande será asimétrica, ya que la caída será simétrica a la subida de la pequeña, que no es igual a la subida de la grande. Para calcular los floor (valor base medio de la ventana analizada), se pasa la señal a una escala logarítmica de dB. Tras esto, se convierte toda la curva en positiva, añadiendo un desplazamiento de amplitud, ampdB. Ahora se convierte la curva a LPC (codificación linear predictiva). LPC es uno de los métodos más poderosos de análisis de voz, y uno de los métodos más útiles para codificar voz a buena calidad con una tasa baja de bits. LPC asume que la señal es producida por un zumbador al final de un tubo. La glotis produce el zumbido, que está caracterizado por su intensidad y su frecuencia. La boca y la garganta forman el tubo, caracterizado por su resonancia, llamada. LPC analiza la señal estimando la resonancia, eliminando su efecto en la señal, y estimando la intensidad y frecuencia del zumbido restante. Este proceso se conoce como filtrado inverso, y la señal restante se llama residuo. Tras tener la curva en LPC, se cuantiza a bits de amplitud, en la escala [0, ampdB], truncando, no redondeando. • Si no es silencio, se convierte la señal de LPC a LSP (parejas de líneas espectrales), que al ser ortogonales, son estables. Se divide el LSP en trozos de longitud dim. Hay que tener en cuenta que el LSP será siempre una secuencia incremental. Ahora se busca el trozo que mejor ajusta con éste en el codebook(diccionario donde se van almacenando los trozos distintos de la señal), usado par evitar duplicidad de trozos, devolviendo la entrada correspondiente. Este número de entrada siempre es en relación al valor del último trozo, o 0 si es el primer trozo. Por ejemplo, si el mejor ajuste es el trozo antepenúltimo, el número será 2 (dos hacia la izquierda). Tras esto, se añade al buer (resultado de la compresión ogg vorbis, es decir, el buer de salida) y se obtiene la curva espectral envolvente del LSP. • Si es silencio, devuelve simplemente una curva cero sin añadirlo al buer.

Los Codebooks tienen estructura de retículo. Se pueden escribir compactamente sin ser enumerados. La generación de residuos consiste en coger el floor y restárselo a la señal PCM (modulación por codificación de pulsos). Todos los residuos se codifican, y se escriben sus entradas en el buer. Se invierte la MDCT y se le da una oportunidad a las funciones de floor para que modifiquen las cosas. Su finalidad es ver la calidad resultante, y si estima que no es la deseada, intenta mejorarla cambiando los parámetros.

En resumen

Vorbis utiliza principios matemáticos muy diferentes a los que usa MP3, lo cual presenta otro tipo de desafío en la manera de comprimir música. En las pruebas de audio, los archivos de Vorbis y MP3 codificados con la misma compresión tienen una calidad de audio parecida. Vorbis es un formato flexible, lo cual posibilita la afinacion de los algoritmos aún cuando el formato este congelado. En cuanto al tamaño de los archivos, dos archivos codificados al misma cantidad de muestreo siempre tendrán el mismo tamaño si es que los dos fueron codificados con CRB (Bitrate Constante). Actualmente, Vorbis solamente codifica con VBR (Bitrate Variable), el cual produce archivos más pequeños con mejor calidad, ya que no desperdicia información en audio que es facil de codificar. Los archivos producidos con Vorbis Beta tendrán un tamaño muy similar a archivos MP3 a 128kbs, pero sonarán mejor. En teoría, no hay limite de muestreo para OGG Vorbis. Vorbis ha sido afinado para que usar cantidades de muestreo entre 16kpbs y 128kpbs por canal. Pero no hay nada en la especificación que no permite codificar un archivo a 512kbps o 8kbps. El codificador actual funciona en los siguientes bitrates: 128, 160, 192, 256, 350 kbps en mono o estéreo. Cantidades menores estarán disponibles en el futuro.

Vorbis tiene una muy bien definida cabecera para comentarios, que es extendible y facil de usar, sin tener que usar etiquetas de ID3. Vorbis tiene una escala de muestreo, una función que permite cambian el la cantidad de muestra de un archivo o transmisión sin tener que recodificar; simplemente se acortan los paquetes al tamaño deseado. Los archivos Vorbis pueden ser trozados y luego editados con extraordinaria fineza de muestreo. Vorbis puede implementar canales múltiples, no solamente uno ó

Page 40: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 40/65

dos. Además, los archivos en Vorbis se pueden encadenar logicamente. Además permite escalar la tasa de bits sin necesidad de recodificar.

Generación de archivos OGG desde un CD de audio

1. Obtener el fichero en formato WAV (Para ello se puede hacer uso de programas tipo CD-EX)

2. Normalización Si fuimos conservadores en el volumen de grabación es muy probable que nuestra grabación no haya

aprovechado todo el rango dinámico disponible. En este caso es recomendable aumentar el nivel de la grabación para que el máximo pico use el máximo valor posible. (CD-EX permite normalizar el audio al extraerlo, NormalizeGUI)

3.Codificar usando un codec para OGG (oggenc) Existen programas que directamente generan ficheros OGG a partir de un CD de audio

(Audiograbber, CDEX) Finalmente, veamos el contenido de un archivo OGG. Comienza con 3 cabeceras, que sirven para identificar, poner comentarios y establecer la configuración, y todas ellas son necesarias para una decodificación exitosa. Cada cabecera comienza con los mismos campos:

1) [tipo] : valor de 8 bits 2) 0x76, 0x6f, 0x72, 0x62, 0x69, 0x73: 'v','o','r','b','i','s'

A continuación se decodifica atendiendo al tipo de paquete: 1 identificación; 3 comentarios; y 5

configuración. Deben aparecer en este orden. La cabecera de información posee unos campos que declaran el contenido como Vorbis y proporcionan información sobre el flujo audio. Estos son los campos, que sólo son significativos cuando tienen valor distinto de cero:

1) [vorbis_version] = 32 bits. Suele estar a 0. 2) [canales_audios] = 8 bits. Valor mayor que 0. 3) [ratio_muestreo_audio] =32 bits Valor mayor que 0. 4) [bitrate_max] = 32 bits 5) [bitrate_nominal] = 32 bits. No se pone nada cuando se codifica con VBR. 6) [bitrate_min] = 32 bits 7) [tamaño_bloque_0] = 2 exponente (4 bits) Valores posibles_ 64, 128,256,512,1024,2048, 4096, 8192. 8) [tamaño_bloque_1] = 2 exponente (4 bits) Debe ser mayor o igual que el campo anterior 9) [bandera_framing] = 1 bit. Debe valer 1. Si ponemos los campos 4, 5 y 6 con el mismo valor estamos estableciendo un bitrate fijo. Si sólo

damos valor al nominal, implica uso de VBR o ABR con una media de valor del nominal. Si ninguno tiene valor el decodificador puede especular. Con los valores máximo y mínimo establecido se genera un flujo VBR que obedece dichos límites. La cabecera de comentarios es una lista de vectores de 8 bits; el número de vectores queda limitado a 2^32-1 y la longitud del vector a 2^32-1 bytes. La longitud del vector se codifica. Aparte de la lista de vectores existe un vector para el nombre de la organización. Actualmente este vector vale "Xiph.Org libVorbis I 20020717". Se codifica de la siguiente forma:

1) [vendor_length] = 32 bits 2) [vendor_string] = UTF-8 vector con longitud [vendor_length] 3) [longitud_lista_comentarios] = 32 bits 4) iterar de 1 a longitud_lista_comentarios { 5) [longitud] = 32 bits 6) comentario = UTF-8 vector como octetos de longitud [longitud] octets

Page 41: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 41/65

} 7) [bit_framing] = 1 bit 8) if ( [bit_framing] a 0 o fin de paquete ) then ERROR Los vectores de comentarios se estructuran como variables de entorno de UNIX., esto es, consiste de

un campo nombre y otro valor, de la siguiente forma: comment[0]="ARTIST=me"; comment[1]="TITLE=the sound of Vorbis"; A continuación se muestra una lista de campos estándar, con una descripción de su uso. Ninguno de

estos campos es obligatorio, y la cabecera de comentarios puede contenerlos o no. TITLE: Nombre de la pista o trabajo VERSION: Para diferenciar versiones de una misma pista. ALBUM: Nombre del álbum al que pertenece la pista. TRACKNUMBER: Número de pista. ARTIST: Nombre del compositor. PERFORMER: Cantante. COPYRIGHT: Quien tiene los derechos. LICENSE: Información sobre la licencia ORGANIZATION: Productora DESCRIPTION: Descripción del contenido. GENRE: Género DATE: Fecha de grabación. LOCATION: Localidad de grabación. CONTACT: Información de contacto. ISRC: Número ISRC para la pista.

La cabecera de configuración contiene la información necesaria para decodificar. Contiene, en este orden, la lista de configuraciones de codebooks, configuraciones de transformaciones en el dominio del tiempo, configuraciones de floors, de residuos, de mapeo de canales y de modo, acabando con el bit de framing a 1. Esta es la estructura:

codebooks [conteo_vorbis_codebook] =8 bits +1 Decodificar [conteo_vorbis_codebook] codebooks según el orden establecido en el documento.

Salvar cada configuración en un array de configuraciones de codebooks [configuraciones_vorbis_codebook].

Transformadas en el dominio del tiempo [conteo_vorbis_tiempo] = 6 bits+1 leer [conteo_vorbis_tiempo] valores de 16 bits; cada valor debería ser 0 para no dar error floors

[conteo_vorbis_floor] = 6 bits+1 Para cada floor: Leer tipo de floor: vector [tipo_vorbis_floor] elemento [i] = 16 bits Decodificar según el tipo de floor y guardar la configuración en el slot [i] del array

[configuraciones_vorbis_floor]. Si el tipo es mayor que 1, entonces error residuos [conteo_vorbis_residuos] = 6 bits+1 Para cada residuo:

Page 42: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 42/65

Leer tipo de residuo= 16 bits Si el tipo es mayor que 2, error. En otro caso, decodificar de acuerdo al tipo de residuo y guardar la

configuración en el array [configuraciones_vorbis_residuos]. mapeos Se usan para definir tuberías específicas para codificar audio multicanal con varias aplicaciones de

mapeo de canales. Vorbis I usa un tipo único de mapeo (0) con mapeos de canal PCM implícitos. [conteo_vorbis_mapeos] = 6 bits+1 Para cada mapeo: Leer tipo de mapeo: 16 bits. Si el tipo es distinto de 0, no se puede decodificar. En otro caso, Leer un bit. Si vale 1, entonces leer como [vorbis_mapeo_submapeo] = 4 bits+1. Si vale 0, [vorbis_mapping_submaps] = 1 Leer un bit. Si vale 1, entonces [vorbis_mapeo_pasos_acoplamiento] = 8 bits+1 Para cada paso j : vector [vorbis_mapeo_magnitue] element [j]= leer ilog([audio_channels] - 1) bits vector [vorbis_mapeo_ángulo] element [j]= leer ilog([audio_channels] - 1) bits Estos números representan el canal a tratar como magnitud y ángulo respectivamente. Si para algún

paso ambos son iguales, o alguno es mayor que canales_audio-1, entonces no es decodificable. Si vale 0, [vorbis_mapeo_pasos_acoplamiento] = 0 Leer 2 bits (campo reservado); si no valen 0, indecodificable Si [vorbis_mapeo_submapeo] es mayor que uno, entonces leemos los parámetros multiplex del canal . Para cada canal j: vector [vorbis_mapeo_mux] elemento [j] = 4 bits si el valor es mayor que el mayor submapeo ([vorbis_mapeo_submapeo] - 1), indecodificable para cada submapeo [j], leer floors y residuos: leer y descartar 8 bits leer 8 bits para el número de floor; guardarlo en en el vector [vorbis_mapeo_submapeo_floor]

element [j] verificar que no es mayor que el mayor número de floor configurado para el archivo. Leer 8 bits como número de redisuo; guardar en vector [vorbis_mapeo_submapeo_residuo] element

[j] Verificar que no es mayor que el límite para residuos para el archivo. Guardar la configuración del mapeo en el array [configuraciones_vorbis_mapeo]. modos [conteo_vorbis_modo] = 6 bits+1 Para cada modo: [vorbis_modo_blockflag] = 1 bit

Page 43: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 43/65

[vorbis_modo_tipo_ventana] = 16 bits [vorbis_modo_tipo_transformada] = 16 bits [vorbis_modo_mapeo] = 8 bits verificar rangos; cero es el único valor legal en Vorbis I para el tiop de ventana y de transformada. El

modo de mapeo no debe ser mayor que el mayor número de mapeo usado. Guardar la configuración de modo en [configuraciones_vorbis_modo].

A continuación ya vendría el audio del fichero.

3.9. Audio digital

3.9.1. SRS.

En los últimos años han proliferado algunos sistemas de grabación de sonido que persiguen una reproducción más fiel, que envuelva al oyente como lo hacen los sonidos naturales. Aunque el sonido estéreo de dos canales ha alcanzado unas cotas de calidad excepcionales y puede reproducir en cierta forma algunos efectos de movimiento del sonido, no sirve para distinguir si éste nos viene desde atrás o por arriba.

El sistema que más éxito ha cosechado entre los usuarios de ordenadores personales es el SRS y

sus derivados. El SRS es un sistema de reproducción (no de grabación) que aprovecha las grabaciones estéreo para producir un efecto de «realce» lateral. El sonido parece que adquiere cuerpo al activar un filtro SRS.

En realidad, el sonido sigue siendo estéreo, ya que es imposible obtener un efecto de volumen con sólo dos altavoces. Lo que ocurre es que, como hemos señalado en el cuerpo general del artículo, el oído es más sensible a las altas frecuencias que a las bajas y a los sonidos laterales que a los frontales.

Por tanto, el SRS toma la diferencia entre las señales izquierda y derecha y «les sube el volumen».

Esta elevación del volumen de algunas frecuencias hacen que el cerebro crea que viene de los lados, cuando en realidad vienen del frente.

Filtros de ruido: Es más que probable que por algún sitio guardemos una cinta de casete un

poco antigua. Si la reproducimos en una pletina normal y corriente, sin filtros de ruido, oiremos un pequeño siseo de fondo en aquellos puntos donde no haya canciones grabadas. Si el nivel de este ruido no es exagerado, «desaparece» cuando empieza el siguiente tema y vuelve a aparecer al terminar. ¿Qué es lo que pasa? En realidad el ruido está siempre ahí. Lo que ocurre es un fenómeno conocido como enmascaramiento que oculta las frecuencias de ruido con las del tema principal, que tiene un espectro más amplio y potente.

Este es uno de los principios más aplicados en los reductores de ruido: se toma una muestra del

nivel máximo de ruido y un circuito electrónico reduce el volumen hasta el mínimo, haciendo que desaparezca. Cuando se rebasa este nivel mínimo, se elimina la limitación de volumen y el tema musical enmascara el ruido.

El problema es que cuanto más rápido es el cambio entre la etapa de ruido y la del tema musical,

mayores son los ruidos secundarios que aparecen, una especie de ecos metálicos. La reducción de ruido es una de las partes más complejas del tratamiento de audio y ocupa la actividad de empresas tan importantes como Dolby.

El sistema Dolby Surround Prologic, es uno de los sistemas de gestión y control de sonido

envolvente que más se ha difundido a nivel doméstico. Este sistema, en su última versión, la 5.1, emplea cinco altavoces independientes, apoyados por un refuerzo de graves. La señal cuadrafónica se

Page 44: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 44/65

encuentra grabada en formato compatible con el estándar estereofónico, siendo un procesador DSP, el encargador de extraer y separar los canales de cada altavoz.

El altavoz frontal se encarga de reproducir los diálogos, los delanteros izquierdo y derecho,

ofrecen los efectos especiales de la banda sonora y los traseros apoyan a los delanteros consiguiendo el efecto envolvente. Este sistema es analógico y presenta algunos inconvenientes. De cara a solucionar estos problemas los laboratorios Dolby desarrollaron el Dolby Digital AC-3 que se describe en el siguiente apartado.

En la actualidad podemos encontrar tarjetas de sonido que soportan estos estándares, así como la

conexión mediante interfaces digitales con amplificadores, reproductores, grabadores y otros dispositivos.

3.9.2. DOLBY DIGITAL AC-3.

Los métodos de tratamiento del sonido en Dolby Digital es a través de la codificación del audio por medio de algoritmos de compresión y en codificación multicanal. Por medio de la codificación multicanal se consigue una mejor percepción de las diferentes frecuencias que se obtienen en un solo sonido.

Los algoritmos de compresión se basan en dos fenómenos principalmente:

• La curva de sensibilidad del oído. • El fenómeno de enmascaramiento.

Se utilizan 6 canales de audio con las siguientes características:

• Frontal izquierdo (20Hz a 20Khz). • Frontal derecho (20Hz a 20Khz). • Central (20Hz a 20Khz). • Surround trasero izquierdo (20Hz a 20Khz). • Surround trasero derecho (20Hz a 20Khz). • Subwoofer de baja frecuencia (limitado a graves).

Cinco de los canales son de banda completa (cubren la totalidad de la banda audible [20Hz a

20Khz]) y el canal de subwoofer está limitado a la banda de frecuencias bajas. Por esto, se suele decir que es un sistema que entrega 5.1 canales.

Dolby Digital emplea la tecnología de procesado del sonido basado en AC3 (Audio Code

Number 3), sistema de codificación digital desarrollado para almacenar y transmitir señales multicanal digitales. Se consigue la separación entre canales posibilitando que sonidos individualizados lleguen desde múltiples direcciones al oyente.

En los CDs y Laser Discs se emplea el audio digital en formato PCM. En esta codificación se

muestra la onda analógica de 16 bits 44.100 veces por segundo. Este proceso crea demasiados datos para los sistemas multicanal por lo que se necesita una forma de reducción considerable de los datos sin degradar la calidad del sonido resultante. DD utiliza algoritmos complejos para calcular la distribución óptima de los bits sin ninguna degradación audible del sonido. Sin embargo, cuantos menos bits se utilizan en la codificación para describrir una señal de audio, mayor es el ruido y para solucionarlo Dolby Digital utiliza las dos técnicas siguientes:

• FILTRADO DIGITAL: tiene lugar en las primeras etapas del proceso en las que la información es fragmentada en 256 bandas de frecuencia. Se pasa la información a través de una serie de filtros de paso de banda para cada uno de los cinco canales y de esta forma se suprime la mayor parte del ruido al limitar la respuesta de frecuencia.

• ENMASCARAMIENTO: se produce en la etapa de salida para eliminar el ruido residual.

Se usa un sistema de altavoces 5.1 (ver sección de altavoces)

Page 45: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 45/65

3.9.3. SUPER AUDIO-CD

Al tiempo que el disco compacto se convertía en una instrumento básico para la reproducción de música, los usuarios requerían mayores posibilidades. Sony y Philips, los inventores del CD, han creado el nuevo Super Audio CD (SACD). Un CD de Super Audio parece un CD normal, pero es ahí donde acaba toda similaridad, ya que la diferencia en calidad de sonido es abismal. Hace uso de la tecnología de codificación Direct Stream Digital (DSD). Por ejemplo, la respuesta en frecuencia proporcionada por DSD es casi 5 veces mayor que la proporcionada por un CD normal. Además, con un rango dinámico de 120 dB, comparado con los 96dB del CD, el Super Audio CD supera incluso los límites auditivos humanos.

Existen varios tipos de Super Audio CDs. Los CDs de Super Audio de una capa tienen una capa de

información para ser reproducida en lectores de Super Audio CD. Los CDs de Super Audio duales contienen una doble capa de información para lectores de Super audio CD. Por otro lado, los CDs de Super Audio híbridos poseen además una capa de datos que pueden ser usados por un lector de CD.

A continuación describiremos las tecnologías empleadas en el Super Audio CD. Codificación Direct Stream Digital (DSD) Surge del estudio de los problemas de la codificación PCM para audio digital. Conforme se aumenta el bitrate y las frecuencias de muestreo se obtienen mejores resultados, pero esas mejoras son cada vez menores. ¿El motivo? PCM requiere filtrar cualquier señal por encima de la frecuencia de muestreo. Por ello, se hace necesario añadir ruido de re-cuantización mediante procesos de decimación e interpolación. En DSD se eliminan estos dos procesos al capturar la señal de audio digital de forma diferente. El proceso es el siguiente. En primer lugar, se convierte la señal analógica a digital usando la modulación delta-sigma (con una frecuencia de muestreo 64 veces superior a 44’1kHz) para obtener una señal de audio digital de 1 bit, que es directamente grabado por DSD.

Disco multicanal La existencia de múltiples canales es una característica clave de Super Audio CD, esto es, no se limita a grabar sólo el estéreo izquierdo y derecho. Existen áreas separadas de datos para proporcionar contenido estéreo y multicanal. Asimismo, se ha reservado un área extra de datos para expansiones del formato para introducir información como letras, créditos, imágenes, etc. Protección de contenido

Page 46: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 46/65

• PSP-PDM (Pit Signal Processing- Physical Disc Mark): Es un tipo de huella invisible difícil de ser

escrita en un disco grabable, ya que requiere ser pasterizada con equipo especializado para Super Audio CD. Se usa para controlar la reproducción y para controlar el acceso al contenido.

• Control de Acceso al Contenido: Se hace uso del algoritmo synchronous stream cypher para

encriptar los datos. Este algoritmo hace uso de la clave PSP-PDM y de los valores iniciales, que se encuentran en los ICs son privados para cada IC.

• Control de Acceso al Disco: Los lectores necesitan cierta información que se encuentra escondida

en el disco, por lo que un reproductor que no cumpla los requisitos no podrá reproducir el disco.

• Control de Reproducción: Sólo se permite la reproducción DSD si se encuentra la huella PSP en el disco.

Comparativa entre Super Audio CD y CD

Aspecto Super Audio CD CD Diámetro (mm) 120 120 Grosor (mm) 1’2 1’2 Tamaño pista(micras) 0’74 1’6 Capacidad (Mbytes) 4700 780 Longitud de onda (nm) 650 780 Apertura numérica 0’6 0’45 Codificación Audio DSD PCM Lineal Frecuencia de muestreo (kHz) 2822’4 44’1 Tamaño unidad sampleo (bit) 1 16 Canales 2,3,3.1,4,4.1,5,5.1 2 Pistas 255 99 Índices 255 99 Tiempo de reproducción estéreo 109 74 Tiempo de reproducción multicanal 70-80 - Datos adicionales (kbps) 73-900 43’2 Rango de frecuencias (Hz) DC-100000 (DSD) 5-20000 Rango dinámico (dB) >120 96

3.9.4. HDCD El High Definition Compatible Digital HDCD fue desarrollado en 1996 por la empresa californiana Pacific Microsonics Incorporated para mejorar la calidad del CD manteniendo la compatibilidad con el mismo. En septiembre de 2000 la compañía - y consecuentemente su tecnología - fue adquirida por Microsoft. Gracias a una ingeniosa técnica de codificación, el HDCD consigue cuantificar 20 bits en lugar de los 16 de un CD normal. Como resultado se consigue una dinámica de hasta 120 dB, 24dB más que en el CD. El sistema también mejora la respuesta en frecuencia y reduce al mínimo la distorsión gracias al uso de filtros anti-aliasing que se ajustan automáticamente en función del tipo de señal a tratar. La gran ventaja del HDCD es su total compatibilidad con los reproductores normales de CD, aunque para disfrutar de la calidad mejorada es necesario que el reproductor incorpore el decodificador HDCD.

3.9.5. DVD-Audio

La creciente popularidad de los sistemas surround en los hogares ha estimulado el crecimiento del uso de DVDs lo cual ha provocado que cada vez más consumidores quieran su música en este formato. DVD

Page 47: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 47/65

and SACD ofrecen sonido surround, pero sólo DVD ofrece contenido multimedia. El grupo de trabajo WG4 del Forum DVD desarrolló la especificación DVD-Audio, que fue originalmente lanzado en Marzo de 1999, pero que tardó un año en incorporar mecanismos de protección anticopia y huellas digitales. Las características principales del DVD-Audio son:

• Audio multicanal de alta calidad con protección anticopia • Reproducción de CDs • Amplio abanico de niveles de calidad y canales flexibles para el propietario de los contenidos. • Extensible • Contenidos de valor añadido como vídeos, textos, menús, etc. • Sistema de navegación amigable • Conexión a Internet para obtener la información más reciente para el título

Los discos DVD-Audio son físicamente idénticos al DVD-Video y al DVD-ROM, pero los ficheros de datos son diferentes. El Fórum DVD ha considerado un formato híbrido DVD en adición de los formatos DVD/-5/-9/-10, etc, pero existen problemas de compatibilidad. Como resultado es probable que se introduzca un formato de doble cara “DVD Plus” para proporcionar la compatibilidad CD. Estructura de un Disco DVD-Audio Los datos en un DVD-Audio están compuestos de objetos de audio e información de gestión como ficheros de datos contenidos en el directorio AUDIO_TS. Los datos de vídeo adicionales en un DVD-Audio están compuestos por archivos de vídeo contenidos en el directorio VIDEO_TS y cumpliendo un subconjunto de las especificaciones DVD-Video. Debido a las limitaciones de ancho de banda, no es posible almacenar audio y vídeo de alta calidad en una misma secuencia AV en un disco DVD. El siguiente diagrama ilustra un disco DVD-Audio con contenido adicional DVD-Video.

Los datos de audio ocupan un flujo sin otros posibles flujos de datos. Por lo tanto, no es posible entremezclar audio con otros datos como puedan ser imágenes. Estos y otros datos deben ser pre-cargados en el reproductor antes de sonar el audio o en los períodos de silencio.

Grupos y Pistas

Cada cara de un disco DVD-Audio se llama álbum. Cada álbum se subdivide en un máximo de 9 grupots, cada grupo en 99 pistas y cada pista en 99 índices. Para facilitar la navegación existe una capa adicional entre grupos y pistas conteniendo los títulos del audio (ATTs). Son entidades lógicas empleadas para asignar pistas a grupos. Un grupo puede contener uno o más ATT y cada ATT puede unir una o más pistas. Un ATT puede ser usado para reproducir sólo s de audio o contenido de vídeo. Los ATTs son ignorados por reproductores sólo audio.

Page 48: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 48/65

Se han definido dos versiones del formato DVD-Audio, uno para sólo audio y otro para audio y vídeo., lo que da a lugar a un total de 3 formatos, que son listados a continuación.

Formato Contenido

DVD-Audio (no video)

Disco de audio con texto, menús e imágenes opcionales

DVD-Audio (con vídeo)

Añade vídeo (subconjunto de la especificación DVD-Vídeo)

DVD-Video Vídeo sin contenido DVD-Audio

Híbrido DVD-Audio y DVD-Vídeo más una capa CD.

Parámetro Audio

Codificación LPCM o MLP

Frecuencia de muestreo (kHz) 44.1/48/88.2/96/ 176.4/192

Bits por muestra 16/20/24

Canales máximos 6 (@ 96 kHz) o 2 (@ 176.4/192 kHz)

Page 49: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 49/65

Bitrate máximo 9.6 Mb/s

Grupos de canales El bitrate máximo para audio es9’6 Mb/s, lo que indica que la frecuencia de muestreo para múltiples canales está limitado a 96khz o menos. Para aprovechar al máximo el ancho de banda disponible, se puede codificar el DVD-Audio como dos grupos de canales con diferentes parámetros por grupo. Los grupos pueden ser usados para 3 o más canales.

Parámetro Grupo de canales 1 Grupo de canales 2

48kHz 48kHz

96kHz 96 o 48kHz

44.1kHz 44.1kHz

Frecuencia de muestreo

88.2kHz 88.2 o 44.1kHz

16 bits 16 bits

20 bits 20 o 16 bits

Bits por muestra

24 bits 24, 20 o 16 bits

Para frecuencias de muestreo de 176.4 y 192 khz, el número de canales es dos o menos, por lo que sólo se podría usar un grupo de canales. El uso de 6 canales audio 96/24 con codificación PCM implicaría un ratio de 13Mb/s, mayor que el máximo permitido de 9’6khz. Existe alguna forma de compresión que acomoda la mayor calidad en sonido surround, el Meridian Lossless Packing, que es fácil de implementar y que no altera la señal decodificada. La decodificación MLP requiere pocos recursos computacionales aun para 6 canales de 24-bits/96khz de audio. También proporciona flexibilidad adicional que permite optimizar la calidad de reproducción. Las posibles tasas de muestreo, cuantización y número de canales para PCM y MLP se muestran en la siguiente tabla.

Frecuencia de muestreo (kHz) Cuantización 2 canales 4 canales 6 canales

Page 50: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 50/65

44.1/48 16 a 24 LPCM/MLP

96/88.2 16 LPCM/MLP

96/88.2 20 o 24 LPCM/MLP MLP

192/176.4 16 a 24 MLP No

A continuación se muestran ejemplos de tiempos de reproducción típicos para sonido estéreo de alta calidad, sonido surround de alta calidad y sonido estéreo de calidad CD.

Tiempo de reproducción

Canales de audio Configuración

Capa simple Capa doble

2 canales 192kHz, 24bits 120 mins 215 mins

6 canales 96kHz, 24bits 86 mins 156 mins

2 canales 44.1kHz, 16 bits 13 hrs 23.6 hrs

3.9.6. TABLA COMPARATIVA DE SISTEMAS DE AUDIO DIGITAL

CD HDCD SACD DVD-Audio

Codificación PCM PCM PDM (Basado en DSD) PCM

Cuantificación 16 bits 16 bits 1 bit 12 / 16 / 20 ó 24 bits

Capacidad 650Mb 650Mb 1,9Gb – Monocapa 3,9Gb – Bicapa 2,6Gb - Híbrido

4,7Gb – Monocapa8,5Gb – Bicapa 17Gb – Bicapa de Doble Cara

Canales 2 (estéreo) 2 (estéreo) Hasta 6 Hasta 6

Page 51: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 51/65

Respuesta en Frecuencia 5 - 20KHz 5 -22KHz 0 -100KHz 0 - 96KHz (max)

Dinámica 96dB 120dB 120 dB 144dB

Frecuencia de Muestreo (estéreo) 44,1KHz 44,1KHz 2.882,4KHz

44,1 / 88,2 / 176,4KHz ó 48 / 96 / 192KHz

Frecuencia de Muestreo (multicanal) no disponible no disponible 2.882,4KHz 44,1 / 88,2KHz ó

48 / 96KHz

Velocidad de Transferencia de Datos 1,4Mbps 1,4Mbps 2,8Mbps Variable hasta 9,6

Mbps

3.10. Sonido en Internet

Anteriormente era común ver páginas electrónicas sin animación ni audio, pero hoy en día es común visualizar una pagina que tenga una animación o se escuche un sonido; esta "MULTIMEDIAMANÍA" en INTERNET ha obligado tanto a los usuarios como a los diseñadores de páginas a estar al tanto en los diferentes métodos de incrustación de audio en las páginas Web, así como las novedades de software de grabación y/o reproducción. Esta revolución ha hecho que aparezcan aplicaciones de propósito específico; por ejemplo, los reproductores de audio en tiempo real, plugins de audio/video, e incluso el mismo lenguaje de Java, cuyo uso facilita la convergencia de multimedia en INTERNET.

Por ejemplo, si usted busca en INTERNET información acerca de escalas de jazz o de blues notará la gran diferencia entre una página que contenga tan solo información escrita ó gráfica de las escalas y otra que además incorpora un icono que al seleccionarse permite escuchar la escala referida. Las ventajas y el grado de interacción aumenta cuando se encuentra páginas en donde el audio es incorporado en tiempo real lo que permite interactuar con otras personas e intercambiar estudios de música.

3.10.1. Estrategias de uso del sonido en páginas web Al entrar a una página WWW que contenga audio pueden presentarse las siguientes opciones:

• Que el audio se active automáticamente al momento de tener acceso a la página. Muchas

páginas activan automáticamente un archivo de audio en el momento que el usuario la consulte, con la finalidad de proporcionarle un ambiente agradable o comunicar un mensaje que hace referencia a algún suceso que la persona puede esperar.

• Que el audio se active mediante la selección de un icono. Es la opción más común, ya que el transportar un archivo de audio desde una PC a otra además de ocupar espacio de disco, ocupa un considerable tiempo, entonces, esta estrategia da la opción a la persona de elegir cuando desea escuchar el archivo de audio.

• Que el archivo de audio tenga que ser transportado desde la PC fuente hacia la PC del usuario. Esta ejecución generalmente es lenta y depende de la velocidad de la conexión, además requiere de un plugin apropiado (por ejemplo el reproductor establecido por Windows).

• Que el archivo de audio al que se hace referencia sea un archivo que pueda ser reproducido en tiempo real. Esta clase de archivos a diferencia de los mencionados con anterioridad, son reproducidos casi al instante en que se llaman, requieren aplicaciones que se obtienen en INTERNET y generalmente son freeware.

Page 52: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 52/65

En la tabla siguiente se analizan las ventajas y desventajas que para el usuario representan estas

opciones; ya que serán de gran ayuda para seleccionar la forma más conveniente de incorporar el audio en las páginas Web.

TABLA COMPARATIVA

Ventajas Desventajas

a).- Al abrir

la página

• Presentación audible mientras el usuario visualiza la página

• La calidad del sonido no se pierde, se reproducen como fueron creados

• Ocupan tiempo antes de presentar la página, esto pueden desesperar al usuario. • Ocupan espacio de disco duro. • Puede ser que el archivo sea de un formato que el visualizador no pueda reproducir

1.- Archivos transportables

b) - A elección

• La pagina no se vuelve lenta

• El usuario puede saber si cuenta con el software necesario para la reproducción

• Dan la opción al usuario de elegir el archivo que desea escuchar cuando el desee

• La calidad del sonido no se pierde, se reproducen como fueron creados

• El usuario tiene que esperar a que el archivo sea transportado en su totalidad, esto implica tiempo

a).- Al abrir la página

• La página no se vuelve lenta y casi es visualizada en el momento en que se escucha el audio

• Puede que no se cuente con el software necesario para la reproducción, cosa que se soluciona fácilmente ya que la mayoría de los reproductores son gratuitos y se encuentran con facilidad en la Web

• La calidad del sonido varía según el propósito, y la velocidad de la red

2.- Archivos en tiempo real

b)- A elección

• Presentan las ventajas del punto 1.b más aparte elimina la desventaja de dicho punto, es decir, el archivo no ocupa ni espacio en el disco duro y la reproducción es casi instantánea

• Algunos reproductores tienen la opción de adelantar - regresar o detener en el momento que se desee

• Puede que no se cuente con el software necesario para la reproducción, cosa que se soluciona fácilmente ya que la mayoría de los reproductores son gratuitos y se encuentran con facilidad en la Web • La calidad del sonido varía según el propósito, y la velocidad de la red

Page 53: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 53/65

3.10.2. Grabación de sonidos para páginas web La forma de grabar un archivo para ser incorporado en la Web depende tanto del hardware como

del software disponible, así como el contenido del mismo. Lógicamente es necesario que la PC donde se va a realizar la grabación posea una tarjeta de sonido cuyos requerimiento dependen de lo que se desea grabar, por ejemplo, si desea grabar archivos MIDI’s debe tener el llamado MIDI interface. Existen diferentes software que pueden ayudarle, se recomienda uno de excelente calidad y que esta disponible como shareware, el GoldWave; este programa lo puede conseguir en diferentes páginas de la Web.

Una de las recomendaciones al grabar un sonido que va ha ser incorporado en la Web y que no va a

ser de tiempo real son las siguientes:

• Realizarlo en el formato preferido. • Que no ocupe mucho espacio, procure que sean cortos ya que entre mas largos ocupan una

cantidad de tiempo para ser transportados, cosa que puede frustrar al usuario. • Si va a incluir solo música, realice una grabación en formato MIDI, o bien busque en la Web

alguno de ellos ya que existen una infinidad de archivos disponibles. La grabación de archivos en tiempo real depende del encoder que esté utilizando, la mayoría de ellos

realiza sólo conversión de un archivo .wav al formato específico.

3.10.3. Ejemplos de inserción de sonido en web

Comando en HTML <EMBED>: Este comando delimita un cuadro que permite la inserción de objetos directamente en la

página HTML. Los objetos incluidos son manejados por aplicaciones externas a la página, algunas aplicaciones adicionales: WebFX, Paper Software para ver dos mundos VRML (Virtual Reality Modeling Language), Adobe Acrobat para documentos PDF,y macromedia directo para multimedia, en nuestro caso, nos referiremos a aplicaciones de audio exclusivamente.

Atributos SCR. Localización del archivo ALIGN. Alinea el objeto en la página (top, middle, bottom, baseline) HEIGHT. Altura del objeto WIDTH. Ancho del objeto Autostart. Permite decidir la ejecución automática o manual. Ejemplo de uso del formato del comando: <EMBED SRC="BLUES.MID" height="60" width="144" autostart="true" > SCR declara que el archivo de audio que se va a ejecutar se llama BLUES.MID y se encuentra en el

directorio junto con el archivo HTML o dentro de la trayectoria de búsqueda (path) . HEIGHT y WIDTH dan la dimensión del cuadro (objeto,frame), si se desea que no sea visible el

cuadro asigne el valor de cero tanto al height como al width. AUTOSTART ="TRUE". Indica que al consultar la página, automáticamente abre la aplicación y

ejecuta, el archivo mencionado, si se omite la condición autostart por defecto asume el valor de "FALSE"

Page 54: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 54/65

Microsoft Word/Frontpage Microsoft Word/Frontpage permite interactuar con la Web, editar y diseñar páginas Web. En este

caso para agregar sonido utilice la opción INSERTAR, SONIDO DE FONDO o bien INSERTAR, OBJETO, ARCHIVO DE SONIDO.

Macromedia Dreamweaver Para insertar un archivo de audio en un documento tienes que dirigirte al menú Insertar, Medía,

opción Plug-in. En Dreamweaver no se mostrarán los controles de audio. Todos los archivos que son insertados como plug-in aparecen representadas dentro de Dreamweaver por una imagen. En el inspector de propiedades pueden establecerse la altura y la anchura con la que se mostrarán los controles de audio, medíante Al y An.

En el caso de no especificar ningún tamaño, se mostrará el tamaño por defecto de los controles, como

ocurre en el ejemplo de arriba. Si lo que se desea es que se escuche el sonido en la página, pero que no se muestren los controles de audio, los campos Al y An deben valer cero.

Los sonidos se reproducen automáticamente al cargarse la página, y se reproducen solamente una

vez. Estos valores no pueden cambiarse a través del inspector de propiedades, pero sí a través del código. Por ejemplo, el archivo anterior aparecía en el código como <embed

src="varios/audio.MID"></embed>. Pero para que no se reprodujera automáticamente se ha añadido autostart="false", y para que se reprodujera continuamente se ha añadido loop="true".

La línea de código del archivo de audio a quedado del siguiente modo: <embed src="varios/audio.MID" autostart="false" loop="true"></embed> Para poder hacer que el audio pueda activarse y desactivarse cuando no se muestran los controles, es

necesario insertar una serie de comportamientos que se encarguen de esa tarea. Si quieres poner musica de fondo en una página web, sin que aparezcan los controles de audio,

puedes escribir este código directamente en la vista Código. <bgsound src="cancion1.wav" loop="-1"> Insértalo despues de la etiqueta </title> Con el parámetro loop puedes decidir cuantas veces quieres

que se reproduzca, 1, 2, 3 ... (con -1 se reproduce de modo continuo).

3.10.4. Streaming La tecnología de Streaming ha cambiado la forma de ver la web, de una perspectiva estática basada

en texto y gráficos a una experiencia multimedia poblada de sonidos y vídeos. Esta tecnología tiende a convertirse en un estándar de distribución y difusión de todo tipo de medios, incluyendo televisión, radio y cine. El bajo coste, conveniencia, alcance, y simplicidad técnica de usar un estándar de comunicaciones globales hace irresistible la transmisión web tanto a corporaciones como a individuos. El streaming comprime en primer lugar un fichero de audio digital y lo trocea en pequeños paquetes, que son enviados, uno tras otro, a través de Internet. Cuando los paquetes llegan al usuario destinatario, se descomprimen y se unen de manera que puedan ser reproducidos por el sistema. Para mantener la continuidad de la reproducción, los paquetes se guardan en un buffer de forma que se reciben un número de ellos antes de comenzar la reproducción. Mientras se reproducen los paquetes almacenados en los búferes o precargados, se están descargando o encolando para ser reproducidos. Sin embargo, si el flujo de paquetes es lento debido a una congestión de red, puede ocurrir que no haya nada para reproducir.

Page 55: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 55/65

Protocolos de streaming El gran cambio que permitió la revolución del streaming fue la adopción del protozoo UDP (User

Datagram Protocol) y las nuevas técnicas de codificación que comprimían ficheros de audio en minúsculos paquetes de datos. UDP posibilitó el streaming al transmitir los datos de manera más eficiente que los protocolos anteriores del servidor al cliente. Esta transmisión ha ganado en eficiencia con el desarrollo de protocolos más recientes como el RealTime Streaming Protocol (RTSP). UDP y RTSP son ideales para la transmisión de audio puesto que su prioridad es el flujo continuo más que la seguridad de la transmisión. Cuando se pierde un paquete UDP de audio, el servidor sigue enviando información en vez de detenerse, con lo que no se suele apreciar gran pérdida en el oyente en condiciones normales.

Algunas tecnologías de streaming como RealAudio o Windows Media usa servidores dedicados que soportan la transmisiones UDP y RTSP. Otros formatos tales como Shockwave, Flash, MIDI, y QuickTime son diseñados para emitir a partir de un servidor web HTTP estándar. Mientras estos formatos son más baratos y por lo general más sencillos de usar al no requerir la instalación de un servidor nuevo, no se suelen utilizar en emisiones profesionales que requieren dar servicio a miles de oyentes simultáneamente.

Compresión con pérdida Aparte de los avances en los protocolos de transmisión UDP y RTSP, el streaming no sería posible

sin la rápida innovación en algoritmos de codificación y codecs que (des)compriman datos de audio y vídeo. Por ejemplo, un minuto de audio en calidad CD estéreo requiere unos 10MB. Además, existen limitaciones en el ancho de banda de comunicaciones. Para emitir usando un ancho de banda limitado, el audio ha de ser comprimido y optimizado con codecs. En general, los esquemas de compresión se pueden clasificar como “con pérdida” y “sin pérdida”. Los esquemas de compresión con pérdida reducen el tamaño de los ficheros descartando algunos de los datos producidos durante la codificación previa al envío por internet. En audio, se descartan las frecuencias por encima y por debajo del espectro e intenta localizar y eliminar datos de audio innecesarios. Suele reducir el tamaño en un ratio 10:1. La voz humana suele estar en el rango de frecuencias 1000Hz-4000Hz, aunque debido a las propiedades del sonido suele extenderse hasta 7000Hz para evitar perder claridad y que el sonido suene natural. Algunas voces y sonidos pueden alcanzar mayores rangos de frecuencias, por lo que pueden perderse parcial o totalmente.

Compresión sin pérdida:

La compresión sin pérdida divide los datos en paquetes de información más pequeños sin descartar

datos permanentemente, sino que construye un “mapa” con el cual el codec puede reconstruir el fichero original. Se obtiene mejor calidad de audio pero peor ratio de compresión. El códec con pérdidas tiene reglas generales para reconstruir el mensaje, básicamente añadir vocales y espacios para formar palabras en un lenguaje humano. En algunas ocasiones puede existir más de una posibilidad para una vocal o para determinar la separación entre palabras. Los códecs sin pérdida reconstruyen el mensaje perfectamente al disponer de un conjunto de reglas mucho más sofisticado. Son difíciles y caros de desarrollar, y requieren gran poder computacional, y no se consigue ahorrar tanto espacio como los métodos con pérdida, por lo que en muchas ocasiones es más rentable usar compresión con pérdida.

Formato de Streaming Existen actualmente más de una docena de formatos de streaming para audio en la Web, desde lo

más usados como RealNetworks' RealAudio, streaming MP3, Macromedia Flash y Director Shockwave, Microsoft Windows Media, y Apple's QuickTime, a formatos más recientes que sincronizan sonidos con eventos en una página web como RealMedia G2 con SMIL y Beatnik's Rich Music Format (RMF). También podemos incluir formatos tales como Liquid Audio, MP3, MIDI, WAV, y AU. Nos centraremos en los no tratados hasta el momento.

Page 56: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 56/65

RealMedia/RealAudio RealMedia es posiblemente el formato de streaming más popular en la Web. Su popularidad se debe

en gran medida al hecho de que fue la primera tecnología de streaming, pero también al esfuerzo de RealNetworks por conseguir una tecnología fácil de usar, que de soporte a las nuevas tecnologías multimedia y funcione tanto bajo plataformas Windows como UNIX. Es el formato preferido por los profesionales que buscan controles avanzados para servir y gestionar grandes cantidades de flujos de audio. Y es problable que atraiga también a los desarrolladores de Web que usen el sistema RealSystem G2 y SMIL para sincronizar presentaciones multimedia a través de la red. La mayor ventaja de G2 es su capacidad para simultanear el envío de múltiples tipos de medios como ficheros separados en vez de un solo fichero RealMedia, lo cual simplifica la actualización de contenidos, puesto que se puede simplemente modificar uno de los elementos de la presentación. Esta tecnología permite que cada usuario reciba la mejor calidad de sonido a la velocidad que le permita su conexión, detecta y compensa pérdida de paquetes manteniendo la reproducción continua, emisiones multicast, etc. Real Media espera la petición de un oyente para comenzar el streaming de los datos, lo cual facilita que se envíe al cliente paquetes del tamaño adecuado a su conexión, pero esto también hace que haya un tiempo de espera entre la petición y la recepción del servicio, un tiempo que se nota más en sonidos interactivos relacionados con una página web como transiciones entre páginas. Por ello, podemos decir que RealMedia no es muy adecuado para presentaciones con efectos de sonido interactivos y bucles de sonido. A pesar de las mejoras con el sistema G2, queda por detrás de Flash y Shockwave en este apartado.

Windows Media Technologies (Netshow) Microsoft Windows Media Technologies para NT/Windows 2000 incluye una suite de herramientas

de autor y servicios de streaming para emisión de audio, vídeo, animación y otros contenidos multimedia a través de Internet. Las presentaciones Windows Media se reproducen con el Windows Media Player, que reproduce la mayor parte de tipos de streams incluyendo el Advanced Streaming Format (ASF) de Microsoft, MPEG, WAV, AVI, QuickTime, y RealAudio/RealVideo. Este reproductor está muy difundido al distribuirse conjuntamente a Windows. Los servicios de Windows Media ofrecen las siguientes ventajas:

⇒ Permite una mejor reproducción en máquinas Windows. Para conseguir una mejor

reproducción de contenidos multimedia a través de la Web y evitar los problemas relacionados con la descarga de plug-ins, Microsoft tiende a integrar Windows Media Player e Internet Explorer en el sistema operativo.

⇒ La integración de Windows Media Server con Microsoft Site Server permite las modalidades

de pago por visión y pago por minuto, análisis de uso e inserción personalizada de anuncios. ⇒ Integración de herramientas para seguir el comportamiento con Windows NT Event Viewer

and Performance Monitor, facilitando a los administradores del sistema la gestión del Windows Media Server.

⇒ Para desarrolladores de contenido multimedia, Microsoft proporciona herramientas de autor

útiles.

Sin embargo, presenta desventajas con respecto a RealMedia: ⇒ Se ejecuta sobre Windows NT/2000, aunque existen muchas quejas respecto de la estabilidad

de Windows NT para aplicaciones como la transmisión en directo durante 24 horas. ⇒ No soporta Macromedia Flash o el estánda Synchronized Multimedia Integration Language

(SMIL). También existen algunas diferencias clave en la forma en que Windows Media y Real Media codifican y emiten contenido multimedia. Con RealMedia podemos crear presentaciones multimedia usando el

Page 57: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 57/65

lenguaje SMIL para enlazar varios medios, que son codificados como ficheros independientes: RealAudio, RealVideo, RealPix, RealText, QuickTime, MPEG, etc. El RealServer distribuye la presentación como ficheros separados que unirá SMIL.

Windows Media incluye todos los medios en un fichero ASF. De acuerdo con Microsoft, cualquier

objeto se puede colocar es un stream de datos ASF, incluyendo audio, vídeo, scripts, controles Actives y documentos HTML con T.A.G. Autor (herramienta de autor de Microsoft). Este enfoque, similar a Flash y Shockwave, es menos flexible en términos de actualización y servicio de contenidos, pero ofrece una reproducción más estable

QuickTime Apple Computer QuickTime permite la transmisión y reproducción de vídeo, audio, animación,

imágenes 3-D y panorámicas para sistemas Mac y Windows. La tecnología QuickTime 4 permite las siguientes mejoras:

⇒ Arquitectura de componentes de códec más pequeños, de forma que se reduce la descarga inicial a 1’7 MB. Los códecs adicionales se descargan de forma transparente en segundo plano cuando son necesarios.

⇒ Soporte para más formatos incluyendo MP3, Flash, MIDI y casi cualquier formato de audio, vídeo, animación, 3-D y realidad virtual.

⇒ Mejora de códecs. ⇒ RTSP streaming cuando se usa conjuntamente con el Mac OS X Server.

Una de las claves del éxito de la tecnología QuickTime y plug-ins es que puede manejar todos los

tipos de medios, lo cual es una ventaja para aquellos que quieren llegar a un gran número de usuarios y el menor número de plug-ins posible. Además de la reproducción de contenidos MP3, QuickTime soporta pistas Timecode así como MIDI, incluyendo las extensiones Roland Sound Canvas y GS. También soporta los estándares para streaming web como HTTP, RTP, y RTSP. Incorpora posibilidades para vídeo digital, incluyendo MiniDV, DVCPro, DVCam, AVI, AVR, MPEG-1 y OpenDML.

Flash and Director Shockwave

Macromedia Flash es la solución para multimedia web de gran escala y alto impacto con efectos de sonido y bucles. Flash codifica el sonido en formato MP3, que permite realizar streaming de manera eficiente y con gran calidad de audio. Flash está altamente integrado con RealMedia. Se puede combinar una animación Flash con una banda sonora RealAudio usando las herramientas RealDeveloper para codificar una presentación RealFlash. RealFlash permite la reproducción lineal haciendo uso de la arquitectura RealMedia, aprovechando las posibilidades de negociación de ancho de banda de RealMedia para el streaming de audio y vídeo y los gráficos vectoriales de Flash para animaciones interactivas.

Director Shockwave es el formato más popular para realizar presentaciones interactivas tipo CD-ROM y juegos que utiliza el potente lenguaje de scripting Lingo de Macromedia. Fue diseñado originalmente para desarrollos de contenidos interactivos para CD-ROM, Director se ha convertido para producir presentaciones Web Shockwave altamente interactivas.

Aunque Macromedia integra la tecnología vectorial de Flash en Director y algunas características

avanzadas de programación de Director en Flash, Flash no incorpora Lingo para preservar la facilidad de uso y el tamaño compacto de los plug-ins. Lingo es un lenguaje de scripting que permite crear y personalizar contenidos interactivos tales como juegos complejos de estrategia, vídeos musicales y herramientas educativas.

Beatnik Rich Music Format (RMF) Beatnik Rich Music Format (RMF) es un formato basado en HTML que usa lenguajes comunes de

scripting como Javascript para sincronizar sofisticadas bandas sonoras interactivas que combinan sonidos MIDI y pequeñas muestras de audio al contenido web. Permite crear bandas sonoras y composiciones

Page 58: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 58/65

que cambian con las acciones del usuario. Presenta una serie de ventajas respecto de Shockwave y Flash. Por un lado, usa MIDI, por lo que con un mismo tamaño de fichero (15-30KB), mientras que en Flash dispondríamos de un bucle de sonido de 2 segundos, tendríamos varios minutos MIDI. Beatnik será posiblemente más estable y fiable cuando se refine la tecnología y más herramientas de autor incluyan el soporte para el Javascript incorporado.

Liquid Audio Liquid Audio proporciona una solución completa para transmisión segura de música a través de

Internet. Más que una formato para añadir audio a una página web es una utilidad profesional para venta y distribución de música. Consiste de cuatro productos base: Liquifier Pro, Liquid Server, Liquid Player, y Liquid Express. Cada componente del sistema Liquid Music ha sido diseñado para la distribución electrónica de música:

Liquifier Pro : Es un codificador que permite preparar y publicar música con calidad CD y protección anticopia para venta y distribución vía Internet. Incluye funciones DSP tales como ecualización paramétrica en 4 bandas o procesamiento de la dinámica, y ofrece la posibilidad de incluir letras y créditos en un único fichero de audio. Lo que lo distingue de otros codificadores es su huella digital y protección antipiratería. Liquid Server: Permite la publicación y alojamiento de Liquid Tracks. Incluye una base de datos SQL (Informix, Oracle). Su diseño flexible permite enviar dinámicamente información promocional como precios, fechas de giras, descuentos, etc. Liquid Player : Permite la previsualización y compra de Liquid Tracks en plataformas Mac o Windows a través de Internet. Permite ver simultáneamente con la reproducción gráficos de álbumes, letras o promociones, así como grabar un CD audio normal para reproducir en cualquier lector. Liquid Express : Diseñado especialmente para profesionales del audio en cine, radio, televisión, publicidad e industria musical que permite que en tiempo real y de manera segura se previsualice, apruebe, distribuya y se archive audio.

Liquid Audio también soporta distribución MP3 usando su tecnología de protección, que añade información de copyright y seguridad a los ficheros distribuidos por Internet.

Elección del formato adecuado

Cada formato presenta sus ventajas e inconvenientes dependiendo de los requisitos del proyecto. No

hay ningún formato ideal para todas las situaciones. Para la elección del mejor formato, deberemos identificar nuestras necesidades y entonces seleccionar el formato que mejor se ajusta a ellas. Hay grandes diferencias en los requisitos de servidor para transmitir música en calidad CD a una audiencia limitada frente a la transmisión a gran escala con una gran audiencia de diversos anchos de banda. Asimismo, existen diferencias relacionadas con el tipo de contenido a difundir, bien un juego o demo o un archivo de audio. RealAudio, MP3, y Flash son nombres familiares pero puede ser que alguno de los formatos alternativos como Windows Media, RMF, o Liquid Audio se adapten mejor. Veamos a continuación los factores que determinarán la idoneidad de los formatos.

Diseño de sonidos interactivos :En primer lugar debemos determinar si necesitamos un formato que

soporte presentaciones interactivas o uno que reproduzca audio y vídeo de manera continua. Muchos formato como Flash, Shockwave, y Beatnik están diseñados para contenidos interactivos como juegos, material educativo, demos y elementos promocionales donde los efectos de sonido son esenciales. Formatos como RealMedia, MP3, Windows Media, y QuickTime están pensados para la reproducción continua de los medios y tienen muy limitadas las capacidades para soportar interactividad.

Compatibilidad del navegador: Si los usuarios no disponen del plug-in o la tecnología para acceder a

los contenidos se complica nuestra tarea de difusión.

Page 59: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 59/65

Coste: Para añadir streaming a nuestro sitio web, necesitaremos los siguientes elementos: a) software para codificar ficheros de audio en el formato de distribución; b) software y hardware servidor dedicado a la difusión de los contenidos; c) ancho de banda para la difusión;

Curva de aprendizaje y documentación: RealMedia, por ejemplo, tiene mucha documentación y

soporte para el software, incluyendo herramientas para la configuración automática del servidor. Por el contrario, otros formatos tales como MP3 y MIDI son únicamente estándares que no poseen una única fuente de documentación y soporte.

Escala de la distribución: No se tienen las mismas necesidades si queremos difundir el balance anual

de la compañía a los representantes de ventas que intentar convertirse en la emisora más popular de Internet. La diferencia en la infraestructura necesaria para transmitir a unos pocos cientos de oyentes por día frente a decenas de miles es como la noche y el día. Asimismo, la curva de aprendizaje no será lo mismo si usamos el Basic RealServer gratuito o enviamos ficheros de audio usando nuestro servidor http que si vamos a realizar emisiones profesionales que requieren configuraciones avanzadas y logística complicada.

Fidelidad y compresión de audio La fidelidad queda determinada por la calidad del códec usado para la compresión y descompresión

de audio. Los mejores algoritmos de compresión, como MP3, obtiene una mejor fidelidad de audio para una misma velocidad de conexión. También depende del tamaño del fichero y los parámetros usados al codificar el archivo origen.

Rendimiento para anchos de banda reducidos: Algunos formatos, como RealMedia son muy buenos

en cuanto a compatibilidad de navegadores y ancho de banda. Otros formatos como Shockwave y Flash rinden mejor con banda ancha y apenas si ofrecen posibilidad de negociación de velocidad.

Existen otros dos factores a tener en cuenta al elegir un formato para clientes lentos: la habilidad

inherente al formato de proporcionar contenido convincente con ficheros pequeños y la tecnología del servidor para gestionar la distribución de medios con restricciones de velocidad. Beatnik empaqueta mucho contenido en un tamaño bastante reducido al usar MIDI, lo cual le da cierta ventaja frente a Shockwave o RealMedia en cuanto a ancho de banda. Por otra parte, RealMedia proporciona mejor soporte de servidor para asegurar la distribución exitosa de los contenidos.

Rendimiento del servidor y calidad del software: Aquello que necesiten difundir contenidos a miles

de oyentes de forma simultánea necesitarán un formato que proporcione facilidades y herramientas de servidor potentes. Si queremos emitir eventos en directo, necesitaremos una codificación en tiempo real y un sistema de streaming que funcione en un servidor web dedicado. Las tecnologías líderes para emisiones de gran escala son RealMedia y WindowsMedia, seguidas por SHOUTcast (MP3) y QuickTime. El RealServer y el Windows Media Server proporcionan negociación de ancho de banda que asegura la reproducción continua para el oyente. Por último, las transmisiones de gran escala requieren múltiples sistemas, servidores y conexiones de gran ancho de banda. Por ello muchas compañías subcontratan la distribución de contenidos a empresas especializadas.

3.11. Herramientas para el tratamiento de audio

3.11.1. Editores Wavelab Wavelab es posiblemente el editor de audio más importante del mercado para PCs. A continuación enumeramos algunas de las características principales de esta aplicación.

Page 60: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 60/65

• Procesamiento en tiempo real con 32 bits de precisión. • Soporte para ficheros de 8, 16, 20, 24 y 32 bits hasta 192kHz. • Soporte para formatos wav, aiff, au, ensoniq paris 24 bit, sound designer II, mp3, sun/java, etc. • Almacenamiento en segundo plano. • Base de datos profesional para archivos de audio. • Comparación y análisis de ficheros de audio. • Optimizado especialmente para Pentium IV, III, II y MMX. • Aplicaciones de telefonía. • Análisis en tiempo real de señales de audio: Nivel/Pan, Fase, Analizador de espectro de 60

bandas, FFT-Meter, Onda, BitMeter. • Compresión multibanda. • Atenuador de voces. • Externalizador (simulador de altavoces para auriculares) • Efectos de reverberación, eco o coro. • Procesamiento de clips con hasta 10 efectos virtuales. • Solapamiento inteligente para evitar la cancelación de fase. • División de archivos de audio atendiendo a varios criterios. • FFT tri-dimensional

SoundForge SoundForge es un editor digital de audio que incluye un potente conjunto de procesos, herramientas y efectos de audio para grabar y manipular audio. Permite editar audio, grabar audio, procesar efectos y codificar contenidos. Entre las características de SoundForge podemos destacar:

• Edición rápida no destructiva de audio • Multitarea en segundo plano. • Efectos de audio: Más de 35 efectos de audio, incluyendo plug-ins para DirectX Audio. Incluye 3

EQs, modulación en amplitud, coro, retraso/eco, distorsión, dinámica, compresión/expansión de tiempo, flange, pitch bend, reverberación, etc.

• Zoom hasta 24:1, lo que permite una edición más precisa. • Soporte para ficheros de 32 y 64 bits y 192 kHz. • Soporta un amplio rango de formatos de audio, incluyendo 15 formatos para importar y 17 para

exportar, incluyendo WAV, Windows Media Audio/vides, MPEG-1/2, RealAudio y MP3.

Page 61: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 61/65

• Permite la creación de masters de audio de alta calidad a través de las herramientas WaveHammer, que incluyen un compresor y maximizador de volumen, que permite limitar el rango dinámico del audio.

• Posee una herramienta de análisis de espectro para estudiar las formas de las ondas por frecuencia y ayuda a identificar problemas de ruido. Realiza un análisis FFT preciso y muestra los datos obtenidos en dos formatos gráficos. Se puede usar el gráfico del especto para monitorizar la entrada o reproducción en tiempo real.

Audacity

Audacity es un editor de audio gratuito. Puedes grabar sonidos, reproducir sonidos, importar y exportar archivos WAV, AIFF, y MP3, y más. Utilízalo para editar tus sonidos usando Cortar, Copiar y Pegar (con ilimitados Deshacer), mezclar pistas, o aplicar efectos a tus grabaciones. También posee un editor de envolvente de amplitud propio, un modo espectograma ajustable a medida y una ventana de análisis de frecuencia para aplicaciones de análisis de audio. Efectos propios incluidos Bass Bost (Realzador de Graves), Wahwah, y Removedor de Ruido, y también soporta efectos plug-in VST.

Audacity versión 1.0.0 es la versión más estable que hemos lanzado hasta ahora, y mucha gente ha

encontrado que sus capacidades únicas y su interface intuitiva hacen que su uso sea más agradable que el de otros editores de audio, incluyendo editores comerciales.

Los desarrolladores de Audacity hemos lanzado también la versión 1.1.0, la cual es un anticipo con

calidad Beta de las nuevas cosas en las que estamos trabajando activamente. Contiene realmente muchas nuevas funciones, pero no es una versión tan pulida y estable.

Audacity está siendo desarrollado por un grupo de voluntarios bajo el modelo de código fuente

abierto (open-source). Está escrito en C y C++, utilizando el kit de herramientas multi-plataforma wxWindows. Todo el código fuente del programa está disponible bajo la licencia GNU General Public

Page 62: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 62/65

License, la cual esencialmente permite a cualquiera modificar el código fuente mientras publique los cambios

Goldwave Goldwave es un editor profesional de audio digital. Permite realizar las siguientes operaciones:

• Reproducción, edición, análisis y mezcla de audio • Aplicación de efectos especiales. • Remasterización digital y restauración de viejas grabaciones con reducción de ruido y uso de

filtros. • Grabación audio a partir de casetes, vinilos, radio, etc a través de la línea de entrada, por dictado

usando un micrófono. • Copiar digitalmente pistas de audio CD y salvarlas en formato MP3, WMA o Vorbis. • Convertir ficheros a/desde diferentes formatos como wav, wma, mp3, ogg, aiff, au, vox. • Edición de múltiples ficheros en una sesión. • Calidad de sonido: 24 bits, 192kHz • Edición rápida no destructiva • Visualización en tiempo real: barra, onda, espectrograma, espectro, etc.

Page 63: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 63/65

3.11.2. Compresión/Conversión RazorLame RazorLame es una GUI para LAME, un codificador MP3 muy rápido que produce ficheros de alta calidad y tiene características avanzadas como VBR y Joint Stereo, además de ser de código abierto. LAME es una herramienta educativa usada para aprender a codificar en MP3. El objetivo del proyecto LAME es usar el modelo de código abierto para mejorar la acústica, reducción de ruido y velocidad de MP3. Entre las características de LAME podemos destacar:

• Codificación MPEG 1,2 y 2.5 layer III • CBR, VBR y ABR • El codificador puede ser compilado como una librería compartida (Linux/UNIX), DLL ó códec

ACM (Windows). • Formato libre de codificación y decodificación. • GPSYCHO: Modelo GLP para la acústica y la reducción de ruido. • Calidad comparable a los codificadores FhG.

Page 64: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 64/65

CDEx Esta herramienta permite hacer diversas operaciones con audio, como convertir el contenido de un CD al formato MP3; WAV u OGG. Entre las características de este programa GPL podemos destacar:

• Reproducción de audio • Creación automática de listas de reproducción PLS y M3U • Corrección avanzada del jitter • Soporte para diversos formatos (WAV, MP3, OGG, VQF, APE, etc) • Soporte para tags ID3 V1 y V2. • Normalización de ficheros de audio • Soporte para CDDB, grabación desde línea de entrada analógica y transcoding de ficheros de

audio comprimidos

Page 65: Tema 3.- - Presentación - Universidad de Murciadis.um.es/~jfernand/0405/smig/tema3.pdf · Tema 3.- Audio. Sistemas ... 10 3.4.4. Altavoces ... sin embargo, se pueden descomponer

Tema 3.- Audio.

Sistemas Multimedia e Interacción Gráfica– Curso 2004/05 - 65/65

3.11.3. Streaming

SHOUTcast

SHOUTcast es una solución gratuita para la realización de streaming. Permite a cualquiera transmitir audio desde su PC a través de Internet. Se distribuye el audio en formato MP3. El sistema SHOUTcast puede distribuir audio en directo o por demanda. Asimismo, haciendo uso de los plug-ins correspondientes se puede transmitir también audio proveniente de un micrófono o la línea de entrada. El sistema está compuesto de tres componentes simples, que detallamos a continuación.

OYENTE: Los oyentes sintonizan emisiones SHOUTcast usando un reproductor compatible con streaming de audio MP3. Los reproductores recomendados son Winamp (Windows), Audion (Mac), XMMS (Linux) EMISOR: Los emisores necesitarán un servidor para realizar la transmisión. Dicho servidor puede ser propio o no. Para emitir, se hace uso de Winamp y de un Plug-in llamado SHOUTcast Source for Winamp para enviar el audio al servidor. Actualmente no se puede emitir desde Unix o Mac.

SERVIDOR: Se ejecuta en una máquina conectada a una red IP con gran ancho de banda, y es el responsable de recibir el audio de un emisor actualizar el directorio SHOUTcast con el nuevo contenido y enviar el audio a los oyentes. Está disponible para Windows 95/98/NT/2000, Linux glibc (intel) , FreeBSD 3.x (intel), FreeBSD 4.x (intel) , BSDi (intel) , Solaris 7 (SPARC).