Download pdf - Introducción al análisis de sonidos - Marcelo Araya ...marceloarayasalas.weebly.com/uploads/2/5/5/2/25524573/introduccion... · Análisis de Fourier • Por suerte! ... – Componentes

Introducción al análisis de

sonidos

Marcelo Araya-Salas

New Mexico State University

Taller análisis de vocalizaciones animales

en R

Modificado de Bradbury y Vehrencamp 2010

Grabación de sonidos

• Sonido: perturbación en la presión del

medio (aire, agua, etc)

• Cada región de presión mas alta que el

promedio ambiental es seguida por una de

presión mas baja

Grabación de sonidos

• El micrófono convierte la variación en

presión del sonido en una señal eléctrica

que asemeja la oscilación

Describir y comparar sonidos

• Oscilograma (waveform): gráfico de

presión vs tiempo. Es un descripción del

sonido en el dominio de tiempo.

• Como describir y comparar estas

señales?

Pre

sio

n

Tiempo

Pájaro

campana Oropendola

Tiempo

Oscilogramas simples

• La señal mas simple que puede ser grabada

es una onda sinusoidal sin cambios en

amplitud o frecuencia:

Mediciones en el dominio del

tiempo • Amplitud: la desviación máxima

(o promedio) con respecto al ruido

ambiental


tiempo • Amplitud: generalmente la escala es relativa

al ruido de fondo (dB = 20 log10 (Aobs/Aref))

• Frecuencia: ciclos por segundo (Hz) de la onda

(reciproco del tiempo de un ciclo =1/T)


tiempo

Mediciones en el dominio de

frecuencia

• Frecuencia se puede visualizar mejor en un

gráfico de densidad espectral

Dominio del tiempo Dominio de frecuencia

Ondas no sinusoidales

• Como se pueden describir?

• Modulación de frecuencia (1er gráfico)

• Modulación de amplitud (2do grafico)

Análisis de Fourier • Por suerte!

Cualquier onda continua puede ser

descompuesta en ondas sinusoidales puras

con frecuencia y amplitud (Análisis de

Fourier)

Los gráficos en el dominio de frecuencia

son MUY útiles para comparar sonidos!

• Aplicando la solución de Fourier:

Espectros de frecuencias

Am

pli

tud

Frecuencia Frecuencia

Análisis de Fourier

• Pero como analizar cantos mas complejos como este emberízido?

• Solución: dividir el canto en segmentos y crear espectros de frecuencia para cada segmento

Pre

ssu

re

Time

(Mover cursor para reproducir)


• Los espectros se juntan para mostrar como cambian las frecuencias en el tiempo

• El gráfico que resulta se conoce como espectrograma

Pre

ssu

re

Time

(Mover cursor para reproducir)


Ondas no-sinusoidales

• 3 tipos de desviaciones de una onda

sinusoidal. La mayoría de animales son una

combinaciones de estos 3 tipos:

Onda sinusoidal

Modulación de amplitud (AM)

Modulación de frecuencia (MF)

Señales periódicas no sinusoidales


Onda sinusoidal




Análisis de ondas no-sinusoidales

típicas • Amplitud de modulación (AM):

Am

pli

tud


Am

pli

tud

T f = 1/T Portadora



– 2 mediciones posibles:

• Frecuencia portadora (f)


Am

pli

tude

T f = 1/T

t w = 1/t

Frecuencia modulante

Portadora



– 2 mediciones posibles:

• Frecuencia portadora (f)

• Frecuencia modulante


f f–w f+w

Am

pli

tude

T f = 1/T

t w = 1/t

Frecuencia modulante

Portadora



– Espectro de frecuencia es 3 lineas: portadora

(f) y dos modulantes (f-w y f+w)


f f–w f+w


Onda sinusoidal





comunes • Modulación de frecuencia (MF)

Manteniendo la amplitud constante

Am

pli

tud


Fre

cuen

cia

Tiempo

Am

pli

tud


Fre

cuen

cia

Tiempo

T1

fmax= 1/T1




Am

pli

tud


Fre

cuen

cia

Tiempo

T1

fmax= 1/T1




T2

fmin= 1/T2

Am

pli

tud


Fre

cuen

cia

Tiempo

T1

fmax= 1/T1




T2

fmin= 1/T2 Portadora ( f ) = (fmax+ fmin) / 2

Am

pli

tud


Fre

cuen

cia

Tiempo

T1

fmax= 1/T1




T2


Frecuencia modulante, w

Am

pli

tud


Fre

cuen

cia

Tiempo

T1

fmax= 1/T1




T2


Frecuencia modulante, w

t w = 1/t

Am

pli

tud


T1


comunes

• Modulación de frecuencia (MF)

El espectro de frecuencia tiene la frecuencia portadora y bandas laterales (± nw ) al rededor

T2

t w = 1/t f

f–w f+w

f–2w

f–3w

f+2w

f+3w

Ondas no-sinusoidales comunes

Onda sinusoidal




• Señales periódicas no sinusoidales

– Cualquier forma de onda mientras q haya

periodicidad

Am

pli

tud



comunes


– Cualquier forma de onda mientras q haya

periodicidad

– Se mide el tiempo de repetición del período y

los periodos por tiempo (w)

Am

pli

tud



comunes

t w = 1/t


– El espectro de frecuencia contiene componentes

a w, 2w, 3w, etc.

– Componentes que son múltiplos de la de una

frecuencia son series harmónicas

Am

pli

tud



comunes

t w = 1/t 2w

w 3w 5w

4w 6w

7w


– La amplitud disminuye exponencialmente en

los harmónicos sucesivos (regla de Dirichlet)

– Salvo si la onda tiene simetría de media onda

Am

pli

tud



comunes

t w = 1/t 2w

w 3w 5w

4w 6w

7w





Am

pli

tud



comunes

t w = 1/t 2w

w 3w 5w

4w 6w

7w





Am

pli

tud



comunes

t w = 1/t





Am

pli

tud



comunes

t w = 1/t


– Cuando al simetría es de media onda solo se

producen los harmónicos impares

Am

pli

tud



comunes

t w = 1/t

w 3w 5w 7w


Otra excepción a la regla de Dirichlet ocurre

cuando hay “máximos múltiples”:


comunes

Am

pli

tud



Se puede medir la frecuencia fundamental de la

serie harmónica


comunes

t

w = 1/t

Am

pli

tud



Pero también se puede calcular el periodo entre

máximos múltiples


comunes

t

w = 1/t

Am

pli

tud


t

z = 1/t


El resultado es una serie harmónica basada en

la fundamental w. Cuando un harmónico esta

cerca de un múltiplo de z la amplitud es menor


comunes

t

w = 1/t

Am

pli

tud


15w w 10w 5w

Cimas Vallers

• Ondas compuestas

Mayoría de vocalizaciones animales son

combinaciones de AM, MF, y señales

periódicas no-sinusoidales (ondas compuestas)

Se pueden descomponer en frecuencias

portadoras y moduladas!


comunes

• Ondas compuestas

Cualquier combinación es posible

Portadora Modulación

Onda

modulante Resultado

MF

AM

MF

Análisis de vocalizaciones

animales

El principio de incertidumbre

• El análisis de Fourier necesita varios ciclos

para calcular las frecuencias de una señal

• Entre mas ciclos mayor precisión en el

calculo


• Si se analiza solo un segmento de tiempo

corto de tiempo la frecuencia va ser una

banda amplia

• Si el segmento es largo las frecuencias se

definen con mas precisión

Segmento medio

Am

pli

tud

e

Frequency

Segmento largo

Am

pli

tud

e

Frequency

Am

pli

tud

e

Frequency

Segmento corto


• Compromiso entre precisión en frecuencia

y precisión en tiempo:

f·t ≈ 1

Segmento medio

Am

pli

tud

e

Frequency

Segmento largo

Am

pli

tud

e

Frequency

Am

pli

tud

e

Frequency

Segmento corto

Construir espectrogramas

• Se divide el sonido en segmentos y se

calcula el espectro de frecuencia para cada

segmento.

Pre

sión

Tiempo

t


• Se divide el sonido en segmentos y se

calcula el espectro de frecuencia para cada

segmento.

Tiempo

t

Fre

cuen

cia


• Luego se usa un gradiente de colores para

representar la variación en amplitud entre

las diferentes frecuencias

Tiempo

t

Fre

cuen

cia


• El resultado es un grafico con frecuencia en

el eje y, tiempo en el eje x y amplitud en el

gradiente de colores

Tiempo

t

Fre

cuen

cia


• El resultado es un grafico con frecuencia en

el eje y, tiempo en el eje x y amplitud en el

gradiente de colores

Tiempo

t

Fre

cuen

cia

Resolución del espectrograma

• EL t (resolución en tiempo) es muy alta y

por tanto muy baja en frecuencia (f).

• EL f es de solo 5 Hz

Fre

cuen

cia

Tiempo


• Si se disminuye el t 4 veces el f aumenta

a 20Hz

• Esto mejora la resolución de las bandas de

frecuencia

Fre

cuen

cia

Tiempo


• Si se vuelve a disminuir el t 4 veces el f

aumenta a 80Hz

Fre

cuen

cia

Tiempo


• Si se disminuye una vez mas el t 4 veces

el f aumenta a 320 Hz

• El patrón temporal de los últimos elementos

se ve mas claro

Fre

cuen

cia

Tiempo



(1280 Hz)


se ve mas claro

Fre

cuen

cia

Tiempo



(1280 Hz)


se ve mas claro

Fre

cuen

cia

Tiempo


• Un nivel intermedio es el que resuelve

mejor el compromiso entre resolución en

frecuencia y resolución en tiempo

• Es necesario probar diferentes resoluciones!

Fre

cuen

cia

Tiempo


La resolución en frecuencia debe ser:

• Suficientemente baja para ver los

harmónicos

• Suficientemente alta para mostrar MF y MA

Fre

cuen

cia

Tiempo

Digital Sound Analysis

• At each sample point, the computer also

digitizes the amplitude value into one of N

equidistant categories. The number of

categories depends on how many “bits” are

used to store each value. N = 2number of bits

• Music CDs store 16 bits/sample and thus

divide the full amplitude range into 216 =

65,536 possible values.


• The higher the sampling rate and the higher

the bit depth, the more accurately the digital

recording captures the original sound.

• However, increasing sampling rate or bit

depth or both increases the size of the

digital file that must be stored.

• In stereo recording, two columns of

numbers must be stored, taking up even

more memory.


• Nyquist frequency: A digital recorder or

computer must be able to take at least 2

samples/cycle to be able to identify each

frequency.

• Thus, if you digitize your sounds at R

samples/sec, you will be unable to properly

capture any component with frequency

>R/2. This latter value is called the Nyquist

frequency.


• Aliasing: If you do not sample your sounds

at a high enough rate, any frequency in the

sounds that is higher than half the sampling

rate is aliased. This means you will see an

artifact in your spectrograms consisting of

an inverted version of what the sounds

should have looked like if you had sampled

at a sufficiently high rate. Not nice!


• Digital Bandwidths: In most computer

sound analysis programs, you do not set the

bandwidth f directly, but instead set the

segment duration, t.

• Instead of setting a time, you indicate t by

specifying the number of consecutive

sample points to be used for each frequency

spectrum in the spectrogram. This is often

called “frame size.”

Digital Sound Analysis • Windowing: If you cut a sound directly into

segments (a rectangular window) to make a

spectrogram, you introduce artifacts at the

beginning and end of each segment.

• This occurs because, with rectangular

windows, each segment begins with no

sound and is suddenly switched “on” and

suddenly “off.” The frequency spectrum of

sudden onsets and offsets must contain a

wide smear of frequencies.