Introducción al análisis de sonidos - Marcelo Araya...

Preview:

Citation preview

Introducción al análisis de

sonidos

Marcelo Araya-Salas

New Mexico State University

Taller análisis de vocalizaciones animales

en R

Modificado de Bradbury y Vehrencamp 2010

Grabación de sonidos

• Sonido: perturbación en la presión del

medio (aire, agua, etc)

• Cada región de presión mas alta que el

promedio ambiental es seguida por una de

presión mas baja

Grabación de sonidos

• El micrófono convierte la variación en

presión del sonido en una señal eléctrica

que asemeja la oscilación

Describir y comparar sonidos

• Oscilograma (waveform): gráfico de

presión vs tiempo. Es un descripción del

sonido en el dominio de tiempo.

• Como describir y comparar estas

señales?

Pre

sio

n

Tiempo

Pájaro

campana Oropendola

Tiempo

Oscilogramas simples

• La señal mas simple que puede ser grabada

es una onda sinusoidal sin cambios en

amplitud o frecuencia:

Mediciones en el dominio del

tiempo • Amplitud: la desviación máxima

(o promedio) con respecto al ruido

ambiental

Mediciones en el dominio del

tiempo • Amplitud: generalmente la escala es relativa

al ruido de fondo (dB = 20 log10 (Aobs/Aref))

• Frecuencia: ciclos por segundo (Hz) de la onda

(reciproco del tiempo de un ciclo =1/T)

Mediciones en el dominio del

tiempo

Mediciones en el dominio de

frecuencia

• Frecuencia se puede visualizar mejor en un

gráfico de densidad espectral

Dominio del tiempo Dominio de frecuencia

Ondas no sinusoidales

• Como se pueden describir?

• Modulación de frecuencia (1er gráfico)

• Modulación de amplitud (2do grafico)

Análisis de Fourier • Por suerte!

Cualquier onda continua puede ser

descompuesta en ondas sinusoidales puras

con frecuencia y amplitud (Análisis de

Fourier)

Los gráficos en el dominio de frecuencia

son MUY útiles para comparar sonidos!

• Aplicando la solución de Fourier:

Espectros de frecuencias

Am

pli

tud

Frecuencia Frecuencia

Análisis de Fourier

• Pero como analizar cantos mas complejos como este emberízido?

• Solución: dividir el canto en segmentos y crear espectros de frecuencia para cada segmento

Pre

ssu

re

Time

(Mover cursor para reproducir)

Análisis de Fourier

• Los espectros se juntan para mostrar como cambian las frecuencias en el tiempo

• El gráfico que resulta se conoce como espectrograma

Pre

ssu

re

Time

(Mover cursor para reproducir)

Análisis de Fourier

Ondas no-sinusoidales

• 3 tipos de desviaciones de una onda

sinusoidal. La mayoría de animales son una

combinaciones de estos 3 tipos:

Onda sinusoidal

Modulación de amplitud (AM)

Modulación de frecuencia (MF)

Señales periódicas no sinusoidales

Ondas no-sinusoidales

Onda sinusoidal

Modulación de amplitud (AM)

Modulación de frecuencia (MF)

Señales periódicas no sinusoidales

Análisis de ondas no-sinusoidales

típicas • Amplitud de modulación (AM):

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Am

pli

tud

T f = 1/T Portadora

Análisis de ondas no-sinusoidales

típicas • Amplitud de modulación (AM):

– 2 mediciones posibles:

• Frecuencia portadora (f)

Dominio del tiempo Dominio de frecuencia

Am

pli

tude

T f = 1/T

t w = 1/t

Frecuencia modulante

Portadora

Análisis de ondas no-sinusoidales

típicas • Amplitud de modulación (AM):

– 2 mediciones posibles:

• Frecuencia portadora (f)

• Frecuencia modulante

Dominio del tiempo Dominio de frecuencia

f f–w f+w

Am

pli

tude

T f = 1/T

t w = 1/t

Frecuencia modulante

Portadora

Análisis de ondas no-sinusoidales

típicas • Amplitud de modulación (AM):

– Espectro de frecuencia es 3 lineas: portadora

(f) y dos modulantes (f-w y f+w)

Dominio del tiempo Dominio de frecuencia

f f–w f+w

Ondas no-sinusoidales

Onda sinusoidal

Modulación de amplitud (AM)

Modulación de frecuencia (MF)

Señales periódicas no sinusoidales

Análisis de ondas no-sinusoidales

comunes • Modulación de frecuencia (MF)

Manteniendo la amplitud constante

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Fre

cuen

cia

Tiempo

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Fre

cuen

cia

Tiempo

T1

fmax= 1/T1

Análisis de ondas no-sinusoidales

comunes • Modulación de frecuencia (MF)

Manteniendo la amplitud constante

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Fre

cuen

cia

Tiempo

T1

fmax= 1/T1

Análisis de ondas no-sinusoidales

comunes • Modulación de frecuencia (MF)

Manteniendo la amplitud constante

T2

fmin= 1/T2

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Fre

cuen

cia

Tiempo

T1

fmax= 1/T1

Análisis de ondas no-sinusoidales

comunes • Modulación de frecuencia (MF)

Manteniendo la amplitud constante

T2

fmin= 1/T2 Portadora ( f ) = (fmax+ fmin) / 2

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Fre

cuen

cia

Tiempo

T1

fmax= 1/T1

Análisis de ondas no-sinusoidales

comunes • Modulación de frecuencia (MF)

Manteniendo la amplitud constante

T2

fmin= 1/T2 Portadora ( f ) = (fmax+ fmin) / 2

Frecuencia modulante, w

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Fre

cuen

cia

Tiempo

T1

fmax= 1/T1

Análisis de ondas no-sinusoidales

comunes • Modulación de frecuencia (MF)

Manteniendo la amplitud constante

T2

fmin= 1/T2 Portadora ( f ) = (fmax+ fmin) / 2

Frecuencia modulante, w

t w = 1/t

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

T1

Análisis de ondas no-sinusoidales

comunes

• Modulación de frecuencia (MF)

El espectro de frecuencia tiene la frecuencia portadora y bandas laterales (± nw ) al rededor

T2

t w = 1/t f

f–w f+w

f–2w

f–3w

f+2w

f+3w

Ondas no-sinusoidales comunes

Onda sinusoidal

Modulación de amplitud (AM)

Modulación de frecuencia (MF)

Señales periódicas no sinusoidales

• Señales periódicas no sinusoidales

– Cualquier forma de onda mientras q haya

periodicidad

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Análisis de ondas no-sinusoidales

comunes

• Señales periódicas no sinusoidales

– Cualquier forma de onda mientras q haya

periodicidad

– Se mide el tiempo de repetición del período y

los periodos por tiempo (w)

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Análisis de ondas no-sinusoidales

comunes

t w = 1/t

• Señales periódicas no sinusoidales

– El espectro de frecuencia contiene componentes

a w, 2w, 3w, etc.

– Componentes que son múltiplos de la de una

frecuencia son series harmónicas

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Análisis de ondas no-sinusoidales

comunes

t w = 1/t 2w

w 3w 5w

4w 6w

7w

• Señales periódicas no sinusoidales

– La amplitud disminuye exponencialmente en

los harmónicos sucesivos (regla de Dirichlet)

– Salvo si la onda tiene simetría de media onda

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Análisis de ondas no-sinusoidales

comunes

t w = 1/t 2w

w 3w 5w

4w 6w

7w

• Señales periódicas no sinusoidales

– La amplitud disminuye exponencialmente en

los harmónicos sucesivos (regla de Dirichlet)

– Salvo si la onda tiene simetría de media onda

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Análisis de ondas no-sinusoidales

comunes

t w = 1/t 2w

w 3w 5w

4w 6w

7w

• Señales periódicas no sinusoidales

– La amplitud disminuye exponencialmente en

los harmónicos sucesivos (regla de Dirichlet)

– Salvo si la onda tiene simetría de media onda

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Análisis de ondas no-sinusoidales

comunes

t w = 1/t

• Señales periódicas no sinusoidales

– La amplitud disminuye exponencialmente en

los harmónicos sucesivos (regla de Dirichlet)

– Salvo si la onda tiene simetría de media onda

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Análisis de ondas no-sinusoidales

comunes

t w = 1/t

• Señales periódicas no sinusoidales

– Cuando al simetría es de media onda solo se

producen los harmónicos impares

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

Análisis de ondas no-sinusoidales

comunes

t w = 1/t

w 3w 5w 7w

• Señales periódicas no sinusoidales

Otra excepción a la regla de Dirichlet ocurre

cuando hay “máximos múltiples”:

Análisis de ondas no-sinusoidales

comunes

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

• Señales periódicas no sinusoidales

Se puede medir la frecuencia fundamental de la

serie harmónica

Análisis de ondas no-sinusoidales

comunes

t

w = 1/t

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

• Señales periódicas no sinusoidales

Pero también se puede calcular el periodo entre

máximos múltiples

Análisis de ondas no-sinusoidales

comunes

t

w = 1/t

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

t

z = 1/t

• Señales periódicas no sinusoidales

El resultado es una serie harmónica basada en

la fundamental w. Cuando un harmónico esta

cerca de un múltiplo de z la amplitud es menor

Análisis de ondas no-sinusoidales

comunes

t

w = 1/t

Am

pli

tud

Dominio del tiempo Dominio de frecuencia

15w w 10w 5w

Cimas Vallers

• Ondas compuestas

Mayoría de vocalizaciones animales son

combinaciones de AM, MF, y señales

periódicas no-sinusoidales (ondas compuestas)

Se pueden descomponer en frecuencias

portadoras y moduladas!

Análisis de ondas no-sinusoidales

comunes

• Ondas compuestas

Cualquier combinación es posible

Portadora Modulación

Onda

modulante Resultado

MF

AM

MF

Análisis de vocalizaciones

animales

El principio de incertidumbre

• El análisis de Fourier necesita varios ciclos

para calcular las frecuencias de una señal

• Entre mas ciclos mayor precisión en el

calculo

El principio de incertidumbre

• Si se analiza solo un segmento de tiempo

corto de tiempo la frecuencia va ser una

banda amplia

• Si el segmento es largo las frecuencias se

definen con mas precisión

Segmento medio

Am

pli

tud

e

Frequency

Segmento largo

Am

pli

tud

e

Frequency

Am

pli

tud

e

Frequency

Segmento corto

El principio de incertidumbre

• Compromiso entre precisión en frecuencia

y precisión en tiempo:

f·t ≈ 1

Segmento medio

Am

pli

tud

e

Frequency

Segmento largo

Am

pli

tud

e

Frequency

Am

pli

tud

e

Frequency

Segmento corto

Construir espectrogramas

• Se divide el sonido en segmentos y se

calcula el espectro de frecuencia para cada

segmento.

Pre

sión

Tiempo

t

Construir espectrogramas

• Se divide el sonido en segmentos y se

calcula el espectro de frecuencia para cada

segmento.

Tiempo

t

Fre

cuen

cia

Construir espectrogramas

• Luego se usa un gradiente de colores para

representar la variación en amplitud entre

las diferentes frecuencias

Tiempo

t

Fre

cuen

cia

Construir espectrogramas

• El resultado es un grafico con frecuencia en

el eje y, tiempo en el eje x y amplitud en el

gradiente de colores

Tiempo

t

Fre

cuen

cia

Construir espectrogramas

• El resultado es un grafico con frecuencia en

el eje y, tiempo en el eje x y amplitud en el

gradiente de colores

Tiempo

t

Fre

cuen

cia

Resolución del espectrograma

• EL t (resolución en tiempo) es muy alta y

por tanto muy baja en frecuencia (f).

• EL f es de solo 5 Hz

Fre

cuen

cia

Tiempo

Resolución del espectrograma

• Si se disminuye el t 4 veces el f aumenta

a 20Hz

• Esto mejora la resolución de las bandas de

frecuencia

Fre

cuen

cia

Tiempo

Resolución del espectrograma

• Si se vuelve a disminuir el t 4 veces el f

aumenta a 80Hz

Fre

cuen

cia

Tiempo

Resolución del espectrograma

• Si se disminuye una vez mas el t 4 veces

el f aumenta a 320 Hz

• El patrón temporal de los últimos elementos

se ve mas claro

Fre

cuen

cia

Tiempo

Resolución del espectrograma

• Si se disminuye una vez mas el t 4 veces

(1280 Hz)

• El patrón temporal de los últimos elementos

se ve mas claro

Fre

cuen

cia

Tiempo

Resolución del espectrograma

• Si se disminuye una vez mas el t 4 veces

(1280 Hz)

• El patrón temporal de los últimos elementos

se ve mas claro

Fre

cuen

cia

Tiempo

Resolución del espectrograma

• Un nivel intermedio es el que resuelve

mejor el compromiso entre resolución en

frecuencia y resolución en tiempo

• Es necesario probar diferentes resoluciones!

Fre

cuen

cia

Tiempo

Resolución del espectrograma

La resolución en frecuencia debe ser:

• Suficientemente baja para ver los

harmónicos

• Suficientemente alta para mostrar MF y MA

Fre

cuen

cia

Tiempo

Digital Sound Analysis

• At each sample point, the computer also

digitizes the amplitude value into one of N

equidistant categories. The number of

categories depends on how many “bits” are

used to store each value. N = 2number of bits

• Music CDs store 16 bits/sample and thus

divide the full amplitude range into 216 =

65,536 possible values.

Digital Sound Analysis

• The higher the sampling rate and the higher

the bit depth, the more accurately the digital

recording captures the original sound.

• However, increasing sampling rate or bit

depth or both increases the size of the

digital file that must be stored.

• In stereo recording, two columns of

numbers must be stored, taking up even

more memory.

Digital Sound Analysis

• Nyquist frequency: A digital recorder or

computer must be able to take at least 2

samples/cycle to be able to identify each

frequency.

• Thus, if you digitize your sounds at R

samples/sec, you will be unable to properly

capture any component with frequency

>R/2. This latter value is called the Nyquist

frequency.

Digital Sound Analysis

• Aliasing: If you do not sample your sounds

at a high enough rate, any frequency in the

sounds that is higher than half the sampling

rate is aliased. This means you will see an

artifact in your spectrograms consisting of

an inverted version of what the sounds

should have looked like if you had sampled

at a sufficiently high rate. Not nice!

Digital Sound Analysis

• Digital Bandwidths: In most computer

sound analysis programs, you do not set the

bandwidth f directly, but instead set the

segment duration, t.

• Instead of setting a time, you indicate t by

specifying the number of consecutive

sample points to be used for each frequency

spectrum in the spectrogram. This is often

called “frame size.”

Digital Sound Analysis • Windowing: If you cut a sound directly into

segments (a rectangular window) to make a

spectrogram, you introduce artifacts at the

beginning and end of each segment.

• This occurs because, with rectangular

windows, each segment begins with no

sound and is suddenly switched “on” and

suddenly “off.” The frequency spectrum of

sudden onsets and offsets must contain a

wide smear of frequencies.

Recommended