Introducción al análisis de
sonidos
Marcelo Araya-Salas
New Mexico State University
Taller análisis de vocalizaciones animales
en R
Modificado de Bradbury y Vehrencamp 2010
Grabación de sonidos
• Sonido: perturbación en la presión del
medio (aire, agua, etc)
• Cada región de presión mas alta que el
promedio ambiental es seguida por una de
presión mas baja
Grabación de sonidos
• El micrófono convierte la variación en
presión del sonido en una señal eléctrica
que asemeja la oscilación
Describir y comparar sonidos
• Oscilograma (waveform): gráfico de
presión vs tiempo. Es un descripción del
sonido en el dominio de tiempo.
• Como describir y comparar estas
señales?
Pre
sio
n
Tiempo
Pájaro
campana Oropendola
Tiempo
Oscilogramas simples
• La señal mas simple que puede ser grabada
es una onda sinusoidal sin cambios en
amplitud o frecuencia:
Mediciones en el dominio del
tiempo • Amplitud: la desviación máxima
(o promedio) con respecto al ruido
ambiental
Mediciones en el dominio del
tiempo • Amplitud: generalmente la escala es relativa
al ruido de fondo (dB = 20 log10 (Aobs/Aref))
• Frecuencia: ciclos por segundo (Hz) de la onda
(reciproco del tiempo de un ciclo =1/T)
Mediciones en el dominio del
tiempo
Mediciones en el dominio de
frecuencia
• Frecuencia se puede visualizar mejor en un
gráfico de densidad espectral
Dominio del tiempo Dominio de frecuencia
Ondas no sinusoidales
• Como se pueden describir?
• Modulación de frecuencia (1er gráfico)
• Modulación de amplitud (2do grafico)
Análisis de Fourier • Por suerte!
Cualquier onda continua puede ser
descompuesta en ondas sinusoidales puras
con frecuencia y amplitud (Análisis de
Fourier)
Los gráficos en el dominio de frecuencia
son MUY útiles para comparar sonidos!
• Aplicando la solución de Fourier:
Espectros de frecuencias
Am
pli
tud
Frecuencia Frecuencia
Análisis de Fourier
• Pero como analizar cantos mas complejos como este emberízido?
• Solución: dividir el canto en segmentos y crear espectros de frecuencia para cada segmento
Pre
ssu
re
Time
(Mover cursor para reproducir)
Análisis de Fourier
• Los espectros se juntan para mostrar como cambian las frecuencias en el tiempo
• El gráfico que resulta se conoce como espectrograma
Pre
ssu
re
Time
(Mover cursor para reproducir)
Análisis de Fourier
Ondas no-sinusoidales
• 3 tipos de desviaciones de una onda
sinusoidal. La mayoría de animales son una
combinaciones de estos 3 tipos:
Onda sinusoidal
Modulación de amplitud (AM)
Modulación de frecuencia (MF)
Señales periódicas no sinusoidales
Ondas no-sinusoidales
Onda sinusoidal
Modulación de amplitud (AM)
Modulación de frecuencia (MF)
Señales periódicas no sinusoidales
Análisis de ondas no-sinusoidales
típicas • Amplitud de modulación (AM):
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Am
pli
tud
T f = 1/T Portadora
Análisis de ondas no-sinusoidales
típicas • Amplitud de modulación (AM):
– 2 mediciones posibles:
• Frecuencia portadora (f)
Dominio del tiempo Dominio de frecuencia
Am
pli
tude
T f = 1/T
t w = 1/t
Frecuencia modulante
Portadora
Análisis de ondas no-sinusoidales
típicas • Amplitud de modulación (AM):
– 2 mediciones posibles:
• Frecuencia portadora (f)
• Frecuencia modulante
Dominio del tiempo Dominio de frecuencia
f f–w f+w
Am
pli
tude
T f = 1/T
t w = 1/t
Frecuencia modulante
Portadora
Análisis de ondas no-sinusoidales
típicas • Amplitud de modulación (AM):
– Espectro de frecuencia es 3 lineas: portadora
(f) y dos modulantes (f-w y f+w)
Dominio del tiempo Dominio de frecuencia
f f–w f+w
Ondas no-sinusoidales
Onda sinusoidal
Modulación de amplitud (AM)
Modulación de frecuencia (MF)
Señales periódicas no sinusoidales
Análisis de ondas no-sinusoidales
comunes • Modulación de frecuencia (MF)
Manteniendo la amplitud constante
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Fre
cuen
cia
Tiempo
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Fre
cuen
cia
Tiempo
T1
fmax= 1/T1
Análisis de ondas no-sinusoidales
comunes • Modulación de frecuencia (MF)
Manteniendo la amplitud constante
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Fre
cuen
cia
Tiempo
T1
fmax= 1/T1
Análisis de ondas no-sinusoidales
comunes • Modulación de frecuencia (MF)
Manteniendo la amplitud constante
T2
fmin= 1/T2
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Fre
cuen
cia
Tiempo
T1
fmax= 1/T1
Análisis de ondas no-sinusoidales
comunes • Modulación de frecuencia (MF)
Manteniendo la amplitud constante
T2
fmin= 1/T2 Portadora ( f ) = (fmax+ fmin) / 2
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Fre
cuen
cia
Tiempo
T1
fmax= 1/T1
Análisis de ondas no-sinusoidales
comunes • Modulación de frecuencia (MF)
Manteniendo la amplitud constante
T2
fmin= 1/T2 Portadora ( f ) = (fmax+ fmin) / 2
Frecuencia modulante, w
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Fre
cuen
cia
Tiempo
T1
fmax= 1/T1
Análisis de ondas no-sinusoidales
comunes • Modulación de frecuencia (MF)
Manteniendo la amplitud constante
T2
fmin= 1/T2 Portadora ( f ) = (fmax+ fmin) / 2
Frecuencia modulante, w
t w = 1/t
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
T1
Análisis de ondas no-sinusoidales
comunes
• Modulación de frecuencia (MF)
El espectro de frecuencia tiene la frecuencia portadora y bandas laterales (± nw ) al rededor
T2
t w = 1/t f
f–w f+w
f–2w
f–3w
f+2w
f+3w
Ondas no-sinusoidales comunes
Onda sinusoidal
Modulación de amplitud (AM)
Modulación de frecuencia (MF)
Señales periódicas no sinusoidales
• Señales periódicas no sinusoidales
– Cualquier forma de onda mientras q haya
periodicidad
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Análisis de ondas no-sinusoidales
comunes
• Señales periódicas no sinusoidales
– Cualquier forma de onda mientras q haya
periodicidad
– Se mide el tiempo de repetición del período y
los periodos por tiempo (w)
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Análisis de ondas no-sinusoidales
comunes
t w = 1/t
• Señales periódicas no sinusoidales
– El espectro de frecuencia contiene componentes
a w, 2w, 3w, etc.
– Componentes que son múltiplos de la de una
frecuencia son series harmónicas
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Análisis de ondas no-sinusoidales
comunes
t w = 1/t 2w
w 3w 5w
4w 6w
7w
• Señales periódicas no sinusoidales
– La amplitud disminuye exponencialmente en
los harmónicos sucesivos (regla de Dirichlet)
– Salvo si la onda tiene simetría de media onda
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Análisis de ondas no-sinusoidales
comunes
t w = 1/t 2w
w 3w 5w
4w 6w
7w
• Señales periódicas no sinusoidales
– La amplitud disminuye exponencialmente en
los harmónicos sucesivos (regla de Dirichlet)
– Salvo si la onda tiene simetría de media onda
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Análisis de ondas no-sinusoidales
comunes
t w = 1/t 2w
w 3w 5w
4w 6w
7w
• Señales periódicas no sinusoidales
– La amplitud disminuye exponencialmente en
los harmónicos sucesivos (regla de Dirichlet)
– Salvo si la onda tiene simetría de media onda
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Análisis de ondas no-sinusoidales
comunes
t w = 1/t
• Señales periódicas no sinusoidales
– La amplitud disminuye exponencialmente en
los harmónicos sucesivos (regla de Dirichlet)
– Salvo si la onda tiene simetría de media onda
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Análisis de ondas no-sinusoidales
comunes
t w = 1/t
• Señales periódicas no sinusoidales
– Cuando al simetría es de media onda solo se
producen los harmónicos impares
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
Análisis de ondas no-sinusoidales
comunes
t w = 1/t
w 3w 5w 7w
• Señales periódicas no sinusoidales
Otra excepción a la regla de Dirichlet ocurre
cuando hay “máximos múltiples”:
Análisis de ondas no-sinusoidales
comunes
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
• Señales periódicas no sinusoidales
Se puede medir la frecuencia fundamental de la
serie harmónica
Análisis de ondas no-sinusoidales
comunes
t
w = 1/t
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
• Señales periódicas no sinusoidales
Pero también se puede calcular el periodo entre
máximos múltiples
Análisis de ondas no-sinusoidales
comunes
t
w = 1/t
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
t
z = 1/t
• Señales periódicas no sinusoidales
El resultado es una serie harmónica basada en
la fundamental w. Cuando un harmónico esta
cerca de un múltiplo de z la amplitud es menor
Análisis de ondas no-sinusoidales
comunes
t
w = 1/t
Am
pli
tud
Dominio del tiempo Dominio de frecuencia
15w w 10w 5w
Cimas Vallers
• Ondas compuestas
Mayoría de vocalizaciones animales son
combinaciones de AM, MF, y señales
periódicas no-sinusoidales (ondas compuestas)
Se pueden descomponer en frecuencias
portadoras y moduladas!
Análisis de ondas no-sinusoidales
comunes
• Ondas compuestas
Cualquier combinación es posible
Portadora Modulación
Onda
modulante Resultado
MF
AM
MF
Análisis de vocalizaciones
animales
El principio de incertidumbre
• El análisis de Fourier necesita varios ciclos
para calcular las frecuencias de una señal
• Entre mas ciclos mayor precisión en el
calculo
El principio de incertidumbre
• Si se analiza solo un segmento de tiempo
corto de tiempo la frecuencia va ser una
banda amplia
• Si el segmento es largo las frecuencias se
definen con mas precisión
Segmento medio
Am
pli
tud
e
Frequency
Segmento largo
Am
pli
tud
e
Frequency
Am
pli
tud
e
Frequency
Segmento corto
El principio de incertidumbre
• Compromiso entre precisión en frecuencia
y precisión en tiempo:
f·t ≈ 1
Segmento medio
Am
pli
tud
e
Frequency
Segmento largo
Am
pli
tud
e
Frequency
Am
pli
tud
e
Frequency
Segmento corto
Construir espectrogramas
• Se divide el sonido en segmentos y se
calcula el espectro de frecuencia para cada
segmento.
Pre
sión
Tiempo
t
Construir espectrogramas
• Se divide el sonido en segmentos y se
calcula el espectro de frecuencia para cada
segmento.
Tiempo
t
Fre
cuen
cia
Construir espectrogramas
• Luego se usa un gradiente de colores para
representar la variación en amplitud entre
las diferentes frecuencias
Tiempo
t
Fre
cuen
cia
Construir espectrogramas
• El resultado es un grafico con frecuencia en
el eje y, tiempo en el eje x y amplitud en el
gradiente de colores
Tiempo
t
Fre
cuen
cia
Construir espectrogramas
• El resultado es un grafico con frecuencia en
el eje y, tiempo en el eje x y amplitud en el
gradiente de colores
Tiempo
t
Fre
cuen
cia
Resolución del espectrograma
• EL t (resolución en tiempo) es muy alta y
por tanto muy baja en frecuencia (f).
• EL f es de solo 5 Hz
Fre
cuen
cia
Tiempo
Resolución del espectrograma
• Si se disminuye el t 4 veces el f aumenta
a 20Hz
• Esto mejora la resolución de las bandas de
frecuencia
Fre
cuen
cia
Tiempo
Resolución del espectrograma
• Si se vuelve a disminuir el t 4 veces el f
aumenta a 80Hz
Fre
cuen
cia
Tiempo
Resolución del espectrograma
• Si se disminuye una vez mas el t 4 veces
el f aumenta a 320 Hz
• El patrón temporal de los últimos elementos
se ve mas claro
Fre
cuen
cia
Tiempo
Resolución del espectrograma
• Si se disminuye una vez mas el t 4 veces
(1280 Hz)
• El patrón temporal de los últimos elementos
se ve mas claro
Fre
cuen
cia
Tiempo
Resolución del espectrograma
• Si se disminuye una vez mas el t 4 veces
(1280 Hz)
• El patrón temporal de los últimos elementos
se ve mas claro
Fre
cuen
cia
Tiempo
Resolución del espectrograma
• Un nivel intermedio es el que resuelve
mejor el compromiso entre resolución en
frecuencia y resolución en tiempo
• Es necesario probar diferentes resoluciones!
Fre
cuen
cia
Tiempo
Resolución del espectrograma
La resolución en frecuencia debe ser:
• Suficientemente baja para ver los
harmónicos
• Suficientemente alta para mostrar MF y MA
Fre
cuen
cia
Tiempo
Digital Sound Analysis
• At each sample point, the computer also
digitizes the amplitude value into one of N
equidistant categories. The number of
categories depends on how many “bits” are
used to store each value. N = 2number of bits
• Music CDs store 16 bits/sample and thus
divide the full amplitude range into 216 =
65,536 possible values.
Digital Sound Analysis
• The higher the sampling rate and the higher
the bit depth, the more accurately the digital
recording captures the original sound.
• However, increasing sampling rate or bit
depth or both increases the size of the
digital file that must be stored.
• In stereo recording, two columns of
numbers must be stored, taking up even
more memory.
Digital Sound Analysis
• Nyquist frequency: A digital recorder or
computer must be able to take at least 2
samples/cycle to be able to identify each
frequency.
• Thus, if you digitize your sounds at R
samples/sec, you will be unable to properly
capture any component with frequency
>R/2. This latter value is called the Nyquist
frequency.
Digital Sound Analysis
• Aliasing: If you do not sample your sounds
at a high enough rate, any frequency in the
sounds that is higher than half the sampling
rate is aliased. This means you will see an
artifact in your spectrograms consisting of
an inverted version of what the sounds
should have looked like if you had sampled
at a sufficiently high rate. Not nice!
Digital Sound Analysis
• Digital Bandwidths: In most computer
sound analysis programs, you do not set the
bandwidth f directly, but instead set the
segment duration, t.
• Instead of setting a time, you indicate t by
specifying the number of consecutive
sample points to be used for each frequency
spectrum in the spectrogram. This is often
called “frame size.”
Digital Sound Analysis • Windowing: If you cut a sound directly into
segments (a rectangular window) to make a
spectrogram, you introduce artifacts at the
beginning and end of each segment.
• This occurs because, with rectangular
windows, each segment begins with no
sound and is suddenly switched “on” and
suddenly “off.” The frequency spectrum of
sudden onsets and offsets must contain a
wide smear of frequencies.