36
TICRM - Tecnologías del Habla– Codificación de Voz Codificación de Voz Codificación de Voz 1. Introducción 1. Introducción 2. 2. Vocoder Vocoder LPC LPC 3. Codificadores Híbridos 3. Codificadores Híbridos

1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

Embed Size (px)

Citation preview

Page 1: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificación de VozCodificación de Voz1. Introducción1. Introducción2. 2. Vocoder Vocoder LPCLPC3. Codificadores Híbridos3. Codificadores Híbridos

Page 2: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Clasificación Codificadores de VozClasificación Codificadores de Voz1.1. Codificadores de forma de ondaCodificadores de forma de onda

Reconstruir una forma de onda de señal lo mas Reconstruir una forma de onda de señal lo mas parecida al originalparecida al original

PCM G.711 64 PCM G.711 64 kbkb/s, ADPCM G.721 32 /s, ADPCM G.721 32 kbkb/s/sSBC G.722SBC G.722

2.2. Codificadores de fuenteCodificadores de fuenteReconstruir una señal basada en el modelo de Reconstruir una señal basada en el modelo de producción de la señal de vozproducción de la señal de voz

Vocoder Vocoder LPC FS1015 2,4 LPC FS1015 2,4 kbkb/s, MELP 2,4 /s, MELP 2,4 kbkb/s/s3.3. Codificadores híbridos Codificadores híbridos –– AnálisisAnálisis--porpor--SíntesisSíntesis

Forma de onda basado en el modelo de producciónForma de onda basado en el modelo de producciónETSI GSM, CELP G.729ETSI GSM, CELP G.729

Page 3: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Comparación de CodificadoresComparación de Codificadores

1. Bit Rate kb/s2. Calidad MOS (Mean Opinion Score)3. Complejidad4. Retardo5. Sensibilidad a errores de canal6. Ancho de Banda

Coder Bit Rate kb/s MOS BW (kHz)CD Audio 1.411 5.0 44,1

PCM 64 4.3 8

ADPCM 40,32,24,16 4.2 (32 kb/s) 8

SBC 64,56,48 >4.5 16

Page 4: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

ComparativaComparativa

Page 5: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificación de Voz: Codificación de Voz: VocoderVocoder LPCLPC

Page 6: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Análisis LPCAnálisis LPC

Síntesis LPC:

P(z)

)(ns

)(ˆ ns

)(neH(z)=1/A(z)

∑=

−−=p

i

ii zazP

1·)(

H(z): estimación de la respuesta del tracto vocal

Page 7: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

VocoderVocoder LPCLPC

Simplificación de la excitación en la síntesis:

Tren de impulsos periódicos en los segmentos sonorosRuido gaussianoblanco en los segmentos sordosMantenimiento de la potencia del residuo en la nueva excitación sintética.Ejemplos:

Page 8: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Decodificador/Codificador LPCDecodificador/Codificador LPC

P(z)

+

H(z)x

ANÁLISISLPC

P(z)

- ANÁLISIS-PITCH-U/V

G

CoeficientesReflexión

G

V

U

F0)(nr

)(ˆ ns

)(ns

)(ns

1/F0

Page 9: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

VocoderVocoder LPC10E/LPC10E/FS1015FS1015

54 bits/trama

Pitch + U/V->7bitsG->5bitsK1 a K4->5bitsK5 a K8-> 4bitsK9->3bitsK10->2bits

Fs= 8000muestras/s54bits/trama180muestras/trama(22.5ms/trama)

54*8000/180=2400bits/seg

Page 10: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

VocoderVocoder LPC10ELPC10E

Ejemplos:Señal OriginalSeñal transcodificada LPC10E Señal transcodificada LPC10E (transmisión radio vía satélite)

Características:Nasalidad: modelo todo-polosExcitación sonora simple (tren de impulsos): buzzingTamaño de trama: problemas con las transiciones rápidas (p, t, k…)

Page 11: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

MELP:MELP: MixedMixed--ExcitationExcitation LinearLinear Predictive Predictive VocoderVocoder

2400 bps Federal Standard speech coder

La señal de excitación se genera mediante una mezcla de ruido y tren de impulsos en distintas bandas frecuenciales

Page 12: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

MELP:MELP: MixedMixed--ExcitationExcitation LinearLinear Predictive Predictive VocoderVocoder

Page 13: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

MELP:MELP: MixedMixed--ExcitationExcitation LinearLinear Predictive Predictive VocoderVocoder

Señal original “limpia” Lpc-10

Señal transcodificada MELP “limpia”

Señal original “sucia”

Señal transcodificada MELP “sucia”Data rate: 2400 bps (54* 44,44444 frames/second) Sampling rate: 8 kHzBit stream format: For each 22.5 ms frame of input speech, the following 54 bits are placed into the bit-stream (in this order)Description Number of bits

Pitch index 7Jitter flag 1Bandpass voicing decision 4x1Gain for second half of frame 5Gain for first half of frame 3LSP frequencies (10 line spectrum pairs) 25Fourier magnitudes (10 harmonies) 8Sync bit 1 Total 54

Page 14: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificadores HíbridosCodificadores HíbridosCodificadores Codificadores Predictivos Predictivos basados en el basados en el

Análisis por SíntesisAnálisis por Síntesis

Page 15: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificadores HíbridosCodificadores HíbridosDependiendo de la excitación se clasifican en tres tipos básicos1. Excitación Multipulso (MPE)2. Excitación por Pulsos Regulares (RPE)3. Excitación por Códigos (CELP)

Page 16: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificadores HíbridosCodificadores HíbridosCodificador CELP: Excitación por Códigos

Page 17: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Análisis localizadoAnálisis localizado

Valores típicos:Trama de análisis: 25 ms (200 muestras)Trama de voz: 20 ms (160 muestras)Subtrama: 5 ms (40 muestras)

Page 18: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Filtro de SíntesisFiltro de SíntesisBasado en una predicción lineal a corto y largo plazo

s(n) rL(n)

ANÁLISISA CORTO

ANÁLISISA LARGO

P(z)

-PL(z)

-r(n)

SÍNTESIS

PL(z) P(z)

r(n)rL(n)+ +

s(n)

)(ˆ ns)(ˆ nr

Page 19: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Filtro de SíntesisFiltro de SíntesisPredictor a largo plazo

ˆ( ) ( )r n r n Dβ= −

ˆ( ) ( ( 1)) ( ) ( ( 1))1 2 3

r n r n D r n D r n Dβ β β= − + + − + − −Estimación

o también

)(ˆ nr

Cálculo de los parámetros, minimizar error predicción( ) ( ) ( )e n r n r n Dβ= − −

[ ]211 2( ) ( ) ( )

00

NNE e n r n r n D

nnβ

−−= = − −∑∑

==

/ 0E β∂ ∂ =[ ]

1( ) ( )

01 2( )0

Nr n r n D

nN

r n Dn

β

−−∑

==−

−∑=

Page 20: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Filtro de SíntesisFiltro de SíntesisSeleccionar el valor de D que minimiza

la potencia del error E

[ ]

21( ) ( )

1 2 0( ) 1 20 ( )0

Nr n r n D

N nE r n Nn r n D

n

−−∑

− == −∑ −= −∑

=

Page 21: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Filtro de Ponderación Filtro de Ponderación PerceptualPerceptualFunción: modificar las características frecuenciales del error a minimizar, concediendo más importancia a las zonas de frecuencia en las que el oído va a ser más sensible y menos importancia a las zonas en las que el oído va a ser menos sensible. Basado en el enmascaramiento frecuencial que se produce en el oído:

En las zonas de máxima energía (formantes) se podrá cometer más error. La respuesta del filtro tendrá la forma inversa a la envolvente espectral de la señal de voz a codificar.Función de transferencia utilizada: W(z)=A(z)/A(γ-1z)Parámetro γ=[0,1], controla en nivel de ponderación realizado. Debe actualizarse junto con el predictor.

Page 22: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Filtro de Ponderación Filtro de Ponderación PerceptualPerceptual

1 1( ) 1 1( )

( / ) 11 (1 ( ) )1 1

P Pk ka z a zk kA z k kW zP PA z zk ka z pk kk k

γγ

γ

− −− −∑ ∑= == = =

− −− −∑ ∏= =

11( )

1(1 )1

P ka zkkW zP

p zkkγ

−− ∑==

−−∏=

0.8 0.9γ≤ ≤normalmente

Page 23: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Filtro de Ponderación Filtro de Ponderación PerceptualPerceptual

Page 24: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Filtro de Ponderación Filtro de Ponderación PerceptualPerceptual

Page 25: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificador GSM 06.XX: RPE-LTPGSM 1982 "Groupe Spécial Mobile“ ,

actualidad "Global System for Mobile communications“RPE-LTP: Regular Pulse Excitation – Long Term Prediction

Page 26: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

Codificador GSM 06.XX: RPE-LTP

SID – Silence Descrition FrameBFI – Bad Frame Indicator

TICRM - Tecnologías del Habla– Codificación de Voz

Page 27: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

Codificador GSM 06.XX: RPE-LTPPérdidas de Pérdidas de FramesFrames:1) Frames de voz

a) Primera pérdidas -> repetición de la anterior buena

b) Siguientes pérdidas -> decrecer el nivel de salida hasta el silencia en 320 ms

2) Frames de SIDa) Primera pérdidas -> repetición de la anterior

buenab) Siguientes pérdidas -> decrecer el nivel de salida

hasta el silencia en 320 msTICRM - Tecnologías del Habla– Codificación de Voz

Page 28: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificador GSM 06.XX: RPE-LTP

Page 29: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Page 30: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificador GSM: RPE-LTP

Page 31: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificador GSM 06.XX: RPE-LTP

Page 32: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Page 33: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificador GSM 06.10

Cada 160 muestras (20 ms.)LAR1, LAR2->6 bitsLAR3, LAR4->5 bitsLAR5, LAR6->4 bitsLAR7, LAR8->3 bitsTotal LAR’s->36 bits

Cada 40 muestras (5ms.)Retardo Predictor largo-> 7 bitsGanancia Predictor largo-> 2 bitsPosición rejilla (k)->2 bitsAmplitud del bloque-> 6 bitsAmplitud de cada pulso (13)->3 bitsTotal subtrama excitación-> 56 bits

36+56·4=260 bits / 20 ms.

Bitrate = 13 kbps

Page 34: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

Codificador GSM 06.XXRuido de ConfortRuido de Confort

SID SID –– Background Background Acoustic Noise EvaluationAcoustic Noise Evaluation

SID codeword con 95 bits a cero

Sobre 4 tramas (segmentos consecutivos con VAD=0)se calcula:

Media de los parámetros LARMedia de Xmax

Los pulsos RPE se reemplazan localmente por secuenciasde enteros aleatorios uniformemente distribuidos entre 1 y6

TICRM - Tecnologías del Habla– Codificación de Voz

Page 35: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificador GSM 06.10

Ejemplos:Señal original: Señal transcodificada GSMDiferencia original-transcodificada (ruido de transcodificación)

Ruido blanco con la misma potenciaSeñal original + ruido blanco (es decir, sin ponderación del error cometido).

Page 36: 1. Introducción 2. Vocoder LPC 3. Codificadores Híbridosphysionet.cps.unizar.es/~eduardo/docencia/ticrm/Tema_6... · PCM G.711 64 kb/s, ADPCM G.721 32 kb/s ... Decodificador/Codificador

TICRM - Tecnologías del Habla– Codificación de Voz

Codificador GSM 06.10

Original

Transcodificada

Mantenimiento de la forma de onda