46
1 Reconocimiento de Locutor (Biometría Vocal) Daniel Ramos Castro [email protected] ATVS – Biometric Recognition Group http://atvs.ii.uam.es Universidad Autónoma de Madrid 2 Técnicas biométricas aplicadas a la seguridad Reconocimiento de locutor Sumario Introducción: voz e identidad Introducción: voz e identidad Reconocimiento de locutor Reconocimiento de locutor multinivel multinivel Reconocimiento acústico (bajo nivel) Reconocimiento acústico (bajo nivel) GMM GMM SVM SVM-GLDS GLDS Reconocimiento de alto nivel Reconocimiento de alto nivel Fonético Fonético Prosódico Prosódico Fusión Fusión Evaluaciones NIST Evaluaciones NIST Desafíos Actuales y Últimas Tendencias Desafíos Actuales y Últimas Tendencias Conclusiones Conclusiones

New Reconocimiento de Locutor (Biometría Vocal)garciaargos.com/descargas/apuntes/posgrado/Primer... · 2009. 2. 11. · 6 11 Técnicas biométricas aplicadas a la seguridad Reconocimiento

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    Reconocimiento de Locutor(Biometría Vocal)

    Daniel Ramos [email protected]

    ATVS – Biometric Recognition Grouphttp://atvs.ii.uam.es

    Universidad Autónoma de Madrid

    2Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Sumario•• Introducción: voz e identidadIntroducción: voz e identidad

    •• Reconocimiento de locutor Reconocimiento de locutor multinivelmultinivel

    Reconocimiento acústico (bajo nivel)Reconocimiento acústico (bajo nivel)

    GMMGMM

    SVMSVM--GLDSGLDS

    Reconocimiento de alto nivelReconocimiento de alto nivel

    FonéticoFonético

    ProsódicoProsódico

    FusiónFusión

    •• Evaluaciones NISTEvaluaciones NIST

    •• Desafíos Actuales y Últimas TendenciasDesafíos Actuales y Últimas Tendencias

    •• ConclusionesConclusiones

  • 2

    3Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Información de identidad en la señal de voz

    4Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Señal de Voz e Información de Identidad

    •• Las personas somos capaces de identificar locutores Las personas somos capaces de identificar locutores a partir de sus vocesa partir de sus voces

    Durante toda nuestra vida Durante toda nuestra vida ““adquirimosadquirimos”” vocesvoces

    Inconscientemente creamos un “modelo” de cada Inconscientemente creamos un “modelo” de cada locutorlocutor

    •• Por tanto, la señal de voz conlleva información de Por tanto, la señal de voz conlleva información de identidad del hablanteidentidad del hablante

    •• ¿Dónde se encuentra esa información?¿Dónde se encuentra esa información?

    •• ¿Cómo podemos extraerla, caracterizarla y ¿Cómo podemos extraerla, caracterizarla y compararla?compararla?

  • 3

    5Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Niveles de Identidad en la Voz

    •• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz

    Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…

    6Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Niveles de Identidad en la Voz

    •• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz

    Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…

    Su timbreSu timbre

  • 4

    7Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Niveles de Identidad en la Voz

    •• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz

    Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…

    Su timbreSu timbre

    Su uso de los sonidosSu uso de los sonidos

    8Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Niveles de Identidad en la Voz

    •• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz

    Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…

    Su timbreSu timbre

    Su uso de los sonidosSu uso de los sonidos

    Su forma de entonarSu forma de entonar

    ……

    •• Identidad en varios niveles (Identidad en varios niveles (fusiónfusión))

    •• Esa combinación es dependiente del locutor a Esa combinación es dependiente del locutor a reconocerreconocer

  • 5

    9Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Niveles de Identidad en la Voz

    Niv

    el m

    ás a

    lto

    •• Las diferentes características de la voz se Las diferentes características de la voz se agrupan en niveles (lingüística)agrupan en niveles (lingüística)

    •• ……

    •• Fonético: utilización de diferentes sonidos, Fonético: utilización de diferentes sonidos, pronunciación, etc.pronunciación, etc.

    •• Prosódico: entonación particular, variación Prosódico: entonación particular, variación de energía, pausas entre frases o palabras, de energía, pausas entre frases o palabras, etc.etc.

    •• Espectral: configuración (resonancia) del Espectral: configuración (resonancia) del tracto vocal, tracto vocal, coco--articulación, nasalidad, etc. articulación, nasalidad, etc.

    •• … …

    10Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Estrategia en Biometría Vocal•• En biometría vocal tendrán que tenerse en cuenta:En biometría vocal tendrán que tenerse en cuenta:

    1.1. La información extraída a diferentes nivelesLa información extraída a diferentes niveles

    Estrategia Estrategia multinivelmultinivel

    Y de diferente forma en cada nivelY de diferente forma en cada nivel

    Estrategia Estrategia multisistemamultisistema

    Rec. espectral 1

    Rec. Fonético

    Rec. espectral 2

    Rec.Prosódico

  • 6

    11Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Estrategia en Biometría Vocal•• En biometría vocal tendrán que tenerse en cuenta:En biometría vocal tendrán que tenerse en cuenta:

    1.1. La información extraída a diferentes nivelesLa información extraída a diferentes niveles

    Estrategia Estrategia multinivelmultinivel

    Y de diferente forma en cada nivelY de diferente forma en cada nivel

    Estrategia Estrategia multisistemamultisistema

    2.2. La combinación de esa informaciónLa combinación de esa información

    Fusión Fusión multinivelmultinivel

    FusiónFusión multisistemamultisistemaRec. espectral 1

    Rec. Fonético

    Rec. espectral 2

    Rec.Prosódico

    Fusión(capítulo de

    multibiometría)

    12Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Problema: Variabilidad•• Problema fundamental en la señal de vozProblema fundamental en la señal de voz

    •• Debida a múltiples (y comunes) factores:Debida a múltiples (y comunes) factores:

    •• Factores internos intrínsecos: Factores internos intrínsecos: Permanentes: sexo, edad, sesión, tipo y cantidad de Permanentes: sexo, edad, sesión, tipo y cantidad de hablahabla

    Transitorios: estado emocional, patologías Transitorios: estado emocional, patologías fonatoriasfonatorias

    •• Factores internos forzados: Factores internos forzados: Efecto ‘Lombard’ (voz en ambiente ruidoso)Efecto ‘Lombard’ (voz en ambiente ruidoso)

    Efecto ‘cocktailEfecto ‘cocktail--party’ (voz en voces concurrentes)party’ (voz en voces concurrentes)

    •• Factores externos: Factores externos: Canal (Canal (electro)acústicoelectro)acústico: ruido acústico, reverberación, : ruido acústico, reverberación, microfoníamicrofonía, distancia, distancia

    Canal de comunicaciones: ruido eléctrico, ancho de Canal de comunicaciones: ruido eléctrico, ancho de banda, margen dinámico, distorsión, codificaciónbanda, margen dinámico, distorsión, codificación

  • 7

    13Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Arquitectura básica de un sistemade reconocimiento de locutores

    14Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocimiento automático

    Reconocimientoautomáticode locutor

    Identidad A

    scoreIdentidad B

    •• La gran mayoría de sistemas calcula puntuaciones (La gran mayoría de sistemas calcula puntuaciones (scoresscores))

    •• Similitud entre las identidades en dos fragmentos de vozSimilitud entre las identidades en dos fragmentos de voz

    •• Idealmente (y sin perder generalidad):Idealmente (y sin perder generalidad):

    •• Si A y B son la misma identidad, Si A y B son la misma identidad, scorescore más altomás alto

    •• Si A y B son identidades diferentes, Si A y B son identidades diferentes, scorescore más bajomás bajo

    •• Un Un scorescore permite permite discriminardiscriminar

  • 8

    15Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Cálculo de una puntuación (score): etapas

    Modelo AExtracción decaracterísticas ModeladoA

    •• Paso 1: modelado de característicasPaso 1: modelado de características

    16Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Cálculo de una puntuación (score): etapas

    score

    Modelo AExtracción decaracterísticas Modelado

    Modelo A

    Comparación

    Extracción decaracterísticas

    A

    B

    •• Paso 1: modelado de característicasPaso 1: modelado de características

    •• Paso 2: cálculo de la puntuación (Paso 2: cálculo de la puntuación (scorescore))

  • 9

    17Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Detección (verificación) de locutor

    Reconocimientoautomáticode locutor

    Ascore

    B> τ A y B son iguales

    < τ A y B son diferentes

    •• Tarea básicaTarea básica

    •• ¿Es la identidad de ambos fragmentos de voz la misma?¿Es la identidad de ambos fragmentos de voz la misma?

    •• Típicamente en dos pasos:Típicamente en dos pasos:

    1.1. Cálculo de la puntuaciónCálculo de la puntuación

    2.2. Comparación con un umbralComparación con un umbral

    18Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocimiento multinivelde locutores

    (independiente de texto)

  • 10

    19Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocimiento de locutor multinivel•• Tradicionalmente (años 90), sólo sistemas basados en Tradicionalmente (años 90), sólo sistemas basados en

    parámetros “espectrales”parámetros “espectrales”

    Diferentes estrategias:Diferentes estrategias:

    DynamicDynamic Time Time WarpingWarping (DTW)(DTW)

    Vector Vector QuantizationQuantization (VQ)(VQ)

    Artificial Artificial NeuralNeural NetworkNetwork (ANN)(ANN)

    HiddenHidden MarkovMarkov ModelsModels (HMM)(HMM)

    GaussianGaussian Mixture Mixture ModelsModels (GMM)(GMM)

    •• Los sistemas de alto nivel proporcionan posibilidadesLos sistemas de alto nivel proporcionan posibilidades

    •• Especialmente para longitudes de entrenamento Especialmente para longitudes de entrenamento grandes (>10min.)grandes (>10min.)

    •• Para longitudes de entrenamiento pequeñas (

  • 11

    21Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Referencia: SuperSID:D. A. Reynolds, et al., “The SuperSID Project: Exploiting High-level Information for High-accuracy Speaker Recognition”, IEEE Intl. Conf. on Acous. Speech and Signal Proc., ICASSP 2003

    Fusión de sistemas a distintos niveles:AcústicoProsódicoFonéticoLéxicoConversacional…

    Reconocimiento de locutor multinivel

    22Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocimiento de locutora nivel espectral

  • 12

    23Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocimiento acústico de locutor•• Los sistemas acústicos basan el reconocimiento en las Los sistemas acústicos basan el reconocimiento en las

    características espectrales de la señal de vozcaracterísticas espectrales de la señal de voz

    •• Y en la variación de esas características a lo largo del Y en la variación de esas características a lo largo del tiempotiempo

    s i e t e c e r o

    0 1 2 3 4 5 6 7 8-70

    -60

    -50

    -40

    -30

    -20

    -10

    0

    Frecuencia(KHz)

    Ampl

    itud(

    dB)

    24Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Mecanismo de producción de voz•• El espectro de la señal de voz está directamente El espectro de la señal de voz está directamente

    relacionado conrelacionado con

    La señal de excitación procedente de las cuerdas La señal de excitación procedente de las cuerdas vocalesvocales

    La configuración de tracto vocalLa configuración de tracto vocal

  • 13

    25Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    •• Las cuerdas vocales generan el sonidoLas cuerdas vocales generan el sonido

    Señal de excitaciónSeñal de excitación

    Si las cuerdas vibran, señal sonora (estructura Si las cuerdas vibran, señal sonora (estructura periódica subyacente)periódica subyacente)

    Si las cuerdas no vibran, señal sorda (ruido, sin Si las cuerdas no vibran, señal sorda (ruido, sin periodicidad)periodicidad)

    Cuerdas vocales: excitación

    Ciclo de Ciclo de VibraciónVibración

    26Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Espectro: Sonidos Sordos•• Si las cuerdas vocales no vibran…Si las cuerdas vocales no vibran…

    Espectro ruidoso de alta frecuenciaEspectro ruidoso de alta frecuencia

    Ejemplo: “s sorda”, “f”, “z”…Ejemplo: “s sorda”, “f”, “z”…

  • 14

    27Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Espectro: Sonidos Sonoros•• Si las cuerdas vocales vibran…Si las cuerdas vocales vibran…

    Tono (Tono (pitchpitch) + formantes (envolvente)) + formantes (envolvente)

    Señal Señal cuasicuasi--periódica: pitchperiódica: pitch

    Ejemplo: vocales, “m”, “l”…Ejemplo: vocales, “m”, “l”…

    0 5 10 15 20 25 30 35 40 45

    -0.5

    -0.4

    -0.3

    -0.2

    -0.1

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    Tiempo(ms)

    Estructura periódica, alta energía

    0 1 2 3 4 5 6 7 8-70

    -60

    -50

    -40

    -30

    -20

    -10

    0

    Frecuencia(KHz)

    Ampl

    itud(

    dB)

    Estructura fina (armónicos) y formantes

    28Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    •• La señal de excitación define la frecuencia fundamental La señal de excitación define la frecuencia fundamental de vibración (de vibración (pitchpitch))

    •• Sin embargo, la forma del espectro (formantes) está Sin embargo, la forma del espectro (formantes) está definida por la configuración de los órganos articulatorios definida por la configuración de los órganos articulatorios (tracto vocal)(tracto vocal)

    Tracto vocal: articulación

    •• El tracto vocal de cada ser El tracto vocal de cada ser humano genera formantes humano genera formantes ligeramente diferentes para un ligeramente diferentes para un mismo sonidomismo sonido

    •• Por tanto, de la forma del Por tanto, de la forma del espectro se puede extraer espectro se puede extraer información que permite información que permite discriminar entre personasdiscriminar entre personas

  • 15

    29Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Pulso glotal y resonanciaTracto vocal(resonancia)

    Pulso glotal(vibración, periódica)

    Envolvente espectral:

    estructura del tracto vocal

    (particular de cada locutor)

    30Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Extracción de características•• Primer paso para el reconocimiento: Primer paso para el reconocimiento:

    extracción de característicasextracción de características

    Modelo AExtracción decaracterísticas ModeladoA

  • 16

    31Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    •• El espectro de la señal de voz tiene mucha variabilidad El espectro de la señal de voz tiene mucha variabilidad temporaltemporal

    Un análisis del espectro total de la voz (Un análisis del espectro total de la voz (a largo plazoa largo plazo) ) no resulta práctico, porque los espectros de los no resulta práctico, porque los espectros de los diferentes sonidos no se distinguiríandiferentes sonidos no se distinguirían

    Análisis a corto plazo

    s i e t e c e r o

    32Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    •• Sin embargo, a corto plazo (entre 5 y 30 Sin embargo, a corto plazo (entre 5 y 30 msms)…)…

    •• Sonidos sonoros se pueden considerar “periódicos”Sonidos sonoros se pueden considerar “periódicos”

    •• Sonidos sordos se pueden considerar “estacionarios”Sonidos sordos se pueden considerar “estacionarios”

    Estrategia: muchas “muestras” de la señal a corto Estrategia: muchas “muestras” de la señal a corto plazo (enventanado)plazo (enventanado)

    Análisis a corto plazo

    0.26 0.265 0.27 0.275 0.28 0.285 0.29 0.295Time (seconds)

    3.2 3.21 3.22 3.23 3.24 3.25Time (seconds)

    /a/ (sonora) /s/ (sorda)

  • 17

    33Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    •• Primer paso: Primer paso: enventanadoenventanado

    Se obtienen “trozos” de la señal con solapamientoSe obtienen “trozos” de la señal con solapamiento

    •• Segundo paso: Segundo paso: parametrizaciónparametrización

    Se obtienen características (parámetros) de cada ventanaSe obtienen características (parámetros) de cada ventana

    •• Se obtiene una Se obtiene una secuencia de vectores de parámetrossecuencia de vectores de parámetros

    Una secuencia por cada locuciónUna secuencia por cada locución

    Parametrización acústica

    o1

    o2

    o3

    o4

    o5

    ot

    oT

    AnalysisWindows

    FeatureVectors

    34Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    •• Objetivo: extraer información discriminante de cada Objetivo: extraer información discriminante de cada ventana de voz en la locuciónventana de voz en la locución

    •• De cada ventana se obtiene un vector de característicasDe cada ventana se obtiene un vector de características

    Generalmente de longitud fijaGeneralmente de longitud fija

    •• Diversos tiposDiversos tipos•• MelMel FrequencyFrequency CepstralCepstral CoefficientsCoefficients (MFCC)(MFCC)

    •• Linear Linear PredictionPrediction CepstalCepstal CoefficientsCoefficients (LPCC)(LPCC)

    Parametrización acústica

    0 1 2 3 4 5 6 7 8-70

    -60

    -50

    -40

    -30

    -20

    -10

    0

    Frecuencia(KHz)

    Ampl

    itud(

    dB)

    Parametrización

  • 18

    35Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Mel Frequency Cepstral Coefficients (MFCC)•• Banco de filtros Banco de filtros MelMel

    La escala La escala MelMel está basada en la percepción logarítmica está basada en la percepción logarítmica del oído humanodel oído humano

    Frequency

    m1 m2 mp...

    Cepstraltransform

    f1 f2 fD...

    •• Trasformada Trasformada cepstralcepstral•• Propiedades Propiedades interesatnesinteresatnes

    •• DeconvolucíónDeconvolucíón

    •• OrtogonalizaciónOrtogonalización

    •• Parte de esos coeficientes Parte de esos coeficientes cepstralescepstrales serán el vector serán el vector de parámetros de esa de parámetros de esa ventana ventana

    36Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Linear Prediction Cepstral Coefficients (LPCC)

    •• La envolvente de la ventana La envolvente de la ventana bajo análisis se estima bajo análisis se estima utilizando un filtro de utilizando un filtro de predicción linealpredicción lineal

    •• La transformada La transformada cepstralcepstral de de los coeficientes de dicho filtro los coeficientes de dicho filtro genera unos coeficientes genera unos coeficientes transformadostransformados

    •• Parte de esos coeficientes Parte de esos coeficientes cepstralescepstrales serán el vector de serán el vector de parámetros de esa ventana parámetros de esa ventana

  • 19

    37Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Siete hablantes españoles Un hablante por idioma

    Espacio de características espectrales•• El espacio de características es compartido por cada El espacio de características es compartido por cada

    locutor y hay solapamiento entre elloslocutor y hay solapamiento entre ellos

    •• Además, existe variabilidad dentro del mismo locutor por Además, existe variabilidad dentro del mismo locutor por diversos factoresdiversos factores

    38Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Modelado•• Una vez extraídos los parámetros, será necesario crear Una vez extraídos los parámetros, será necesario crear

    un modelo para cada locutorun modelo para cada locutor

    •• La puntuación se obtendrá comparando la locución de La puntuación se obtendrá comparando la locución de prueba con el modelo creado (prueba con el modelo creado (entrenadoentrenado))

    •• Veremos dos tipos de modelado y cálculo de puntuación Veremos dos tipos de modelado y cálculo de puntuación de características espectralesde características espectrales

    •• GMMGMM

    •• SVMSVM--GMMGMM

    Modelo AExtracción decaracterísticas ModeladoA

  • 20

    39Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Modelos de mezclas de gaussianas(Gaussian Mixture Models, GMM)

    40Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Modelos de Mezclas de Gaussianas (GMM)•• Función densidad de probabilidad multidimensionalFunción densidad de probabilidad multidimensional

    •• Modela la probabilidad de obtener características de un Modela la probabilidad de obtener características de un locutor determinado en el espaciolocutor determinado en el espacio

    •• Suma ponderada de densidades de probabilidad Suma ponderada de densidades de probabilidad gaussianasgaussianas

    •• Función densidad de probabilidadFunción densidad de probabilidad

    •• Ejemplo:Ejemplo:

    •• M=4M=4 componentes componentes (mezclas) (mezclas) gaussianasgaussianas

    •• Espacio de características Espacio de características de de D=2D=2 dimensionesdimensiones

    •• Detalles en [Reynolds00]Detalles en [Reynolds00]

  • 21

    41Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    0.2

    0.2

    0.2

    0.20.2

    0.2

    0.2 0.

    2

    0.2

    0.4

    0.4

    0.4

    0.4

    0.4

    0.4

    0.4

    0.6

    0.60.6

    0.60.8

    0.8

    0.81

    1

    1.21.4

    0 0.5 1 1.5 2 2.5 30

    0.5

    1

    1.5

    2

    2.5

    3

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    1.1

    1.2

    1.3

    Modelos de Mezclas de Gaussianas (GMM)Vector de medias (mezcla i): μp={μip}

    Matriz de covarianzas (mezcla i): Σ p={Σip}

    Vector de pesos (mezcla i): ω p={ωip}, Σi ωip=1

    Modelo del locutor p: λp={μip,Σip,ωip}

    ( ) ( )1

    M

    p ip ipi

    p gλ ω=

    =∑o o( ) ( ),ip ip ipg N= Σo μ

    •• Regiones diferentes del Regiones diferentes del espacio corresponden a espacio corresponden a configuraciones diferentes configuraciones diferentes del tracto vocaldel tracto vocal

    •• Valores diferentes de Valores diferentes de las característicaslas características

    •• GMM representa bien muy GMM representa bien muy diversas distribuciones de diversas distribuciones de característicascaracterísticas

    42Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Entrenamiento GMM

    ci

    cj

    xx

    x

    x

    x

    x x

    x

    x

    x

    x

    xx

    x

    A

    Extracción decaracterísticas

    •• A partir de datos de A partir de datos de entrenamientoentrenamiento

  • 22

    43Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    ci

    cj

    xx

    x

    x

    x

    x x

    x

    x

    x

    x

    xx

    x

    •• A partir de datos de A partir de datos de entrenamientoentrenamiento

    •• Inicialización del modeloInicialización del modelo

    Entrenamiento GMM

    44Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    cici

    cj

    xx

    x

    x

    x

    x x

    x

    x

    x

    x

    xx

    x

    •• A partir de datos de A partir de datos de entrenamientoentrenamiento

    •• Inicialización del modeloInicialización del modelo

    •• Maximum Likelihood (ML)Maximum Likelihood (ML)•• Ajuste a datosAjuste a datos

    •• IterativamenteIterativamente

    •• Algoritmo Expectation Algoritmo Expectation Maximization (EM)Maximization (EM)

    Entrenamiento GMM

  • 23

    45Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    cici

    cj

    xx

    x

    x

    x

    x x

    x

    x

    x

    x

    xx

    x

    •• A partir de datos de A partir de datos de entrenamientoentrenamiento

    •• Inicialización del modeloInicialización del modelo

    •• Maximum Likelihood (ML)Maximum Likelihood (ML)•• Ajuste a datosAjuste a datos

    •• IterativamenteIterativamente

    •• Algoritmo Expectation Algoritmo Expectation Maximization (EM)Maximization (EM)

    Entrenamiento GMM

    46Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    ci

    cj

    xx

    x

    x

    x

    x x

    x

    x

    x

    x

    xx

    x

    •• A partir de datos de A partir de datos de entrenamientoentrenamiento

    •• Inicialización del modeloInicialización del modelo

    •• Maximum Likelihood (ML)Maximum Likelihood (ML)•• Ajuste a datosAjuste a datos

    •• IterativamenteIterativamente

    •• Algoritmo Expectation Algoritmo Expectation Maximization (EM)Maximization (EM)

    •• Modelo GMM A entrenadoModelo GMM A entrenado

    Entrenamiento GMM

  • 24

    47Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    B

    Cálculo del score utilizando GMM

    ( )1

    ( ) tT

    At

    Ap pλ λ=

    = ∏O o

    o1

    o2

    o3o4o5

    o6

    cj

    (o1,...,o6)

    Extracción decaracterísticas

    ciModelo GMM de AModelo GMM de A

    •• Partimos del modelo GMM entrenado con el habla de Partimos del modelo GMM entrenado con el habla de identidad Aidentidad A

    •• Extraemos características del habla de Extraemos características del habla de identidad Bidentidad B

    •• Cálculo del Cálculo del scorescore::

    •• Probabilidad de las muestras de Probabilidad de las muestras de BB suponiendo el modelo de suponiendo el modelo de AA

    •• Asumiendo independencia entre muestrasAsumiendo independencia entre muestras

    48Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Adaptación desde modelo universal•• El habla de entrenamiento en general es limitadaEl habla de entrenamiento en general es limitada

    •• Pueden entrenarse modelos de locutor no generalesPueden entrenarse modelos de locutor no generales

    •• SobreajusteSobreajuste a datos de entrenamientoa datos de entrenamiento

    •• Universal Background Universal Background ModelModel (UBM)(UBM)•• Entrenado con habla de muchos individuosEntrenado con habla de muchos individuos

    •• Intenta modelar la máxima variabilidad para la aplicación dadaIntenta modelar la máxima variabilidad para la aplicación dada

    •• Idea:Idea:•• UBM representa distribuciones de características UBM representa distribuciones de características comunes a todos comunes a todos

    los locutoreslos locutores

    •• El modelo de locutor se adapta desde el UBMEl modelo de locutor se adapta desde el UBM

    •• Características de entrenamiento: distribución particular del Características de entrenamiento: distribución particular del locutorlocutor

    •• Las regiones del espacio en las que no hay características del Las regiones del espacio en las que no hay características del locutor mantienen la distribución común a todos (UBM)locutor mantienen la distribución común a todos (UBM)

    •• Robustez frente a pocos datos de entrenamientoRobustez frente a pocos datos de entrenamiento

  • 25

    49Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    cj

    ci

    Extracción

    x

    x

    x

    xx x

    xxx x

    xx

    xx

    xx xx

    xx

    x

    x

    x

    xx

    x

    xx

    •• Características de un conjunto grande de locutoresCaracterísticas de un conjunto grande de locutores

    •• Representa la variabilidad en la aplicación objetivoRepresenta la variabilidad en la aplicación objetivo

    Adaptación desde UBM

    50Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    cj

    ciUBMUBM

    x

    x

    x

    xx x

    xxx x

    xx

    xx

    xx xx

    xx

    x

    x

    x

    xx

    x

    xx

    Extracción

    •• Entrenamiento de UBMEntrenamiento de UBM

    •• ML con algoritmo EMML con algoritmo EM

    Adaptación desde UBM

  • 26

    51Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    cj

    ciUBMUBM

    Adaptación desde UBM•• Entrenamiento de UBMEntrenamiento de UBM

    •• ML con algoritmo EMML con algoritmo EM

    52Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    cj

    ci

    Feature extraction

    A

    xx

    x

    xx xxcj

    ciUBMUBM

    Adaptación desde UBM•• Características del habla de entrenamiento (A)Características del habla de entrenamiento (A)

    •• Pueden ser escasasPueden ser escasas

  • 27

    53Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    cj

    ciSpeaker Model ASpeaker Model A

    xx

    x

    xx xxcj

    ciUBMUBM

    Feature extraction

    A

    Adaptación desde UBM•• Adaptación a partir del UBMAdaptación a partir del UBM

    •• Máximo A Posteriori (MAP)Máximo A Posteriori (MAP)

    •• Utilizando de nuevo el algoritmo EMUtilizando de nuevo el algoritmo EM

    •• El modelo cambiará en las regiones El modelo cambiará en las regiones con datos de entrenamientocon datos de entrenamiento

    •• En el resto de regiones el modelo En el resto de regiones el modelo se mantiene como el UBMse mantiene como el UBM

    54Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Puntuación GMM-UBM

    ( )1

    ( )UBM UT

    tBMtp pλ λ

    =

    =∏O o

    B Extracción

    PuntuaciónModelo A

    PuntuaciónUBM

    /

    ( )1

    ( ) tT

    At

    Ap pλ λ=

    =∏O o

    ( )

    ( )1

    1

    score logt

    t

    T

    U

    t

    B

    T

    A

    Mt

    p

    p

    λ

    λ

    =

    =

    ⎛ ⎞⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎝ ⎠

    o

    o

    •• Puntuación frente al modelo con respecto a puntuación frente al Puntuación frente al modelo con respecto a puntuación frente al UBMUBM

    •• Resalta especificidades del locutor con respecto al universoResalta especificidades del locutor con respecto al universo

  • 28

    55Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Máquinas de vectores soporte (SVM)utilizando supervectores GMM

    56Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Máquinas de vectores soporte (SVM)utilizando supervectores GMM

    1( , ..., )A M=x µ µ

    cj

    ciGMM locución AGMM locución A

    •• SVM: plano de separación óptimo entre características de clases SVM: plano de separación óptimo entre características de clases distintasdistintas•• Pero las características espectrales son difíciles de separar coPero las características espectrales son difíciles de separar con un plano…n un plano…

    •• Espacio de características alternativo: supervectores GMM [CampbEspacio de características alternativo: supervectores GMM [Campbell06]ell06]•• Paso 1: Se entrena un GMM por cada locuciónPaso 1: Se entrena un GMM por cada locución

    •• Paso 2: construcción del Paso 2: construcción del supervectorsupervectorcon los vectores de medias del GMM con los vectores de medias del GMM concatenadosconcatenados

    •• Nuevo espacio de Nuevo espacio de dimensiondimension D x MD x M

    •• D es la dimensión del espacio D es la dimensión del espacio originaloriginal

    •• M es el número de mezclas del GMMM es el número de mezclas del GMM

  • 29

    57Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    cj

    ciModelo GMM AModelo GMM A

    cj

    ciModelo GMM BModelo GMM B

    A

    B

    Paso 1: modelado

    Paso 2: cálculo del scorex

    B

    Modelo SVM A(hiperplano de

    separación)

    Score(distancia alhiperplano)

    Máquinas de vectores soporte (SVM)utilizando supervectores GMM

    xA

    Impostores

    58Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Sistemas de Alto Nivel:Fonético

  • 30

    59Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocimiento Fonético•• Discrimina locutores por el uso que hacen de los sonidosDiscrimina locutores por el uso que hacen de los sonidos

    Diferentes locutores emplearán sonidos diferentesDiferentes locutores emplearán sonidos diferentes

    •• Objetivo: medida de similitud entre secuencias de fonemas Objetivo: medida de similitud entre secuencias de fonemas reconocidosreconocidos

    •• ¿Qué necesitamos?:¿Qué necesitamos?:

    1.1. Reconocedor fonético (uno o varios, diferentes Reconocedor fonético (uno o varios, diferentes configuracionsconfiguracions y/ó idiomas)y/ó idiomas)

    transcripcióntranscripción fonéticafonética

    2.2. Modelado de lenguaje con nModelado de lenguaje con n--gramas gramas

    bigrambigram, trigram, 4, trigram, 4--gramgram……

    60Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocedor Fonético•• Como entrada recibe la señal de vozComo entrada recibe la señal de voz

    •• Como salida devuelve una secuencia de fonemas Como salida devuelve una secuencia de fonemas reconocidosreconocidos

    •• Basado en modelos de fonemaBasado en modelos de fonema

    •• Alto coste computacionalAlto coste computacional

    •• No exento de erroresNo exento de errores

    •• Sensible a variabilidad en el hablaSensible a variabilidad en el habla

    Locución deentrada:“casa”

    Reconocedorfonético

    /k/ /a/ /s/ /a/

  • 31

    61Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Modelo de lenguaje•• Trata de representar la frecuencia de ocurrencia de Trata de representar la frecuencia de ocurrencia de

    secuencias de fonemas o “nsecuencias de fonemas o “n--gramas”gramas”

    •• Un nUn n--grama es una secuencia de n fonemas seguidos en la grama es una secuencia de n fonemas seguidos en la cadena reconocidacadena reconocida

    •• A partir de una locución de entrenamiento se obtiene:A partir de una locución de entrenamiento se obtiene:

    •• La probabilidad de que una secuencia de fonemas de La probabilidad de que una secuencia de fonemas de testtestla haya pronunciado el locutor “i” se obtiene a partir de la la haya pronunciado el locutor “i” se obtiene a partir de la probabilidad de cada nprobabilidad de cada n--grama en la secuenciagrama en la secuencia

    Generalmente se asume independencia (producto)Generalmente se asume independencia (producto)

    /k/ /a/ /s/ /a/ … Modelado den-gramas

    Probabilidades decada n-grama

    para el locutor “i”

    62Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Sistema fonético•• Cálculo del Cálculo del scorescore

  • 32

    63Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Sistemas de Alto Nivel:Prosódico

    64Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Información prosódica

    Pausas y declinación

    Duración Pitch (F0) Energía

    Semántica, Léxico …

    Estilo de habla

    Leída

    Espontánea

    Conversación

    Susurro

    Estado:

    Edad

    Sexo

    Ánimo

    Prosodia = f (semántica, léxico… , edad, emoción, … , estilo de habla, …. )

    Lingüístico Extralingüístico

  • 33

    65Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocimiento Prosódico•• Discrimina locutores por el uso que hacen de la prosodiaDiscrimina locutores por el uso que hacen de la prosodia

    Diferentes locutores emplearán la prosodia de manera Diferentes locutores emplearán la prosodia de manera diferentediferente

    •• Objetivo: medida de similitudes entre la prosodia de dos Objetivo: medida de similitudes entre la prosodia de dos locucioneslocuciones

    Variación de la energíaVariación de la energía

    Variación de la frecuencia Variación de la frecuencia funcamentalfuncamental ((pitchpitch, f0), f0)

    ……

    66Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Reconocimiento Prosódico

    •• ¿Qué necesitamos?:¿Qué necesitamos?:

    1.1. Extraer la variación de la energía y la F0Extraer la variación de la energía y la F0

    2.2. Modelado estadístico mediante nModelado estadístico mediante n--gramas gramas

    bigrambigram, trigram, 4, trigram, 4--gramgram……

  • 34

    67Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Parametrización prosódica: F0 y energía

    68Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    1 2 43 5 6 7 8

    Contornos de F0 y Energía

    ContornosAprox. Lineal

    O Puntos de inflexiónO Comienzo-final

  • 35

    69Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    *+S+F+S+F-F-F-S-F-S-F-S-F+S+F+S+FE

    UV-S-S-F-F+S+S+F+F-S-S-F-F+S+S+F+FFO

    1716151413121110987654321TOKEN

    F0

    Log E

    +F=Fast-rising; +S=Slow-rising; -F=Fast-falling; -S=Slow-falling; UV=Unvoiced

    Cuantificación•• Se detectan tipos de contornoSe detectan tipos de contorno

    Sube rápido, baja rápido, sube despacio…Sube rápido, baja rápido, sube despacio…

    •• A cada tipo de contorno se le asigna una clase (A cada tipo de contorno se le asigna una clase (tokentoken))

    70Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Modelo de n-gramas•• Trata de representar la frecuencia de ocurrencia de Trata de representar la frecuencia de ocurrencia de

    secuencias de secuencias de tokenstokens o “no “n--gramas”gramas”

    •• Un nUn n--grama es una secuencia de n grama es una secuencia de n tokenstokens seguidos en la seguidos en la cadena cuantificadacadena cuantificada

    •• A partir de una locución de entrenamiento se obtiene:A partir de una locución de entrenamiento se obtiene:

    •• ScoringScoring igual que en reconocimiento fonéticoigual que en reconocimiento fonético

    T8 T16 T5 T3 … Modelado den-gramas

    Probabilidades decada n-grama

    para el locutor “i”

  • 36

    71Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Compensación de variabilidadentre sesiones

    72Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Variabilidad: el desafío

    •• El reconocimiento espectral supera ampliamente en El reconocimiento espectral supera ampliamente en rendimiento al de alto nivelrendimiento al de alto nivel

    •• Pero la Pero la variabilidadvariabilidad sigue siendo un problemasigue siendo un problema

    Aún muy dañina (micro vs. teléfono, alto ruido o Aún muy dañina (micro vs. teléfono, alto ruido o reverberación, etc.)reverberación, etc.)

    Técnicas de Técnicas de compensacióncompensación

  • 37

    73Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Compensación: factor analysis y cía.•• Variabilidad entre sesionesVariabilidad entre sesiones

    74Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Compensación: factor analysis y cía.•• Idea sencilla: búsqueda y compensación de direcciones de Idea sencilla: búsqueda y compensación de direcciones de

    variación no deseadasvariación no deseadas

    •• Implementación no tan sencilla…Implementación no tan sencilla…

    eigen

    ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )1 11

    KT Ts s s s s s sm m m t m m m m

    s m t s m t kt j t w k j kγ γ− −

    =

    ⎧ ⎫= ⎨ ⎬⎩ ⎭

    ∑∑∑ ∑∑∑ ∑e Σ o e Σ e

  • 38

    75Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Compensación: factor analysis y cía.

    •• ““Y cía.” (Y cía.” (sicsic) porque existen muchas variantes) porque existen muchas variantes

    Factor Factor analysisanalysis

    JointJoint factor factor analysisanalysis

    NuissanceNuissance AttributeAttribute ProjectionProjection

    ChannelChannel factorsfactors

    Speaker Speaker FactorsFactors

    ......

    Vendrán más, es un campo en actual ebulliciónVendrán más, es un campo en actual ebullición

    •• Factor Factor analysisanalysis ha revolucionado la compensación de canalha revolucionado la compensación de canal

    76Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Estado del Arte y tendencias

  • 39

    77Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Estado del Arte•• Dominio de los sistemas Dominio de los sistemas espectralesespectrales

    •• Superan a los sistemas de alto nivelSuperan a los sistemas de alto nivel

    •• [Reynolds00, Campbell06][Reynolds00, Campbell06]

    •• Compensación de Compensación de variabilidadvariabilidad entre sesionesentre sesiones

    •• Intensa actividad investigadora en la actualidadIntensa actividad investigadora en la actualidad

    •• [Kenny07,Vogt07][Kenny07,Vogt07]

    •• FusiónFusión de diferentes sistemasde diferentes sistemas

    •• Explotar información complementariaExplotar información complementaria

    •• [Brummer07][Brummer07]

    •• Tema de Tema de multibiometríamultibiometría

    78Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Desafíos actuales•• VariabilidadVariabilidad de la voz entre sesionesde la voz entre sesiones

    •• Sigue siendo muy problemático en condiciones Sigue siendo muy problemático en condiciones extremas extremas

    •• [Kenny07,Vogt07][Kenny07,Vogt07]

    •• Degradación del rendimiento con Degradación del rendimiento con poco materialpoco material de vozde voz

    •• Locuciones cortas (típicamente de prueba)Locuciones cortas (típicamente de prueba)

    •• [Vogt08,Fauve08][Vogt08,Fauve08]

    •• Desajuste de base de datosDesajuste de base de datos

    •• El sistema se entrena con datos en condiciones muy El sistema se entrena con datos en condiciones muy diferentes a la de funcionamiento real (ruido, estilo de diferentes a la de funcionamiento real (ruido, estilo de habla, reverberación, etc.)habla, reverberación, etc.)

    •• [Ramos08][Ramos08]

  • 40

    79Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Evaluaciones NIST dereconocimiento de locutor

    80Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Evaluaciones NIST•• Realizadas anualmente por el NIST americano (Realizadas anualmente por el NIST americano (NationalNational

    InstituteInstitute ofof StandardsStandards andand TechnologyTechnology))

    •• Objetivo: fomentar el desarrollo de la tecnología de Objetivo: fomentar el desarrollo de la tecnología de reconocimiento de locutorreconocimiento de locutor

    •• Primera edición en 1998Primera edición en 1998

    ATVS ha participado de manera exitosa desde 2001 ATVS ha participado de manera exitosa desde 2001 salvo en la edición de 2003salvo en la edición de 2003

    •• Impulso radical en la tecnología de reconocimiento de Impulso radical en la tecnología de reconocimiento de locutorlocutor

    Bases de datosBases de datos

    Protocolos comunesProtocolos comunes

    Foro científico muy competitivoForo científico muy competitivo

    •• www.nist.govwww.nist.gov//speechspeech

  • 41

    81Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    ATVS-UAM en NIST SRE 2008•• Sistema primario ATVS1Sistema primario ATVS1

    •• Fusión de sistemas espectrales con compensación de Fusión de sistemas espectrales con compensación de variabilidadvariabilidad

    •• GMM, SVMGMM, SVM--GMM, SVMGMM, SVM--GLDSGLDS

    •• SubSub--condición teléfono (entrenamiento) vs. teléfono (condición teléfono (entrenamiento) vs. teléfono (testtest))

    82Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    ATVS-UAM en NIST SRE 2008•• SubSub--condición micrófono (entrenamiento) vs. micrófono condición micrófono (entrenamiento) vs. micrófono

    ((testtest))

    •• 8 diferentes tipos de micrófono, muy diversas calidades8 diferentes tipos de micrófono, muy diversas calidades

    •• Diferentes estilos de habla (conversación, entrevista)Diferentes estilos de habla (conversación, entrevista)

  • 42

    83Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Teléfono vs. micrófono Micrófono vs. teléfono

    ATVS-UAM en NIST SRE 2008•• Condiciones de desajuste muy fuerteCondiciones de desajuste muy fuerte

    •• RobustezRobustez

    84Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Efecto y compensación de variabilidad

    Desajuste de base de datos(datos microfónicos)

    Compensación devariabilidad entre sesiones

    Eliminación de ruido(filtrado de Wiener)

    •• Desarrollo NIST SRE 2008, hombresDesarrollo NIST SRE 2008, hombres

  • 43

    85Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Conclusiones

    86Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Conclusiones•• Señal de voz: gran cantidad de información sobre hablanteSeñal de voz: gran cantidad de información sobre hablante

    Distintos niveles de identidadDistintos niveles de identidad

    Muy alta variabilidadMuy alta variabilidad

    •• EstrategisEstrategis en biometría vocal:en biometría vocal:

    Combinación de múltiples extractores de informaciónCombinación de múltiples extractores de información

    Fusión Fusión multinivelmultinivel

    Fusión Fusión multisistemamultisistema

    Algoritmos de compensación de variabilidadAlgoritmos de compensación de variabilidad

    Problema de difícil resoluciónProblema de difícil resolución

    Gran actividad investigadoraGran actividad investigadora

    •• Evaluaciones NIST: claves en el desarrollo de la tecnología Evaluaciones NIST: claves en el desarrollo de la tecnología de reconocimiento de locutorde reconocimiento de locutor

  • 44

    87Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Muchas Gracias

    Referencias

  • 45

    89Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Referencias[Reynolds00] D. A. Reynolds et al., 2000. “Speaker verification using adapted Gaussian mixture models,” Digital Signal Processing, v. 10, pp. 19–41, 2000.[Campbell06] W. M. Campbell et al., 2006. “Support vector machines using GMM supervectors for speaker verification”. Signal Processing Letters, v. 13(5), pp. 308-311.[Reynolds03] D. A. Reynolds et al., 2003. “The SuperSID project: Exploiting high-level information for high-accuracy speaker recognition”. Proc. of ICASSP 2003, Hong Kong, China.[Karajarekar04] S. Kajarekar et al., 2004. “Modelling NERFs for Speaker Recognition”. Proc. of Odyssey 2004, Toledo, Spain.[Rabiner07] L. Rabiner, 2007. “HMMs and Related Speech Technologies.” In Springer Handbook of Speech Technologies (ISBN: 978-3-540-49125-5). J. Benesty, M. M. Sondhi, Y. Huang (Eds.).[Stolcke06] A. Stolcke et al., 2005. “MLLR Transforms as Features in Speaker Recognition”. Proc. of Interspeech 2005, Lisbon, Portugal.

    90Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Referencias[Campbell06b] W. M. Campbell et al., 2006. “Support vector machines for speaker and language recognition”. Computer Speech and Language, v. 20(2-3), pp. 210-229.[Lopez07] I. Lopez-Moreno et al. “Support Vector Regression for Speaker Verification.” Proc. of Interspeech 2007, pp. 306-309. Antwerp, Belgium.[Auckenthaller00] R. Auckenthaler et al., 2000. “Score normalization for text-independent speaker verification systems.” Digital Signal Processing, vol. 10, pp. 42–54.[Brummer07] N. Brümmer et al., 2007. “Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006.” IEEE Transactions on Audio, Speech and Signal Processing, vol. 15, no. 7, pp. 2072–2084.[Kenny07] P. Kenny et al., 2007. “Speaker and session variability in GMM-based speaker verification.” IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 4, pp. 1448–1460.

  • 46

    91Técnicas biométricas aplicadas a la seguridad

    Reconocimiento de locutor

    Referencias

    [Vogt07] R. Vogt and S. Sridharan, 2007. “Explicit modelling of session variability for speaker verification.” Computer Speech and Language, vol. 22, no. 1, pp. 17–38.[Vogt08] R. Vogt et al., 2008. “Factor Analysis Modelling for Speaker Verification with Short Utterances.” Proc. of Odyssey 2008, Stellenbosch, South Africa.[Fauve08] B. Fauve et al., 2008. “Improving the performance of text-independent short duration SVM- and GMM-based speaker verification.” Proc. Of Odyssey, Stellenbosch, South Africa.[Ramos08] D. Ramos et al., 2008. “Addressing database mismatch in forensic speaker recognition with Ahumada III: a public real-casework database in Spanish.” Proc. of Interspeech 2008, Brisbane, Australia.

    Reconocimiento de Locutor(Biometría Vocal)

    Daniel Ramos [email protected]

    ATVS – Biometric Recognition Grouphttp://atvs.ii.uam.es

    Universidad Autónoma de Madrid