Trabajo final de reconocimiento de habla

 

Objetivo: Construcción de un reconocedor automático de dígitos y nombres dependiente del hablante.

 

Entrega: La entrega consistirá de los siguientes elementos: gramática, diccionario, archivos de transcripción (Master Label File), resultados obtenidos por el programa HResults y los modelos markovianos ocultos creados.

 

Aclaraciones:

 

El HTK toolkit tiene sus ejemplos en inglés. Por este motivo, es necesario construir varias cosas desde cero. En primer lugar, debe definirse un conjunto de caracteres fonémicos para etiquetar el corpus, ya que el que contiene el HTK es para el idioma inglés. La opción es el SAMPA. Siendo ésta la opción, es necesario utilizar caracteres especiales para señalar pausa y silencio, pudiéndose optar por los que usa el HTK.

 

En segundo lugar, es conveniente construir la gramática de reconocimiento. Puede tomarse como modelo la que aparece en el capítulo 3 mencionado, aunque es necesario traducirla al español.

 

En tercer lugar, es necesario construir el diccionario con el conjunto de caracteres fonémicos elegidos . Para ello puede utilizarse el programa HGen, que toma una gramática y genera las posibles emisiones. Luego, estas emisiones pueden guardarse en un archivo de texto y extraer las palabras utilizadas para construir el diccionario por medio de herramientas como sort y uniq (textutils) recomendadas en el HTKBook. Hay versiones para Windows de estas herramientas en www.gnu.org.

 

En cuarto lugar, deben generarse los archivos de onda con sus correspondientes transcripciones. Lamentablemente el HTK no cuenta con un corpus para realizar un alineamiento automático en español. Por lo tanto, es necesario etiquetar los archivos de onda de un conjunto de oraciones balanceadas fonéticamente (es decir que aparezcan por lo menos una vez cada uno de los fonemas). Es necesario tener varios grupos de oraciones balanceadas, para cerciorarse de la aparición en más de una ocasión de los fonemas en cuestión. El etiquetamiento puede realizarse con la herramienta provista por el HTK, HSLab, u otra un poco más amigable. Un alineador en español puede encontrarse en CSLU Toolkit, de la Universidad de Oregon.

 

Como mínimo se pide que se construya un modelo markoviano oculto de monófonos, aunque los resultados seguramente van a ser más pobres. Está abierto el camino para trabajar con trifonos, y no es significativa la diferencia de tiempo de trabajo.

 

Bibliografía

Los pasos necesarios para la realización del trabajo práctico pueden encontrarse en el Capítulo 3, del "HTKBook", página 21 a 43. Los capítulos siguientes sirven para profundizar en algunos temas.