Trabajo Final de Síntesis de Habla

 

Síntesis en un dominio limitado. Creación de una base de datos de difonos.

 

 

Descripción:

 

El trabajo práctico consiste en el desarrollo de una nueva voz para el TTS “Festival” de la Universidad de Edimburgo. Se creará una voz para un dominio limitado, por ejemplo, anuncio de partidas de vuelo, un reloj parlante o un para decir códigos telefónicos de área. Los pasos a seguir son los siguientes:

 

a)    Diseño del corpus. Se seleccionaran las frases mas adecuadas para cada aplicación, por ejemplo:

 

COMPANIA anuncia la partida de su vuelo NUMERO con destino a la ciudad de NOMBRE DE LA CIUDAD.

 

Donde los nombres con mayúsculas indican los lugares que serán llenados por las distintas opciones. El número de oraciones depende de la diversidad de palabras y de la complejidad fonética que éstas presenten.

 

b)    El corpus escrito se sintetiza por el TTS que ya cuenta con una voz en español.

c)    Se graba el corpus con la voz de la persona elegida para esta tarea (puede ser uno mismo).

d)    Se etiqueta el corpus en forma automática, tomando como base las oraciones que ya generó el TTS.

e)    Se extraen las marcas de pitch.

f)     Se extrae los parámetros pertenecientes al pitch-sinchronous.

g)    Se construye una selección de unidades para el sintetizador mediante clustering.

h)    Se prueban y se corrigen los errores.

i)     Por último se construye la base de datos de difonos.

 

Todos estos pasos están puntualmente descriptos en la bibliografía.

 

Bibliografía principal: La bibliografía, programas y scripts se encuentran en el sitio http://www.festvox.org/

 

Building Voices in the Festival Speech Synthesis System .Processes and issues in building speech synthesis voices. Alan W. Black y Kevin A. Lenzo.

Limited Domain Synthesis. Alan W. Black y Kevin A. Lenzo.