Materia Tecnologías del habla

Programa
Cronograma
Novedades

¿Qué son las tecnologías del habla -TH-?
¿Cuáles son las disciplinas que intervienen en las TH?
Principales tecnologías del habla.
Aplicaciones de las tecnologías del habla
Publicaciones periódicas sobre las tecnologías del habla
Links a software disponible
Links a centros de investigación
Bibliografía
Consultas


Información-Bibliografía-Links-Software

Tecnologías del habla

¿Que son las tecnologías del habla?

Se denominan tecnologias del habla a aquellas que utilizan al habla como vehículo en la comunicacion hombre-máquina. Ejemplos de tecnologías del habla son el reconocimiento automatico de voz, la síntesis de voz o habla sintética y la verificación de la identidad o identificación del hablante mediante software. En los últimos años, el continuo desarrollo de microprocesadores, de técnicas relativas al procesamiento digital de señales y de las telecomunicaciones permitieron que las tecnologias del habla pasaran de ser un tema puramente de investigación a también incluir aplicacion.

Principales Tecnologías del Habla

1. Codificación de la voz: formas de compresión de la voz digitalizada como señal para su transmisión y almacenamiento en una forma económica.

2. Síntesis de la voz: el proceso de crear una réplica sintética de la señal de la voz.

3. Reconocimiento de habla: el proceso de extraer la información del mensaje de la señal de la voz.

4. Verificación de la identidad del hablante: proceso por el cual se identifica o verifica el hablante de acuerdo a las características individuales de la voz.

5. Traducción del lenguaje hablado: es el proceso de reconocimiento del habla de una persona que habla en una lengua y se traduce el contenido del mensaje a otra.

Aplicaciones de las tecnologías del habla

Las tecnologías del habla se aplican a sistemas comerciales, institucionales,educativos e industriales. Cabe destacar, que de los mencionados aquí, muchos se encuentran en un período experimental, necesitándose todavía de más investigación para solucionar numerosos problemas de implementación y diseño. Podemos clasificar los sistemas del siguiente modo:

Comeciales

Atendedores automáticos telefónicos.(Reconocimiento de voz).

Portales de voz.(Reconocimiento y síntesis de voz).

Autorización de transacciones comerciales. (Reconocimiento de voz).

Verificación de la identidad del hablante en transacciones comerciales o para accesos a lugares físicos o virtuales privados.

Dictadores para procesadores de texto u otro tipo de software. (Reconocimiento de voz).

Anunciador de partidas de servicios de transporte.(Síntesis de voz).

Lectores de e-mails.(Síntesis de voz).

Institucionales

. Identificación del hablante en pericias judiciales. (Reconocimiento por voz).

Detección de niveles de contaminación a través de la voz.

Educativos y otros

. Enseñanza de lenguas y segundas lenguas.(Síntesis, Reconocimiento y Procesamiento del lenguaje Natural).

Sistemas para la reeducación de personas con discapacidades fono-auditivas.(Reconocimiento y síntesis).

Lectores de periódicos para personas con discapacidades visuales.(Síntesis).

Proyectos para la operación de computadoras por personas no-videntes. Ejemplo: Blind-Linux.

Subtitulado de materiales audiovisuales para personas con discapacidades auditivas. (Reconocimiento de voz).

En la industria

. Comunicación hombre-máquina en ambientes críticos o de riesgo laboral.

¿Cuáles son las disciplinas que colaboran en las TH?

Las áreas de la ciencia involucradas en las tecnologías del habla son numerosas y de diversa índole. En general, mantienen una relación interdisciplinaria. Para mencionar las más importantes encontramos las siguientes:

La Fonética y la Lingüística

. La fonética es el estudio de los sonidos del habla humana. Asume tres perspectivas: la articulatoria, que estudia los sonidos en sus aspectos fisiológicos y anatómicos, la acústica, que estudia sus propiedades físicas, y la perceptual, que estudia los sonidos del habla tal como son percibidos por el sistema auditivo. La fonética acústica a partir de los años cincuenta con el surgimiento del espectrógrafo electrónico, permitió desarrollar técnicas objetivas de medición de los sonidos del habla, dio los conocimientos necesarios para producirlos en forma artificial o sintética a partir de parámetros acústicos y las pistas para su reconocimiento. Luego, el procesamiento digital de señales, dentro de las cuales se encuentran los sonidos del habla, sentó las bases para que las operaciones de análisis, síntesis y reconocimiento pudieran hacerse mediante computadoras. La lingüística, por su parte, aunque en menor medida que la fonética acústica, ha contribuido a las tecnologías del habla mediante la formalización de algunos de sus principios y teorías. La lingüística tiene en este ámbito una relación privilegiada con el procesamiento del lenguaje natural -NLP-.

Procesamiento digital de señales

. El procesamiento digital de señales ha contribuido de manera fundamental, reemplazando los antiguos sistemas analógicos. Tanto en el análisis acústico, en la síntesis como en el reconocimiento son de vital importantcia algoritmos como la "Transformada Rápida de Fourier" (FFT), para extraer de la forma de onda el espectro del sonido, para lo cual también es usual el "LPC", "Linear Predicting Coding" o "Código de predicción lineal, algoritmos usuales también en el tratamiento de otro tipo de señales como las imágenes. Dentro del procesamiento digital de señales existen campos de investigación muy relacionados como la codificación de señales, de gran importancia para las telecomunicaciones, la cancelación de ruido o filtrado de señales como también el desarrollo de "API´s", tales como los de Microsoft (SAPI) o Java (JAPI) para el desarrollo de aplicaciones con interfaces con voz.

Neurociencias

. Las denominadas "Neurociencias", y en especial la psiciología experimental y la psicología cognitiva, son áreas de investigación relativas a las tecnologías de la voz ya que dan cuenta de los modelos de la producción y la percepción del habla.

Anatomía y fisiología de la producción de la voz y la audición

. Este campo está íntimamente relacionado con la fonética articulatoria y las neurociencias. Aunque la información articulatoria no tuvo la misma suerte que la información acústica en los sistemas de síntesis, el conocimiento biométrico que transporta la voz humana es un dato valioso para la verificación e identificación del hablante por voz. Así encontramos que existe un interés creciente en áreas como la denominada Lingüística Forense, o en sistemas que permitan identificar al hablante por su voz, por ejemplo de interés en los procesos judiciales, o en sistemas que permitan verificar al hablante en transacciones comerciales por medios electrónicos.

Procesamiento del Lenguaje Natural-NLP-

. El procesamiento del lenguaje natural por máquinas comprende todos los niveles de representación lingüísticos: fonología, léxico, morfología, sintaxis, semántica, pragmática y discurso. Las aplicaciones requieren de módulos que procesen el lenguaje natural en algunos de sus niveles. En el reconocimiento, se utiliza en la construcción de gramáticas para la modelación del lenguaje en el , en los sistemas de Texto-a-Habla, en la construcción de analizadores -parsers-, etiquetadores de partes-del-habla -Part-to-Speech Taggers- y sistemas de conversión grafema-a-fonema, y también en los sistemas de diálogo, que combinan tanto la síntesis como el reconocimiento.

Inteligencia Artificial

.

Contribuyó con diversos conceptos y técnicas: búsquedas heurísticas, restricciones, sistemas de producción, etc. El reconocimiento del habla fue un banco de prueba para conceptos de la IA.

Algunas de las publicaciones periódicas dedicadas parcialmente o en su totalidad a las tecnologías del habla

Software disponible para investigación

HTK.Universidad de Cambridge

  • Hidden Markov Model Toolkit . Aquí pueden encontrarse los fuentes en C del conjunto de herramientas clásico para la construcción de reconocedores automáticos de habla basados en modelos ocultos markovianos.

    Festival. Universidad de Edinburgo.

  • http://www.cstr.ed.ac.uk/projects/festival.html Text-to-Speech de distribuición libre construido sobre la base de las "speech-tools" de la Universidad de Edinburgo y con contribuciones de diversas instituciones académicas.

    Festvox. Universidad de Carnegie Mellon.

  • http://www.festvox.org/index.html En este sitio pueden encontrarse un conjunto de herramientas para agregar nuevas voces al TTS Festival.

    CSLU. Center of Speech and Language Understanding. Oregon.

  • http://cslu.cse.ogi.edu/toolkit/ Ofrece un conjunto de herramientas para desarrollar sistemas de diálogo. El toolkit está constituido por una versión del Festival, herramientas para la construcción de aplicaciones con modelos markovianos ocultos y redes neuronales entre otras.

    EMU. Universidad de Sidney.

  • The EMU Speech Database System Es un conjunto de herramientas para analizar, etiquetar la señal acústica y almacenar los parámetros en una base de datos.

    Wavesurfer.

  • http://www.speech.kth.se/wavesurfer/ El programa Wavesurfer es una herramienta útil para analizar y etiquetar las formas de onda en varios formatos. Permite visualizar el espectro, el espectrograma y la frecuencia fundamental.

    NIST Tools.National Institute of Standarts and Tecnology

  • NIST Utility Software. Posee un conjunto de herramientas útiles para la construcción y evaluación de reconocedores automáticos de habla basados en modelos markovianos ocultos.

    SRI

  • Language Modelling Toolkit

    UCL.University College of London

  • SFS Es un conjunto de programas para síntesis, reconocimiento y análisis del habla.

    Links a centros de investigación.

    Las direcciones indicadas solo pueden utilizarse como puntos de partida para navegar a instituciones académicas y de desarrollo de aplicaciones comerciales.
  • http://www.cstr.ed.ac.uk/projects/festival.html En este sitio encontramos las actividades desarrolladas en el lugar donde se creó el Festival, en la University of Edinburgh.
  • http://cslu.cse.ogi.edu/Este es el sitio del Center of Speech and Language Understanding, en Oregon.
  • http://morph.ldc.upenn.edu/ltts/
    El "Lexical Data Consortium" LDC, en conjunción con COCOSDA*, ofrece este sitio para la comparación de sistemas TTS. *(comité internacional dedicado a la fijación de estándares, normas y evaluación de bases de datos para el desarrollo de tecnologías del habla)
  • Association for Computational Linguistics (ACL) Home Page.
  • http://tcts.fpms.ac.be/synthesis/mbrola.html
    Proyecto MBROLA en Bélgica.
  • University College of London
    Investigación y artículos en fonética y tecnologías del habla. Aquí puede encontrarse el SFS (Speech File System), un conjunto de herramientas para manipular, visualizar, etiquetar y procesar archivos de sonido para el habla.
  • ELRA. European Language Resources Association.
    Acceso para miembros de la asociación a corpus de texto y habla, entre otros recursos.

    Bibliografía

    allen87
    Allen J., Hunnicut S. and Klatt, D. Text-to-speech: the MITalk system, Cambridge University Press, 1987.
    abelson85
    Abelson H. and Sussman G. Structure and Interpretation of Computer Programs, MIT Press, 1985.
    black94
    Black A. and Taylor, P. "CHATR: a generic speech synthesis system.", Proceedings of COLING-94, Kyoto, Japan 1994.
    black96
    Black, A. and Hunt, A. "Generating F0 contours from ToBI labels using linear regression", ICSLP96, vol. 3, pp 1385-1388, Philadelphia, PA. 1996.
    black97b
    Black, A, and Taylor, P. "Assigning Phrase Breaks from Part-of-Speech Sequences", Eurospeech97, Rhodes, Greece, 1997.
    black97c
    Black, A, and Taylor, P. "Automatically clustering similar units for unit selection in speech synthesis", Eurospeech97, Rhodes, Greece, 1997.
    black98
    Black, A., Lenzo, K. and Pagel, V., "Issues in building general letter to sound rules.", 3rd ESCA Workshop on Speech Synthesis, Jenolan Caves, Australia, 1998.
    black99
    Black, A., and Lenzo, K., "Building Voices in the Festival Speech Synthesis System," unpublished document, Carnegie Mellon University, available at http://www.cstr.ed.ac.uk/projects/festival/docs/festvox/
    breiman84
    Breiman, L., Friedman, J. Olshen, R. and Stone, C. Classification and regression trees, Wadsworth and Brooks, Pacific Grove, CA. 1984.
    campbell91
    Campbell, N. and Isard, S. "Segment durations in a syllable frame", Journal of Phonetics, 19:1 37-47, 1991.
    DeRose88
    DeRose, S. "Grammatical category disambiguation by statistical optimization". Computational Linguistics, 14:31-39, 1988.
    dusterhoff97
    Dusterhoff, K. and Black, A. "Generating F0 contours for speech synthesis using the Tilt intonation theory" Proceedings of ESCA Workshop of Intonation, September, Athens, Greece. 1997
    dutoit97
    Dutoit, T. An introduction to Text-to-Speech Synthesis Kluwer Acedemic Publishers, 1997.
    hunt89
    Hunt, M., Zwierynski, D. and Carr, R. "Issues in high quality LPC analysis and synthesis", Eurospeech89, vol. 2, pp 348-351, Paris, France. 1989.
    jilka96
    Jilka M. Regelbasierte Generierung natuerlich klingender Intonation des Amerikanischen Englisch, Magisterarbeit, Institute of Natural Language Processing, University of Stuttgart. 1996
    moulines90
    Moulines, E, and Charpentier, N. "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones" Speech Communication, 9(5/6) pp 453-467. 1990.
    pagel98,
    Pagel, V., Lenzo, K., and Black, A. "Letter to Sound Rules for Accented Lexicon Compression", ICSLP98, Sydney, Australia, 1998.
    ritchie92
    Ritchie G, Russell G, Black A and Pulman S. Computational Morphology: practical mechanisms for the English Lexicon, MIT Press, Cambridge, Mass.
    vansanten96
    van Santen, J., Sproat, R., Olive, J. and Hirschberg, J. eds, "Progress in Speech Synthesis," Springer Verlag, 1996.
    silverman92
    Silverman K., Beckman M., Pitrelli, J., Ostendorf, M., Wightman, C., Price, P., Pierrehumbert, J., and Hirschberg, J "ToBI: a standard for labelling English prosody." Proceedings of ICSLP92 vol 2. pp 867-870, 1992
    sproat97
    Sproat, R., Taylor, P, Tanenblatt, M. and Isard, A. "A Markup Language for Text-to-Speech Synthesis", Eurospeech97, Rhodes, Greece, 1997.
    sproat98,
    Sproat, R. eds, "Multilingual Text-to-Speech Synthesis: The Bell Labs approach", Kluwer 1998.
    sable98,
    Sproat, R., Hunt, A., Ostendorf, M., Taylor, P., Black, A., Lenzo, K., and Edgington, M. "SABLE: A standard for TTS markup." ICSLP98, Sydney, Australia, 1998.
    taylor91
    Taylor P., Nairn I., Sutherland A. and Jack M.. "A real time speech synthesis system", Eurospeech91, vol. 1, pp 341-344, Genoa, Italy. 1991.
    taylor96
    Taylor P. and Isard, A. "SSML: A speech synthesis markup language" to appear in Speech Communications.
    wwwxml97
    World Wide Web Consortium Working Draft "Extensible Markup Language (XML)Version 1.0 Part 1: Syntax", http://www.w3.org/pub/WWW/TR/WD-xml-lang-970630.html
    yarowsky96
    Yarowsky, D., "Homograph disambiguation in text-to-speech synthesis", in "Progress in Speech Synthesis," eds. van Santen, J., Sproat, R., Olive, J. and Hirschberg, J. pp 157-172. Springer Verlag, 1996.

    Consultas

    Las consultas pueden realizarse a las siguientes direcciones de correo electrónico:

    Prof. José Alvarez:

    jalvarez@dc.uba.ar

    Prof. Alejandro Renato:

    arenato@dc.uba.ar

    arenato@arnet.com.ar