[ Home | Novedades | Descripción de la materia | Programa | Material de Referencia | Trabajos | Links ]

Introducción al Procesamiento del Lenguaje Natural

FCEyN, Departamento de Computación

Primer cuatrimestre de 2011

Horario

Miércoles de 19 a 22hs. (Teórico-Práctico)

Docentes

Prof. José M. Castaño Cuarto 16, jcastano, x717
Viviana Cotik (AY1)  

Descripción de la materia

La disciplina que en la actualidad se conoce como Procesamiento del Lenguaje Natural (NLP - Natural Language Processing) es fundamental para el procesamiento de información codificada en lenguaje natural (sea texto o sea voz), y para toda tecnología que requiera el tratamiento del lenguaje humano (Español, Inglés, etc.). También se la conoce como Lingüística Computacional, aunque muchas veces los términos no sean estríctamente sinónimos, y se entienda al PLN como la parte ingenieril y práctica de la Lingüística Computacional. Este curso se ocupa fundamentalmente de los enfoques estadísticos para el procesamiento del lenguaje natural, pero también abordaremos la necesidad de modelar el conocimiento lingüístico, el conocimiento del dominio y la necesidad de realizar un procesamiento eficiente. Las técnicas y herramientas utilizadas para el procesamiento del lenguaje natural son fundamentales para aplicaciones como minería de texto, extracción de información, procesamiento automático de documentación, traducción automática o asistida, generación de texto, redacción asistida o correctores automáticos. El objetivo de esta materia es comprender cuáles son los principales problemas que presenta el procesamiento del lenguaje natural y cuáles las principales herramientas y técnicas utilizadas. El curso capacitará a los estudiantes para poder implementar y/o modificar distintas aplicaciones que interactuen con el lenguaje natural.

Programa

  • Introducción al PLN. Enfoques racionalista y empirista del lenguaje. Breve Reseña histórica Conceptos lingüísticos básicos. El lenguaje como fenómeno probabilístico. Algunas aplicaciones básicas de PLN.
  • Principales conceptos de lingüística. Distintos niveles de análisis; Léxico, categorías gramaticales y morfología. Sintaxis. Semántica y Pragmática. Los corpora. Construcción y anotació de un corpus. Tokenization (segmentación, morfología y oraciones). Marcación de documentos y etiquetado.
  • El nivel de la Palabra. Expresiones Regulares y Autómatas de estados finitos. Análisis morfoló y Transductores.
  • N-gramas. Modelos Markovianos visibles y ocultos. Estimación de parámetros.
  • Etiquetado (tagging) de categorías sintácticas. Principales técnicas de etiquetamiento. Aplicaciones del etiquetamiento. Evaluacion: Precision, Recall y medida-F.
  • El nivel de las frases. Chunking: parsing con automatas finitos, o parsing parcial.
  • Gramaticas libres de Contexto, Compiladores, Gramáticas probabilísticas, Gramaticas Lexicalizadas. Evaluación.
  • Nivel Semantico. Representacion del significado. Desambiguación léxica. Clases de ambigüedad léxica. Adquisición léxica. Papel y aplicaciones de la adquisición léxica. Adquisición de distintas propiedades de las palabras: subcategorización, preferencias de selección, rasgos semánticos y otros. .

    Bibliografía

    Evaluación

    Se requerirán tres Trabajos Prácticos y un Trabajo Final.

    Calendario

    slides5

     

    Clase

    Tema

    Lecturas relacionadas

    Trabajos prácticos

    Especificaciones

    Vencimiento

    1

    Introducción General

     

     

     

    2

    Historia del PLN, niveles lingüísticos

      SLP Cap1, FSNLP Cap1, ATLC Caps. 2,4,9,12

    slides1

     

     

    3

    FSA (o ASF) y morfología

      SLP Cap. 2 y 3

    slides2

    TP1: Segmentacion (Tokenizer)

     

     

    4

    N-gramas, Modelos de Markov

      SLP Cap. 6, FSNLP Cap. 6

    slides3

     

     

    5

    POS tagging

      SPL, Cap. 8

    slides4

     

     

    6

    Tagging y corpora

      FSNLP Cap. 4 y 5

     

     

    7

    CHUNKING (o Shallow Parsing)

      SPL Cap. 8

    slides6 slides7

    TP2: Tagger/Chunker

     

     

     

    8

    Parsing: Chart Parsing

      SPL Cap. 9

     

     

    9

    Parsing: Probabilístico y Lexicalizado

      SPL Cap. 11,12,13, FSNLP 11,12

     

     

    10

    Semántica Léxica y Ontologías

      SPL Cap. 14,15,16

     

     

    11

    Discurso y Coreferencia

      SPL Cap. 18

     

     

    12

    Desambigüación de sentidos

      SPL Cap. 17, FSNLP, Cap. 7

     

     

    13

    Generación

      SPL Cap. 20

     

     

    14

    Traducción Automática

      SPL Cap. 21, FSNLP Cap. 13

     

     

    15

    Diálogo

      SPL Cap. 21, FSNLP Cap. 13

    slides

     

     

    16

    Extracción de Información

    Intro to Information Extraction