[ Home | Novedades | Descripción de la materia | Programa | Materiales de Referencia | Trabajos | Links ]

Recuperación de Información y "Web Mining"

News flash:

FCEN, Depto de Computación 2do cuatrimestre del 2009

Miércoles de 19 a 22hs

Docentes:

Prof. José M. Castaño Cuarto 16, jcastano, x717
JTP, Ernesto Mislej Cuarto 16, jcastano, x717

Descripción de la materia

La disciplina que en la actualidad se conoce como Recuperación de Información (Information Retrieval), es fundamental para entender el funcionamiento de sistemas que han adquirido especial relevancia a partir de la popularidad del la 'web', como son los buscadores. Estos sistemas son tambi\'en esenciales para el manejo de documentacion en empresas, u otros sistemas "finitos" de accesso a documentación como son las bibliotecas digitales. El objetivo de esta materia es comprender cómo funcionan los sistemas de Recuperación de Información y las técnicas de extracción de información en textos, en particular en textos semi-estructurados como en formato html. Se verán los mecanismos que utilizan los motores de búsqueda, para recorrer, indexar y recuperar información basada en textos. El curso capacitará a los estudiantes para poder implementar dichos sistemas y/o modificarlos

Programa

  • Introducción a Recuperación de Información. Indices invertidos y consultas boolianas. Optimización de las consultas. La naturaleza del texto no-estructurado y del semi-estructurado.
  • Codificación del Texto: Segmentación en 'tokens', extracción de lemas, 'stop words', y frases. Optimización de índices para el procesamiento de las consultas. Proximidad de frases y de consultas. Indices posicionales.
  • Recuperación tolerante. Corrección ortográfica, sinónimos. Consultas con símbolos comodines ('wild cards'), permutación de índices. Indices de n-gramas. Distancia de Edición, "Soundex", detección del lenguaje.
  • Construcción de Indices. Estimación del tamaño de los 'postings'. Indexación de los n-gramas. Cuestiones prácticas.
  • Compresión de Indices. Compresión del léxico y de las listas de 'postings'. Codificación de 'gaps', códigos gamma, Ley de Zipf, Bloqueo, compresión extrema.
  • Búsqueda parametrizada o por dominios. Zonas de documentos. El modelo del Espacio Vectorial ('Vector Space Model'). Esquemas de asignación de pesos. El esquema 'tf-idf'. Asignación de un valor ('score') a los documentos.
  • Valoración en el modelo del Espacio Vectorial. La medida del Coseno. Consideraciones de eficiencia. Técnicas del vecino próximo. Aproximaciones de dimensionalidad reducida, proyecciones al azar.
  • Presentación de resultados. Resumenes estáticos y dinámicos. Evaluación de resultados. Satisfacción del usuario. Medidas de Precisión, Recuperación y "F". Creación de colecciones. Medida kappa, concardancia de anotación. Relevancia, aproximación a la recuperación vectorial.
  • Feedback de la relevancia. Pseudo-feedback. Expansión de las queries. Generación automatica de un thesuaurus. Recuperación basada en los sentidos de los términos.
  • Agrupamiento ("Clustering") y sus Métodos.
  • Clasificación de textos y Métodos.
  • Recuperación de información de la Web. Protocolos. Robots de navegación de la "web" ("Arañas"). Ranking basado en conducta y en 'links'. Analisis de 'links'.
  • Recuperación y Extracción de Información. Sistemas de Respuesta a preguntas.
  • .

    Bibliografia

    Trabajos y Ejercicios

    Se requerirá dos Trabajos Prácticos y un Trabajo Final. Los trabajos practicos serán parte del Trabajo Final

     

    Tema

    Lecturas

    Trabajos

    Especificaciones

    Vencimiento

    1

    Introduccion

     

     

     

    2

    Recuperación de información, Modelo Booleano, Diccionario, Listas de "postings", Indices, Consultas, Texto no-estructurado o semi-estructurado

    IIR Cap 1 slides1

    PA1: TP1

     

    3

    Codificación del texto, tokenización, stemming, lematización, stop words, frases, optimización, indices posicionales, Recuperacion Tolerante

    IIR Cap. 2, 3 slides2.pdf slides3.pdf

     

     

    4

    Construcción de Indices

    IIR Cap. 4 y 5

     

     

    5

    Modelo de Espacio Vectorial, Scoring

    IIR Cap. 6 y 7

     

     

    6

    Evaluación de Resultados

    IIR Cap. 8 y 9

    PA2: TP2

     

     

    7

    XML

    IIR Cap 10

     

     

    8

    Clustering

    IIR Cap 16,17 y 18

     

     

    9

    Clasificación

    IIR Cap. 13,14 y 15

     

     

    10

    Clasificacion2

     

     

     

    11

    Web 1

    IIR Cap. 19,20,21 

     

     

    12

    Web 2



     

    13

    Extraccion de Informacion

     

    PA3 

    PA2

    14

    Técnicas de Procesamiento del Lenguaje Natural

     

     

     

    15

    Tecnicas de Procesamiento del Lenguaje Natural

     

     

     

    16

    Proyectos, Revision

     

     

     

    Links Relacionados

    Open source systems

    Research Groups (in no particular order)