UNIVERSIDAD DE BUENOS AIRES.

FACULTAD DE CIENCIAS EXACTAS Y NATURALES.

 

1. DEPARTAMENTO: Computación.

2. CUATRIMESTRE: Primero de 2002.

3. ASIGNATURA:Data Mining (nombre de la materia).

4. CARRERA: Licenciatura en Ciencias de la Computación .

5. CARACTER DE LA MATERIA: Optativa (Obligatoria/Optativa).

6. NUMERO DE CODIGO DE CARRERA: 18.

7. NUMERO DE CODIGO DE MATERIA: C .......

8. PUNTAJE: 3.

9. PLAN DE ESTUDIOS AÑO: (1987 y 1993)

10. DURACION DE LA MATRERIA: cuatrimestral.

11. HORAS DE CLASE SEMANAL: 6

a) TEORICAS: 3 hs c) PRACTICAS: hs

b) LABORATORIO: 3 hs d) SEMINARIOS: hs.

12. CARGA HORARIA TOTAL SEMANAL: 10.

13. ASIGNATURAS CORRELATIVAS: Base de Datos.

14. FORMA DE EVALUACION: Parciales, Coloquio Final (Examen Final, otros).

15. PROGRAMA Y BIBLIOGRAFIA: Adjuntas a esta hoja.

16. DOCENTES: Prof. Ricardo Rodriguez

JTP. Ariel Aizemberg

Ay1. Gustavo Koblinc.

Ay2. Ernesto Mislej.

Fecha: 22/11/2001.

 

Programa:

Introducción: Relación entre Data Mining y Machine Learning. Algunos ejemplos y aplicaciones. Herramientas estadísticas en Machine Learning. La noción de Generalización como búsqueda.

Conceptos, Instancias y Atributos. Definiciones y ejemplos.

Datos de entrada: representación, preparación, depuración, tratamiento.

Salidas: Representación del Conocimiento. Tablas de Decisión. Árboles de Decisión. Reglas de Clasificación. Reglas de Asociación. Reglas con Excepciones. Reglas que involucran relaciones. Árboles para Predicción Numérica. Representación Basadas en Instancias. Clusters.

Algoritmos: Los métodos básicos. Reglas de inferencia rudimentarias. Modelización Estadística. El método de dividir y conquistar en la construcción de árboles de decisión. Algoritmos de Cubrimientos. Exporando reglas de asociación. Modelo Lineal. Apredizaje Basado en Instancias.

Credibilidad: Métodos de evaluación del apredizaje. Entrenamiento y testeo. Predicción de performance. Validación Cruzada. Estimadores estadísticos. Comparación de Esquemas de Data Mining. Predicción de Probabilidades. Counting the cost. Evaluación de predicciones numéricas. El principio de longitud de descripción mínima. Aplicaciones de MDL a "agrupamiento".

Implementaciones: Esquemas de aprendizaje real. Otra vez: Árboles de Decisión y Reglas de Clasificación, aprendizaje basado en instancias, predicción numérica y agrupamiento. Extensión de métodos de clasificación lineal soportados por máquinas vectoriales

Optimizaciones: Selección de Atributos. Discretización de Atributos Numéricos. Depuración automática de datos. Modelos de combinación múltiple.

Tópicos Avanzados: Algoritmos de apredizaje en Java. Aprendizaje desde conjuntos de datos masivos. Visualización del Apredizaje. Exploración en WWW. Text Mining. Data Mining Espacial. Incorporación de Conocimiento del Dominio.

 

Bibliografía:

  1. Adriaans P & Zantinge D. "Data Mining". Addison-Wesley, [1996].
  2. Adriaans P & Knobbe A. "Discovering Foreign key relations in relational databases". Workshop on Statics, Machine Learning and Knowledge Discovery in Databases, [1995].
  3. Agrawal et al. "In advances in Knowledge Discovery and Data Mining". AAAI Press, [1995].
  4. Agrawal & Srikant "Mining Sequential Pattern". IBM Research, [1995].
  5. Agrawal & Sarawagi & Gupta "On computing the data Cube".IBM Research, [1996].
  6. Ali K. & Manganaris S. "Partial Classification using Association rules". IBM Research, [1996].
  7. Apte Ch. & June Hong S. "Predicting Equity Returns from Securities Data with Minimal Rule Generation". MIT Press, [1996].
  8. Brachman R. "The Process of Knowledge Discovery in Databases". MIT Press, [1996].
  9. Berry Michael & Linoff Gordon "Data Mining techniques". Wiley Computer publishing, [1997].
  10. Bostrom & Idestam-Almquist "Specialization of logic programs by pruning SLD trees". Ellis Horwood Ney York[1994].
  11. Cabena & Hadjinian et al "Discovering data mining: From the concept to implementation". International Technical Support Organization, [1997].
  12. Clark P. & Niblett T "The CN2 Induction Algorithm". Machine Learning 3, 261-283., [1996].
  13. Dzeroski S. "Inductive Logic Programming and Knowledge Discovery in DataBases". MIT Press[1996].
  14. Fayyad et al "Advances in Knowledge Discovery and data mining". MIT Press, [1996].
  15. Fayyad U. & Haussler & Stolorz P. "Mining scientific Data". COMUNICATION OF ACM 51-57, [1996].
  16. Fayyad U. & Shapiro G & Smyth P. "From Data Mining to Knowledge Discovery in databases". AI Magazine 17 , 37-54, [1996].
  17. Fayad U. & Uthurusamy R. "Data Mining and Knowledge Discovery in Databases". COMUNICATION OF ACM - November 1996/Vol 39. N 11.
  18. Fayyad U. & Shapiro G & Smyth P. "The KDD Process for extracting Useful Knowledge from Volumes of Data". COMUNICATION OF ACM - November 1996/Vol 39. N 11.
  19. Fayyad U & Piatetsky-Shapiro G. "From Data Mining to Knowledge Discovery", en "In advances in Knowledge Discovery and Data Mining". AAAI Press, [1995].
  20. Heinonen O. & Mannila H. "Attribute-Oriented Induction and Conceptual Clustering". Dep. Computer Science University of Helsinki (FINLANDIA).
  21. González Osvaldo "Curso de Data Mining". Departamento de computación UBA, [1997].
  22. González Osvaldo "Fudamentos de Data Mining". Departamento de computación UBA, [1998].
  23. Groth Robert. "Data Mining: A hands-on approach for business profesionals". Prentice Hall, [1997].
  24. Khoshafian Setrag "Object- Oriented Databases". Willey Professional Computing, [1993].
  25. Komorowski Jan, Zytkow Jan "Principles of Data Mining and Knowledge Discovery". Springer Lecture Notes in Artificial Intelligence (1263), [1997].
  26. Komrowski H "Partial evaluation as a means for inferencing data estructures in an applicative language". Proceedings of 9th ACM sumposium on Principles of Programming Languages ACM., [1982].
  27. Levi Isaac "For the sake of the argument". Cambridge University, [1997].
  28. Loomis Mary "Object Databases: The essentials". McGraw-Hill, [1995].
  29. McGabe Francis "Logic and Objects". Prentice Hall, [1994].
  30. Muggleton S. "Learning of positive data". Proceedings of the 6th International workshop on Inductive Logic programming, [1996].
  31. Muggleton S. & De Raedt L. "Inductive Logic Programming: Theory and Methods". Journal of Logic Programming 19, [1994].
  32. Muggleton S. "Inverse entailment and Progol". New generation Computing 13,[1995].
  33. Muggleton S. & Feng C. "Efficient Induction of Logic Programming". Inductive Logic Programming Academic Press London, [1992].
  34. Nienhuys-Cheng Shan-Hwei & de Wolf Ronald "A complete method for program specialization based on unfolding". Proceedings of the 12th European Conference on Artificial Intelligence (ECAI-96), [1996].
  35. Nienhuys-Cheng Shan-Hwei & de Wolf Ronald "Foundations of Inductive Logic Programming". Springer, [1997].
  36. Quinlan J.R. "Induction of Decision trees". Morgan Kaufmann Publishers "Reading in Machine Learning", [1990].
  37. Quinlan J.R. "Programs of Machine Learning". Morgan Kaufmann Publishers, [1993].
  38. Tamaki H. & Sato T. "Unfold/Fold transformation of logic programs". Proceedings of the 2nd International Logic Programming Conference. Uppsala, [1984].
  39. Witten Ian H., Paperback Eibe Frank. Practical Machine Learning Tools and Techniques with Java Implementations by (October 13, 1999). Morgan Kaufmann Publishers; ISBN: 1558605525.