Documentación y Presentaciones

 


 

Tutorial: Data Mining with Weka

Ian Witten - University of Waikato - NZ

 

Ver programa (en Inglés)

Weka Tutorial (en Inglés/Español)

 


 

Wikipedia and how to use it for document representation

Ian Witten - University of Waikato - NZ

 

Ver Presentación

 


 

Del conocimiento a la acción

Néstor Martinez - Census

El desafío de los equipos analíticos reside muchas veces en la integración de los modelos a los procesos de negocio.  En la presentación se discute las estrategias aplicables para garantizar el uso eficiente de los resultados en el contexto de los datos y las plataformas de BI.

 

Ver Presentación

 


 

Riesgo de Morosidad

Ana Ximena Hidalgo Castellanos - SAS


La solución de Payment Risk trata con todos los riesgos relacionados al pago tardío. Administrar estos riesgos asociados a los clientes es un proceso continuo basado en la observación y análisis del comportamiento de nuestros clientes. Las consecuencias financieras de ser más eficientes en el proceso de cobranza impacta directamente en la facturación y la rentabilidad de la compañía, aunque también está relacionada con la relación con los clientes.

Payment Risk se abarca de dos grandes áreas:

Implementando esta solución se estará en condiciones de:

Ver Presentación

 


 

Estimación de Biodiversidad por Data Mining y Simulación

Cristóbal Santa María

 

En los estudios microbiológicos de comunidades, y en particular en los referidos a suelos, resulta a menudo importante conocer la cantidad de especies presentes en el medio y su distribución. En otras oportunidades se trata de saber cuantas familias de microorganismos están representadas en la comunidad y cual es la proporción en que esto ocurre para cada caso.  En forma general, puede decirse que, para evaluar la biodiversidad de un medio, hay que  calcular las cantidades de taxones, ya sean  especies, familias u otros, a efecto de  establecer su riqueza y  analizar además la forma en se distribuyen.  La tarea requiere acordar, en primer lugar, un criterio biológico para identificar los taxones. Una alternativa crecientemente utilizada  al respecto es  el análisis basado en el gen 16S rRNA que ha tenido una alta conservación  a lo largo del proceso evolutivo y que permite, por ello, apreciar con exactitud las diferencias taxonómicas. Una vez secuenciadas las cadenas de ADN del gen desde una muestra de material biológico, estas  pueden alinearse de acuerdo a distintos patrones. Luego pueden medirse las “distancias genéticas” entre secuencias para realizar un agrupamiento en “clusters” según el grado de similaridad que revelen. Los distintos umbrales de disimilaridad que se eligen para formar estos grupos permiten establecer el nivel taxonómico, especie o familia por ejemplo, al cual se realiza el estudio.  Es decir, finalmente para contar cantidad de taxones y averiguar su distribución en la muestra de material tomada, habrá que contar “clusters” y cantidad de secuencias que conforman a cada uno de ellos.

 

Pero, cuando se desea inferir desde una muestra la riqueza de todo el medio biológico, se presentan además otras dificultades, de carácter estadístico, que provienen de la gran cantidad de microorganismos que integran realmente  la comunidad y de la existencia de taxones que se  encuentran en muy baja proporción y resultan, por ende, raros. Ocurre entonces que el tamaño de la población y la rareza estadística de algunos taxones, cuya importancia biológica puede ser mucho más significativa que su número, se suman a  limitaciones tecnológicas y/o económicas para introducir un grado de incertidumbre en las estimaciones  de biodiversidad poblacional a partir de muestras, que no puede tratarse con las técnicas estadísticas habituales.   Existen distintos modelos a partir de los cuales es posible abordar las situaciones planteadas, pero sus resultados suelen subestimar la real cantidad de taxones presentes en la comunidad y, por lo tanto, desconocer una parte de la distribución de los mismos. De acuerdo a ello,  la idea del presente trabajo es explorar algunas alternativas, desde la perspectiva de los datos existentes en la muestra inicial, que permitan descubrir conocimiento, al aportar mayor precisión en las determinaciones de biodiversidad por vía de la aplicación de técnicas de minería de datos y simulación estadística combinadas. El trabajo es continuidad del presentado en WICC2011 señalado en y se realiza en el marco de la preparación de una tesis de maestría en Explotación de Datos y Descubrimiento del Conocimiento  en el Departamento de Computación de la Universidad de Buenos Aires.

 

Ver Presentación

 


 

Uso de un modelo de calidad de datos para mejorar la inferencia en meta-análisis de expresión génica

Hugo Naya - Instituto Pasteur de Montevideo, Uruguay

 

El meta-análisis se constituye en un entorno poderoso para el desarrollo de inferencia a partir de la combinación de varios estudios. Sin embargo, las ventajas del meta­análisis se ven a menudo oscurecidas por las enormes diferencias entre los estudios de los que se parte. Esto es particularmente cierto en los experimentos de expresión génica, donde miles de genes se comparan a la vez, usando diferentes plataformas y aún diferentes tecnologías. Mientras que algunos trabajos sugieren formas de combinar estudios, ningún trabajo hasta el momento desarrolló un marco general, basado en conceptos de calidad de la información.

En el presente trabajo proponemos un marco general, que permite la selección óptima de muestras y estudios a combinar. Nuestra aproximación se basa en conceptos de calidad e integra las propiedades de expresión génica con aquellas relacionadas a muestras/tejidos, condiciones experimentales y meta-data en general. Para ello se presenta un marco genérico de objetivos de calidad y se desarrollan varias métricas génicas, fenotípicas, así como de combinabilidad. Además, con la aproximación presentada es posible incorporar objetivos deseables pre-definidos en la búsqueda de estudios a combinar.

Para ilustrar nuestro enfoque, presentamos un ejemplo de implementación de una base de datos cliente-específica, así como el “pipeline” para poblarla y algunos ejemplos de uso.

 


 

Técnicas SNA (Social Network Analysis) aplicadas al desarrollo de modelos en la industria de las telecomunicaciones

Luciano Patrici - SPSS

 

Las personas que son afines entre sí -es decir, que  pertenecen a determinado grupo social- comparten gustos, ideales y visiones. Por lo tanto si un miembro de ese grupo adquiere determinado equipo o ringtone o juego o inclusive,  abandona el servicio, es probable que los otros miembros de ese grupo tambien lo hagan.  El análisis de las redes sociales, determinadas por los llamados y mensajes de celular de una persona, permite identificar dichos grupos y los líderes de los mismos.  En esta charla se mostrará cómo utilizar el análisis de Redes Sociales en los modelos predictivos, y la mejora obtenida respecto a los modelos tradicionales que no utilizan dicha información.

 

Ver Presentación

 


 

Presentaciones de Alumnos de la Maestría en Data Mining - UBA

 

Enfoque Integrado de Procesamiento de Flujos de Datos Centrado en Metadatos de Mediciones

Mario José Divan

 

Cuando se trata de tomar decisiones a un nivel ingenieril, medir no es una posibilidad sino una necesidad; representa una práctica sistemática y disciplinada por la cual se puede cuantificar el estado de un ente. Si hay un aspecto que se debe tener en claro en medición, es que para comparar mediciones diferentes las mismas deben ser consistentes entre sí, esto es, deben poseer la misma escala y tipo de escala además de obtenerse bajo métodos de medición y/o reglas de cálculos equivalentes. Los marcos de medición y evaluación representan un esfuerzo, desde la óptica de cada estrategia, por formalizar el modo de definir las métricas, sus objetivos, entre otros aspectos asociados, a los efectos de garantizar la repetitividad y consistencia en el proceso de medición que sustentan.  Existen aplicaciones capaces de procesar flujos de mediciones en línea, pero el inconveniente principal con el que se enfrentan, es que no contienen información con respecto al significado del dato que están procesando. Para este tipo de aplicaciones, la medición es un dato, es decir, una forma de representar un hecho captado, careciendo de información sobre el concepto al que se asocian o bien, el contexto en el cual es obtenida dicha medición.

 

Los dispositivos de medición, están en general desarrollados para captar una medida mediante un método dado, y en la mayoría de los casos, la forma de obtener dicha medida para su posterior procesamiento en otros entornos (ordenadores de escritorio, móviles, etc.), está en función de servicios o accesorios provistos por el fabricante.  Suponiendo que la totalidad de las mediciones, provenientes de diferentes dispositivos, pudieran ser incorporadas en un mismo canal de transmisión, pocos son los entornos de procesamiento de flujos de datos que incorporan comportamiento predictivo. En aquellos que se incorpora comportamiento predictivo, ninguno de los analizados se sustenta en una base conceptual, que permita contrastar una medida contra la definición formal de su métrica. Esto último, incorpora un serio riesgo de inconsistencia, que afecta directamente al proceso de medición y en consecuencia, a los posteriores análisis que en base a estos datos se realicen. 
Nuestra Estrategia de Procesamiento de Flujos de Datos centrado en Metadatos de Mediciones (EIPFDcMM), se focaliza en permitir la incorporación de fuentes de datos heterogéneas, cuyos flujos de mediciones estructurados y enriquecidos con metadatos embebidos basados C-INCAMI, permitan realizar análisis estadísticos de un modo consistente a los efectos de implementar un comportamiento detectivo y a su vez, permitan incorporar información contextual a las mediciones, para enriquecer la función de clasificación con el objeto de implementar el comportamiento predictivo. Tanto la implementación del comportamiento detectivo como del predictivo tendrán asociados mecanismos de alarma, que permitirán proceder a la notificación ante la eventual identificación de una zona de riesgo. De este modo, se pretende garantizar la repetitividad y consistencia en el proceso de medición que sustentan.

 

Ver Presentación

 

 

Visualización de ataques a una red informática

Walter Lamagna

 

Este trabajo incorpora conocimientos adquiridos en la materia Visualización de la Información en la Maestria en Datamining.  Utilizando el conjunto de datos que corresponde a la competencia de visualización conocida como “VAST Challenge 2011” ó “Desafío VAST 2011”.  Esta competencia es  una de las iniciativas de la IEEE para impulsar la innovación de herramientras gráficas que resuelvan problemas de la vida real.  El problema a resolver fué la visualización de una secuencia de ataques a una red informática.  La visualización consta de un mapa de calor y un gráfico de coordenadas paralelas, ambos interactivos y desarrollados con canvas y processing.  Parte del desafío fue sincronizar los logs ubicados en diferentes zonas horarias, y luego gestionar el gran conjunto de datos, finalmente crear un formato apropiado para las herramientas personalizadas.  El mapa de calor resultó de utilidad para identificar muchos de los eventos.  El beneficio de utilizar una herramienta personalizada fué el poder adaptarla a esta tarea en particular.  Este trabajo recibió un premio por “Sobresaliente integración de visualización global” ó “Outstanding Integrated Overview Display”.

 

Ver Presentación

 

 

Text mining aplicado a la predicción de sentimiento de calificaciones de hoteles

Emanuel López - Leonardo Lucianna

 

El problema propuesto consiste en la elaboración de un modelo de predicción de la calificación otorgada a hoteles sobre la base de opiniones escritas que realizaron sus clientes. Las calificaciones se codifican en dos categorías: “bueno” (si se otorgaron 4 o 5 estrellas) y “malo” (1 o 2 estrellas).  La estrategia adoptada busca vincular características presentes en las opiniones escritas del conjunto de entrenamiento con las calificaciones otorgadas, apuntando al aprendizaje de un mecanismo de clasificación que sea extrapolable a los nuevos casos que poseen clase desconocida.

A partir de la lectura de las opiniones y de la interpretación subjetiva del lenguaje natural, parecería posible deducir sin mucho esfuerzo si la dirección de la calificación es positiva o negativa (quizás el objetivo de predecir el número de estrellas otorgado sea un poco menos obvio). En esta simpleza del proceso no automatizado de predicción influyen las interpretaciones que se realizan de las diferentes combinaciones de palabras, de la carga emotiva de cada una de ellas y de la interpretación del mensaje como un todo que podemos realizar los seres humanos. El desafío consiste en indagar acerca de un mecanismo automatizado de “interpretación” de los textos que permita, en el mismo sentido, inducir la calificación otorgada. Claramente, este mecanismo se encontrará con fuertes desventajas en cuanto a la posibilidad de realizar las interpretaciones subjetivas de la lectura humana, pero permitirá el procesamiento de elevados volúmenes de información en tiempos despreciables; y, si todo funciona bien, con niveles de precisión muy aceptables.

Nuestra estrategia se basa fundamentalmente en la selección de palabras que se consideran “relevantes” dentro de cada opinión y que se asocian de manera significativa con cada una de las clases. Es decir, construiremos un diccionario propio a partir del conjunto de entrenamiento. Para escoger estos vocablos recurrimos al algoritmo “Apriori” que genera reglas de asociación y permite filtrar palabras normalmente utilizadas, a las que dividimos de acuerdo a la clase con la que se asocian.  El conjunto de palabras finalmente seleccionadas se constituyen en las “variables” (columnas) de una matriz en cuyas filas se indica su presencia o ausencia dentro de cada una de las opiniones vertidas. La última columna se compone de la clase asignada. Adicionalmente se generan datasets alternativos que incorporan variantes de procesamiento (Stemmming, algoritmo Metaphone y distancia de Levenhstein, frecuencias), que permitirán evaluar hipótesis alternativas de clasificación.

Los diferentes datasets pasan a procesarse a través de algoritmos de clasificación (Naive Bayes, Árboles de Decisión, Vecinos más cercanos) y métodos de ensamble de los mismos (Boosting –AdaBoost-, y diferentes mecanismos de votación), generando un modelo final que produce como salida las clasificaciones de los nuevos ejemplos que se presentaran.  Se obtuvieron resultados excelentes en testing y también en una oportunidad de clasificación de nuevas instancias (competencia dentro de la materia), alcanzando porcentajes de aciertos de alrededor del 92%.

 

Ver Presentación