|
Documentación y Presentaciones |
Tutorial: Data Mining with Weka
Ian Witten - University of Waikato - NZ
Ver
programa (en Inglés)
Weka
Tutorial (en Inglés/Español)
Wikipedia and how to use it for document representation
Ian Witten - University of Waikato - NZ
Néstor Martinez - Census
El desafío de los equipos analíticos reside muchas veces en la integración de los modelos a los procesos de negocio. En la presentación se discute las estrategias aplicables para garantizar el uso eficiente de los resultados en el contexto de los datos y las plataformas de BI.
Ana Ximena Hidalgo Castellanos - SAS
La solución de Payment Risk trata con todos los riesgos relacionados al pago tardío. Administrar estos riesgos asociados a los clientes es un proceso continuo basado en la observación y análisis del comportamiento de nuestros clientes. Las consecuencias financieras de ser más eficientes en el proceso de cobranza impacta directamente en la facturación y la rentabilidad de la compañía, aunque también está relacionada con la relación con los clientes.
Payment Risk se abarca de dos grandes áreas:
Prevención de pago tardío, ya sea mediante la clasificación de prospectos (Credit Scoring) como del monitoreo de clientes actuales (Behavior Scoring).
Optimización del proceso de cobranza, que una vez que un cliente entra en mora, es necesario eficientizar este proceso para minimizar los costos de recupero y maximizar las probabilidades de cobro.
Implementando esta solución se estará en condiciones de:
Decidir con el mínimo riesgo posible si acepto a un prospecto como cliente.
Accionar en los límites de créditos de los clientes actuales ajustándolos en forma óptima para maximizar las ganancias.
Reducir los costos en los procesos de recupero de deuda.
Minimizar los tiempos de cobranza.
Estimación de Biodiversidad por Data Mining y Simulación
Cristóbal Santa María
En los estudios microbiológicos de comunidades, y en particular en los referidos a suelos, resulta a menudo importante conocer la cantidad de especies presentes en el medio y su distribución. En otras oportunidades se trata de saber cuantas familias de microorganismos están representadas en la comunidad y cual es la proporción en que esto ocurre para cada caso. En forma general, puede decirse que, para evaluar la biodiversidad de un medio, hay que calcular las cantidades de taxones, ya sean especies, familias u otros, a efecto de establecer su riqueza y analizar además la forma en se distribuyen. La tarea requiere acordar, en primer lugar, un criterio biológico para identificar los taxones. Una alternativa crecientemente utilizada al respecto es el análisis basado en el gen 16S rRNA que ha tenido una alta conservación a lo largo del proceso evolutivo y que permite, por ello, apreciar con exactitud las diferencias taxonómicas. Una vez secuenciadas las cadenas de ADN del gen desde una muestra de material biológico, estas pueden alinearse de acuerdo a distintos patrones. Luego pueden medirse las “distancias genéticas” entre secuencias para realizar un agrupamiento en “clusters” según el grado de similaridad que revelen. Los distintos umbrales de disimilaridad que se eligen para formar estos grupos permiten establecer el nivel taxonómico, especie o familia por ejemplo, al cual se realiza el estudio. Es decir, finalmente para contar cantidad de taxones y averiguar su distribución en la muestra de material tomada, habrá que contar “clusters” y cantidad de secuencias que conforman a cada uno de ellos.
Pero,
cuando se desea inferir desde una muestra la riqueza de todo el medio biológico,
se presentan además otras dificultades, de carácter estadístico, que
provienen de la gran cantidad de microorganismos que integran realmente la
comunidad y de la existencia de taxones que se encuentran en muy baja
proporción y resultan, por ende, raros. Ocurre entonces que el tamaño de la
población y la rareza estadística de algunos taxones, cuya importancia biológica
puede ser mucho más significativa que su número, se suman a limitaciones
tecnológicas y/o económicas para introducir un grado de incertidumbre en las
estimaciones de biodiversidad poblacional a partir de muestras, que no
puede tratarse con las técnicas estadísticas habituales.
Uso de un modelo de calidad de datos para mejorar la inferencia en meta-análisis de expresión génica
Hugo Naya - Instituto Pasteur de Montevideo, Uruguay
El meta-análisis se constituye en un entorno poderoso para el desarrollo de inferencia a partir de la combinación de varios estudios. Sin embargo, las ventajas del metaanálisis se ven a menudo oscurecidas por las enormes diferencias entre los estudios de los que se parte. Esto es particularmente cierto en los experimentos de expresión génica, donde miles de genes se comparan a la vez, usando diferentes plataformas y aún diferentes tecnologías. Mientras que algunos trabajos sugieren formas de combinar estudios, ningún trabajo hasta el momento desarrolló un marco general, basado en conceptos de calidad de la información.
En el presente trabajo proponemos un marco general, que permite la selección óptima de muestras y estudios a combinar. Nuestra aproximación se basa en conceptos de calidad e integra las propiedades de expresión génica con aquellas relacionadas a muestras/tejidos, condiciones experimentales y meta-data en general. Para ello se presenta un marco genérico de objetivos de calidad y se desarrollan varias métricas génicas, fenotípicas, así como de combinabilidad. Además, con la aproximación presentada es posible incorporar objetivos deseables pre-definidos en la búsqueda de estudios a combinar.
Para ilustrar nuestro enfoque, presentamos un ejemplo de implementación de una base de datos cliente-específica, así como el “pipeline” para poblarla y algunos ejemplos de uso.
Luciano Patrici - SPSS
Las personas que son afines entre sí -es decir, que pertenecen a determinado grupo social- comparten gustos, ideales y visiones. Por lo tanto si un miembro de ese grupo adquiere determinado equipo o ringtone o juego o inclusive, abandona el servicio, es probable que los otros miembros de ese grupo tambien lo hagan. El análisis de las redes sociales, determinadas por los llamados y mensajes de celular de una persona, permite identificar dichos grupos y los líderes de los mismos. En esta charla se mostrará cómo utilizar el análisis de Redes Sociales en los modelos predictivos, y la mejora obtenida respecto a los modelos tradicionales que no utilizan dicha información.
Presentaciones de Alumnos de la Maestría en Data Mining - UBA
Enfoque Integrado de Procesamiento de Flujos de Datos Centrado en Metadatos de Mediciones
Mario José Divan
Cuando se trata de tomar decisiones a un nivel ingenieril, medir no es una posibilidad sino una necesidad; representa una práctica sistemática y disciplinada por la cual se puede cuantificar el estado de un ente. Si hay un aspecto que se debe tener en claro en medición, es que para comparar mediciones diferentes las mismas deben ser consistentes entre sí, esto es, deben poseer la misma escala y tipo de escala además de obtenerse bajo métodos de medición y/o reglas de cálculos equivalentes. Los marcos de medición y evaluación representan un esfuerzo, desde la óptica de cada estrategia, por formalizar el modo de definir las métricas, sus objetivos, entre otros aspectos asociados, a los efectos de garantizar la repetitividad y consistencia en el proceso de medición que sustentan. Existen aplicaciones capaces de procesar flujos de mediciones en línea, pero el inconveniente principal con el que se enfrentan, es que no contienen información con respecto al significado del dato que están procesando. Para este tipo de aplicaciones, la medición es un dato, es decir, una forma de representar un hecho captado, careciendo de información sobre el concepto al que se asocian o bien, el contexto en el cual es obtenida dicha medición.
Los dispositivos de medición, están en general desarrollados para captar una medida mediante un método dado, y en la mayoría de los casos, la forma de obtener dicha medida para su posterior procesamiento en otros entornos (ordenadores de escritorio, móviles, etc.), está en función de servicios o accesorios provistos por el
fabricante. Suponiendo que la totalidad de las mediciones, provenientes de diferentes dispositivos, pudieran ser incorporadas en un mismo canal de transmisión, pocos son los entornos de procesamiento de flujos de datos que incorporan comportamiento predictivo. En aquellos que se incorpora comportamiento predictivo, ninguno de los analizados se sustenta en una base conceptual, que permita contrastar una medida contra la definición formal de su métrica. Esto último, incorpora un serio riesgo de inconsistencia, que afecta directamente al proceso de medición y en consecuencia, a los posteriores análisis que en base a estos datos se realicen.
Nuestra Estrategia de Procesamiento de Flujos de Datos centrado en Metadatos de Mediciones (EIPFDcMM), se focaliza en permitir la incorporación de fuentes de datos heterogéneas, cuyos flujos de mediciones estructurados y enriquecidos con metadatos embebidos basados C-INCAMI, permitan realizar análisis estadísticos de un modo consistente a los efectos de implementar un comportamiento detectivo y a su vez, permitan incorporar información contextual a las mediciones, para enriquecer la función de clasificación con el objeto de implementar el comportamiento predictivo. Tanto la implementación del comportamiento detectivo como del predictivo tendrán asociados mecanismos de alarma, que permitirán proceder a la notificación ante la eventual identificación de una zona de riesgo. De este modo, se pretende garantizar la repetitividad y consistencia en el proceso de medición que sustentan.
Visualización de ataques a una red informática
Walter Lamagna
Este trabajo incorpora conocimientos adquiridos en la materia Visualización de la Información en la Maestria en Datamining. Utilizando el conjunto de datos que corresponde a la competencia de visualización conocida como “VAST Challenge 2011” ó “Desafío VAST 2011”. Esta competencia es una de las iniciativas de la IEEE para impulsar la innovación de herramientras gráficas que resuelvan problemas de la vida real. El problema a resolver fué la visualización de una secuencia de ataques a una red informática. La visualización consta de un mapa de calor y un gráfico de coordenadas paralelas, ambos interactivos y desarrollados con canvas y processing. Parte del desafío fue sincronizar los logs ubicados en diferentes zonas horarias, y luego gestionar el gran conjunto de datos, finalmente crear un formato apropiado para las herramientas personalizadas. El mapa de calor resultó de utilidad para identificar muchos de los eventos. El beneficio de utilizar una herramienta personalizada fué el poder adaptarla a esta tarea en particular. Este trabajo recibió un premio por “Sobresaliente integración de visualización global” ó “Outstanding Integrated Overview Display”.
Text mining aplicado a la predicción de sentimiento de calificaciones de hoteles
Emanuel López - Leonardo Lucianna
El
problema propuesto consiste en la elaboración de un modelo de predicción de la
calificación otorgada a hoteles sobre la base de opiniones escritas que
realizaron sus clientes. Las calificaciones se codifican en dos categorías:
“bueno” (si se otorgaron 4 o 5 estrellas) y “malo” (1 o 2 estrellas).
La estrategia
adoptada busca vincular características presentes en las opiniones escritas del
conjunto de entrenamiento con las calificaciones otorgadas, apuntando al
aprendizaje de un mecanismo de clasificación que sea extrapolable a los nuevos
casos que poseen clase desconocida.
A
partir de la lectura de las opiniones y de la interpretación subjetiva del
lenguaje natural, parecería posible deducir sin mucho esfuerzo si la dirección
de la calificación es positiva o negativa (quizás el objetivo de predecir el número
de estrellas otorgado sea un poco menos obvio). En esta simpleza del proceso no
automatizado de predicción influyen las interpretaciones que se realizan de las
diferentes combinaciones de palabras, de la carga emotiva de cada una de ellas y
de la interpretación del mensaje como un todo que podemos realizar los seres
humanos. El desafío consiste en indagar acerca de un mecanismo automatizado de
“interpretación” de los textos que permita, en el mismo sentido, inducir la
calificación otorgada. Claramente, este mecanismo se encontrará con fuertes
desventajas en cuanto a la posibilidad de realizar las interpretaciones
subjetivas de la lectura humana, pero permitirá el procesamiento de elevados
volúmenes de información en tiempos despreciables; y, si todo funciona bien,
con niveles de precisión muy aceptables.
Nuestra
estrategia se basa fundamentalmente en la selección de palabras que se
consideran “relevantes” dentro de cada opinión y que se asocian de manera
significativa con cada una de las clases. Es decir, construiremos un diccionario
propio a partir del conjunto de entrenamiento. Para escoger estos vocablos
recurrimos al algoritmo “Apriori” que genera reglas de asociación y permite
filtrar palabras normalmente utilizadas, a las que dividimos de acuerdo a la
clase con la que se asocian. El conjunto de palabras finalmente
seleccionadas se constituyen en las “variables” (columnas) de una matriz en
cuyas filas se indica su presencia o ausencia dentro de cada una de las
opiniones vertidas. La última columna se compone de la clase asignada.
Adicionalmente se generan datasets alternativos que incorporan variantes de
procesamiento (Stemmming, algoritmo Metaphone y distancia de Levenhstein,
frecuencias), que permitirán evaluar hipótesis alternativas de clasificación.
Los diferentes datasets pasan a procesarse a través de algoritmos de clasificación (Naive Bayes, Árboles de Decisión, Vecinos más cercanos) y métodos de ensamble de los mismos (Boosting –AdaBoost-, y diferentes mecanismos de votación), generando un modelo final que produce como salida las clasificaciones de los nuevos ejemplos que se presentaran. Se obtuvieron resultados excelentes en testing y también en una oportunidad de clasificación de nuevas instancias (competencia dentro de la materia), alcanzando porcentajes de aciertos de alrededor del 92%.