De Wikipedia, la enciclopedia libre
(Redirigido desde
Data mining)
Bajo el nombre de "Minería de Datos" se engloban un conjunto de técnicas encaminadas a la extracción de "conocimiento" procesable implícito en las bases de datos de las empresas. Las bases de la minería de datos se encuentran en la Inteligencia Artificial y en el Análisis Estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación. Un proceso típico de minería de datos parte de la selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles. A continuación se analiza las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos. Como consecuencia de este análisis, el conjunto de datos de entrada se le aplican una serie de transformaciones para prepararlo para aplicar la técnica de minería de datos que mejor se adapta, a los datos y al problema. Finalmente se selecciona la técnica de minería, se construye el modelo predictivo, de clasificación o segmentación, y se evalúan los resultados contrastando con un conjunto de datos previamente reservado para validar la generalidad del modelo.
Finalmente, los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las empresas, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Modelling Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar.
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio, etc. No obstante, actualmente está cobrando una importancia cada vez mayor la minería de datos desestructurados como información contenida en ficheros de texto, en Internet, etc.
[editar] Ejemplos de uso de la minería de datos
El ejemplo clásico aparte de algo rancio y, posiblemente, apócrifo de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones, etc. existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en función de su valor se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.
Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
También es un área en boga el del análisis del comportamiento de los visitantes sobre todo, cuando son clientes potenciales en una página de Internet. O la utilización de la información obtenida por medios más o menos legítimos sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero.
Los modelos de minería de datos se pueden aplicar a situaciones empresariales como las siguientes:
-Predecir ventas. -Dirigir correo a clientes específicos. -Determinar los productos que se pueden vender juntos. -Buscar secuencias en el orden en que los clientes agregan productos a una cesta de compra.
[editar] Minería de datos y otras disciplinas análogas
Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y disciplinas análogas, como pueden serlo la estadística, la inteligencia artificial, etc. Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible. Otros, en cambio, encuentran en ella una serie de problemas y métodos específicos que la hacen distinta de otras disciplinas.
El hecho es que la práctica totalidad de los modelos y algoritmos de uso general en minería de datos redes neuronales, árboles de regresión y clasificación, modelos logísticos, análisis de componentes principales, etc. gozan de una tradición relativamente larga en otros campos.
Ciertamente, la Minería de Datos bebe de la Estadística, de la que toma las siguientes técnicas:
. Análisis de la Varianza, mediante el cual se contrasta la existencia de diferencias significativas entre las medidas de una o más variables continuas en grupo de población distintos.
. Regresión: define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.
. Ji cuadrado: por medio del cual se realiza el contraste la hipótesis de dependencia entre variables.
. Análisis cluster: permite la clasificación de una población en un número determinado de grupos, en base a semejanzas y desemejanzas de perfiles existentes entre los diferentes componentes de la población.
. Análisis discriminante: permite la clasificación de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto una mejor identificación de cuáles son las variables que definan la pertenencia al grupo.
. Series temporales: permite el estudio de la evolución de una variable a través del tiempo para, a partir de ese conocimiento, y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones.
De la Informática toma las siguientes técnicas:
Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Aquellas configuraciones de las variables de análisis que obtengan mejores valores para la variable de respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su proporción crece de generación en generación. Se puede además introducir elementos aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización, pues las malas soluciones han ido descartándose, iteración tras iteración.
Inteligencia Artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.
Sistemas Expertos: Son sistemas inteligentes que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos.
Redes neuronales: Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
[editar] Protocolo de un proyecto de minería de datos
Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente:
- Comprensión del negocio y del problema que se quiere resolver
- Determinación, obtención y limpieza de los datos necesarios
- Creación de modelos matemáticos
- Validación, comunicación, etc. de los resultados obtenidos
- Integración, si procede, de los resultados en un sistema transaccional o similar
La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme. Ejemplos de ellas son CRISP-DM y SEMMA.
[editar] Tendencias
La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea, etc. Los más importantes de ellos son:
- La importancia que han cobrado los datos no estructurados (texto, páginas de Internet, etc.)
- La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc.
- La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, que frente a un fraude con una tarjeta de crédito, ésta pueda ser cancelada casi al instante)
[editar] Enlaces externos
[editar] Véase también