Cada vez son más las empresas que disponen de un volumen in­so­s­pe­cha­do de datos, co­n­si­de­ra­do un recurso de gran valor para la se­g­me­n­ta­ción de clientes, el control de ventas y el marketing dirigido. No obstante, aunque se disponga de una cantidad ingente de in­fo­r­ma­ción, esta solo va a resultar útil si realmente se le saca el re­n­di­mie­n­to adecuado, es decir, de nada les sirve a las empresas contar con muchos registros de datos si estos no se analizan y evalúan ade­cua­da­me­n­te. El in­ve­s­ti­ga­dor de te­n­de­n­cias y fu­tu­ró­lo­go John Naisbitt advierte de este problema en su tantas veces citada:

Cita

“We are drowning in in­fo­r­ma­tion, but starving for knowledge.” (“nos ahogamos en in­fo­r­ma­ción, pero estamos ha­m­brie­n­tos de saber”)

–John Naisbitt, fu­tu­ró­lo­go e in­ve­s­ti­ga­dor de te­n­de­n­cias, a propósito de la cantidad creciente de datos digitales

Las he­rra­mie­n­tas de data mining se utilizan para gestionar los datos e ide­n­ti­fi­car las posibles te­n­de­n­cias y los patrones más si­g­ni­fi­ca­ti­vos. Los programas de­sa­rro­lla­dos para ello son cada vez más complejos y el abanico de he­rra­mie­n­tas cada vez mayor. Para que tengas una visión general te pre­se­n­ta­mos a co­n­ti­nua­ción las mejores data mining tools.

Técnicas, tareas y co­m­po­ne­n­tes del data mining

Como data mining, también conocida como minería de datos, se describen los pro­ce­di­mie­n­tos al­go­rí­t­mi­cos para la eva­lua­ción de datos aplicados a bloques de datos con un tamaño y una co­m­ple­ji­dad de­te­r­mi­na­dos. Su función es la de extraer la in­fo­r­ma­ción oculta en grandes volúmenes de datos, es­pe­cia­l­me­n­te en las masas de in­fo­r­ma­ción conocidas como big data, y además reconocer te­n­de­n­cias, re­la­cio­nes y patrones ocultos en ellas. Para que este proceso se pueda llevar a cabo se recurre a las data mining tools. Con el término data mining no se hace re­fe­re­n­cia ni al proceso de ge­ne­ra­ción de datos ni a los bloques de datos en sí, sino a su análisis. Asimismo, el data mining tampoco es pura es­ta­dí­s­ti­ca a pesar de que muchos de los pro­ce­di­mie­n­tos uti­li­za­dos provienen de ella, sino un pro­ce­di­mie­n­to in­te­r­di­s­ci­pli­na­rio que combina los co­no­ci­mie­n­tos de in­fo­r­má­ti­ca y ma­te­má­ti­cas con la te­c­no­lo­gía del machine learning (es­pe­cia­l­me­n­te el apre­n­di­za­je no su­pe­r­vi­sa­do) y de la in­te­li­ge­n­cia ar­ti­fi­cial. Estos métodos de alto re­n­di­mie­n­to se integran en un solo software que permite la eva­lua­ción de la mayor cantidad de datos posible.

Hecho

El text mining es una variante especial del data mining que está ad­qui­rie­n­do cada vez mayor re­le­va­n­cia debido a la po­pu­la­ri­dad de la te­c­no­lo­gía y el software de voz. Aquí la in­fo­r­ma­ción no se obtiene de registros de datos, sino de grandes volúmenes de textos, como artículos es­pe­cia­li­za­dos o do­cu­me­n­tos co­r­po­ra­ti­vos, re­su­l­ta­n­do de gran utilidad a las empresas, por ejemplo, en sus nuevos proyectos.

No obstante, hay que tener en cuenta que para que el data mining se lleve a cabo de forma efectiva es necesario conocer bien los bloques de datos, ya que solo así se podrá sacar el máximo partido a las he­rra­mie­n­tas de análisis de in­fo­r­ma­ción en­ca­r­ga­das de reconocer re­la­cio­nes im­plí­ci­tas, realizar pro­nó­s­ti­cos de cifras de ventas o analizar patrones de compra. Eso sí, no se requieren para ello co­no­ci­mie­n­tos en pro­gra­ma­ción.

Algunas de las tareas del data mining son:

  • Cla­si­fi­ca­ción: el data mining clasifica los datos in­di­vi­dua­les en ca­te­go­rías es­pe­cí­fi­cas definidas pre­via­me­n­te, en las que no se habían incluido hasta ese momento (por ejemplo, en gatos o bi­ci­cle­tas). Un recurso útil para llevar a cabo esta cla­si­fi­ca­ción es el de­no­mi­na­do análisis de árboles de decisión.

  • Análisis de valores atípicos o de de­s­via­cio­nes: el data mining ide­n­ti­fi­ca a los objetos que no cumplen las reglas de de­pe­n­de­n­cia en objetos em­pa­re­n­ta­dos, lo que permite encontrar las causas que explican estas de­s­via­cio­nes.

  • Análisis de clústeres: ide­n­ti­fi­ca la co­n­ce­n­tra­ción de si­mi­li­tu­des, a partir de lo cual construye grupos de objetos que comparten una serie de ca­ra­c­te­rí­s­ti­cas comunes en co­m­pa­ra­ción con otros grupos. Al contrario que en la cla­si­fi­ca­ción, aquí los grupos no están pre­de­fi­ni­dos y pueden adquirir di­fe­re­n­tes formas en función de los datos que se analicen.

  • Análisis de co­rre­la­ción: descubre co­rre­la­cio­nes entre dos o más objetos in­de­pe­n­die­n­tes que, aunque no muestran ningún tipo de relación directa, aparecen juntos con fre­cue­n­cia.

  • Análisis de la regresión: destapa las re­la­cio­nes entre una variable de­pe­n­die­n­te (por ejemplo, los análisis de cifras de ventas de productos) y una o varias variables in­de­pe­n­die­n­tes (el precio del producto o los ingresos del comprador) con el objetivo de realizar una serie de pro­nó­s­ti­cos sobre la variable de­pe­n­die­n­te (pro­nó­s­ti­co de ventas).

  • Análisis pre­di­c­ti­vo: se trata de una tarea de gran re­le­va­n­cia que tiene como objetivo realizar pre­di­c­cio­nes y encontrar te­n­de­n­cias futuras. Para ello usa, entre otros, el data mining y trabaja con una variable que sirve de medida para in­di­vi­duos o entidades.
Hecho

Con ayuda de los análisis de co­rre­la­ción se es­ta­ble­cie­ron so­r­pre­n­de­n­tes co­ne­xio­nes en las de­ci­sio­nes de compra de di­fe­re­n­tes productos que ayudaron a mejorar en gran medida los análisis de la cesta de compra. Con este método se de­te­r­mi­nan las re­co­me­n­da­cio­nes de compra en la venta online.

Estos pro­ce­di­mie­n­tos se pueden cla­si­fi­car en los conocidos como problemas de ob­se­r­va­ción (análisis de de­s­via­cio­nes, de clústeres) y de pro­nó­s­ti­cos (análisis de regresión, cla­si­fi­ca­ción).

Co­m­pa­ra­ti­va de data mining tools

A co­n­ti­nua­ción ana­li­za­mos y co­m­pa­ra­mos las mejores he­rra­mie­n­tas de data mining del mercado hoy en día: Ra­pi­d­Mi­ner, WEKA, Orange, KNIME y SAS. Es bien conocido que los usuarios usan más de una, co­m­bi­ná­n­do­las entre sí, pues tienen puntos fuertes di­fe­re­n­tes. No obstante, si es una de las primeras veces que recurres a este tipo de programas, también puedes conseguir grandes avances con un único software po­li­va­le­n­te.

Ra­pi­d­Mi­ner

Ra­pi­d­Mi­ner, antes conocida como YALE, siglas de “Yet Another Learning En­vi­ro­n­me­nt”, es un data mining software muy conocido. De acuerdo con una encuesta de KDnuggets realizada en el año 2014, esta tool se co­n­s­ti­tuía como la he­rra­mie­n­ta de data mining más usada. Destaca por permitir el acceso gratuito y por su fácil manejo dado que no requiere un co­no­ci­mie­n­to elaborado en pro­gra­ma­ción, sin olvidar la gran selección de ope­ra­do­res que ofrece. Es­pe­cia­l­me­n­te son las startups las que recurren a ella.

Ra­pi­d­Mi­ner está escrita en Java y contiene más de 500 ope­ra­do­res con di­fe­re­n­tes enfoques para mostrar las co­ne­xio­nes en los datos: hay opciones para data mining, text mining o web mining, pero también análisis de se­n­ti­mie­n­to o minería de opinión. Asimismo, el programa puede importar tablas Excel, archivos SPSS y masas de datos de di­fe­re­n­tes bases de datos e integra los programas de data mining WEKA y R. Todo ello pone de relieve el carácter po­li­va­le­n­te de este software.

Ra­pi­d­Mi­ner participa en todos y cada uno de los pasos del proceso de data mining, in­te­r­vi­nie­n­do también en la vi­sua­li­za­ción de los re­su­l­ta­dos. La he­rra­mie­n­ta está formada por tres grandes módulos: Ra­pi­d­Mi­ner Studio, Ra­pi­d­Mi­n­der Server y Ra­pi­d­Mi­ner Radoop, cada uno encargado de una técnica diferente de minería de datos. Asimismo, Ra­pi­d­Mi­ner prepara los datos antes del análisis y los optimiza para su rápido pro­ce­sa­mie­n­to. Para cada uno de estos tres módulos hay una versión gratuita y di­fe­re­n­tes opciones de pago.

El punto fuerte de Ra­pi­d­Mi­ner, si se compara con el resto de software de data mining, reside en los análisis pre­di­c­ti­vos, es decir, en la previsión de de­sa­rro­llos futuros basándose en los datos re­co­pi­la­dos.

WEKA

WEKA (Waikato En­vi­ro­n­me­nt for Knowledge Analysis) es un software de código abierto de­sa­rro­lla­do por la Uni­ve­r­si­dad de Waikato en la primera mitad de los años noventa. Basada en Java y co­m­pa­ti­ble con Windows, macOS y Linux, la interfaz gráfica de usuario facilita el acceso a este software que también ofrece conexión a bases de datos SQL, siendo capaz de procesar en ellas los datos so­li­ci­ta­dos. Asimismo, presenta un sinnúmero de funciones de apre­n­di­za­je au­to­má­ti­co y secunda tareas tan re­le­va­n­tes del data mining como el análisis de clústeres, de co­rre­la­ción o de regresión, así como la cla­si­fi­ca­ción de datos, punto fuerte este último del data mining software al usar redes de neuronas ar­ti­fi­cia­les, árboles de decisión y al­go­ri­t­mos ID3 o C4.5. No obstante, este programa no es tan potente en aspectos como el análisis de clústeres, en el que solo se ofrecen los pro­ce­di­mie­n­tos más im­po­r­ta­n­tes. Otra de­s­ve­n­ta­ja es que este software presenta problemas de pro­ce­sa­mie­n­to cuando hay que tratar grandes ca­n­ti­da­des de datos, dado que intenta cargar el programa de data mining completo en la memoria de trabajo. WEKA ofrece para ello como solución una línea de comandos sencilla (CTL) que aligera el tráfico de un gran volumen de datos.

Hecho

En 2005 la As­so­cia­tion for Computing Machinery premia a WEKA con el re­co­no­ci­mie­n­to “SIGKDD Service Award” por su alta co­n­tri­bu­ción a la in­ve­s­ti­ga­ción. De hecho, en este software se basa la obra de re­fe­re­n­cia en apre­n­di­za­je au­to­má­ti­co publicada por primera vez en 1999 por Eibe Frank y Ian H. Witten titulada “Practical Machine Learning Tools and Te­ch­ni­ques”. En co­m­pa­ra­ción con otras he­rra­mie­n­tas de data mining, WEKA ha de­mo­s­tra­do ser es­pe­cia­l­me­n­te útil en el ámbito de la enseñanza y la in­ve­s­ti­ga­ción.

Orange

El software de data mining Orange existe desde hace más de 20 años como proyecto de la Uni­ve­r­si­dad de Liubliana. El núcleo del software se escribió en C++, aunque poco después se amplió el programa al lenguaje de pro­gra­ma­ción Python que solo se usa como lenguaje de entrada. Las ope­ra­cio­nes más complejas, sin embargo, se llevan a cabo en C++. Orange es un software muy extenso que demuestra todo lo que se puede conseguir con Python, ya que ofrece apli­ca­cio­nes de gran utilidad para el análisis de datos y de texto así como ca­ra­c­te­rí­s­ti­cas de apre­n­di­za­je au­to­má­ti­co. Además, en el ámbito del data mining trabaja con ope­ra­do­res para la cla­si­fi­ca­ción, regresión y clu­s­te­ri­ng e integra una pro­gra­ma­ción visual. De hecho, es muy llamativo que los usuarios destaquen lo en­tre­te­ni­do que es usar esta he­rra­mie­n­ta en co­m­pa­ra­ción con otras: tanto si se empieza con la minería de datos o se es más experto, a todos los usuarios les fascina Orange. Esto se debe a que, por un lado, ofrece un sistema de vi­sua­li­za­ción de datos atractivo para trabajar y, por otro, alcanza esta vi­sua­li­za­ción con rapidez y facilidad. El programa prepara los datos de forma visual, co­n­vi­r­tie­n­do la co­m­pre­n­sión de gráficas así como el pro­ce­sa­mie­n­to de análisis de datos en tareas muy sencillas, lo que a su vez facilita a los usuarios tomar de­ci­sio­nes rá­pi­da­me­n­te en el ámbito pro­fe­sio­nal. Otra ventaja para los menos versados: existe un sinnúmero de tu­to­ria­les sobre la he­rra­mie­n­ta. Una pa­r­ti­cu­la­ri­dad de Orange es que, además, va apre­n­die­n­do las pre­fe­re­n­cias de sus usuarios y se comporta en función de ellas, lo que si­m­pli­fi­ca eno­r­me­me­n­te el proceso de data mining para el usuario.

KNIME

El software KNIME (Konstanz In­fo­r­ma­tion Miner), de­sa­rro­lla­do por la uni­ve­r­si­dad de Constanza, se puso a di­s­po­si­ción de los usuarios como software de código abierto pese a crearse desde el principio con objetivos co­me­r­cia­les. Escrito en Java y preparado con Eclipse, en la ac­tua­li­dad KNIME se considera una he­rra­mie­n­ta de gran po­pu­la­ri­dad entre la comunidad in­te­r­na­cio­nal de pro­gra­ma­do­res y, si se compara con otros programas de data mining, destaca por una amplia gama de funciones: con más de 1000 módulos y paquetes de apli­ca­cio­nes pre­pa­ra­dos, esta he­rra­mie­n­ta permite descubrir es­tru­c­tu­ras ocultas de datos. Además, se pueden ampliar sus módulos con otras so­lu­cio­nes adi­cio­na­les de pago. Entre todas las funciones destaca el análisis de datos in­te­gra­ti­vo. En este ámbito KNIME es uno de los programas más avanzados, puesto que permite la in­te­gra­ción de numerosos pro­ce­di­mie­n­tos de apre­n­di­za­je au­to­má­ti­co y de data mining. Además, presenta una efi­cie­n­cia notable en el tra­ta­mie­n­to previo de los datos así como en su ex­tra­c­ción, tra­n­s­fo­r­ma­ción y carga. Debido a su se­g­me­n­ta­ción en módulos, sirve pri­n­ci­pa­l­me­n­te como software de data mining orientado al flujo de datos. KNIME se usa en la in­ve­s­ti­ga­ción fa­r­ma­céu­ti­ca desde 2006 y supone una he­rra­mie­n­ta muy im­po­r­ta­n­te también en el sector fi­na­n­cie­ro, sin olvidar su uso frecuente en el campo de la in­te­li­ge­n­cia em­pre­sa­rial (BI). Asimismo, esta he­rra­mie­n­ta es también muy in­te­re­sa­n­te para quienes apenas acaban de iniciarse con el data mining pues, aunque posee un amplio abanico de funciones, se requiere poco tiempo para aprender a manejarla. Por último, apuntar que KNIME existe en su versión gratuita y de pago.

SAS

SAS (Sta­ti­s­ti­cal Analysis System) es un producto de SAS Institute, una de las mayores empresas privadas de software en todo el mundo. SAS co­n­s­ti­tu­ye la data mining tool principal en el análisis en el sector de los negocios y, de hecho, se considera como el programa más adecuado para grandes empresas, aunque también sea el software con un coste económico mayor de todos los aquí descritos. El prestigio de este software se debe a que utiliza te­c­no­lo­gía punta en la rea­li­za­ción de pro­nó­s­ti­cos y presenta una vi­sua­li­za­ción in­ter­ac­ti­va de los datos, de ine­s­ti­ma­ble ayuda en grandes pre­se­n­ta­cio­nes. Con este programa de data mining dispones bá­si­ca­me­n­te de todos los elementos ne­ce­sa­rios para llevar a cabo una minería de datos con éxito. Además, se ca­ra­c­te­ri­za por su gran es­ca­la­bi­li­dad, pues permite aumentar pro­gre­si­va­me­n­te su efi­cie­n­cia au­me­n­ta­n­do los recursos de hardware o de cualquier otro tipo, sin olvidar que para aquellos usuarios con menos afinidad técnica la he­rra­mie­n­ta dispone de una interfaz de usuario gráfica. Por todo ello no sorprende que se considere una de las he­rra­mie­n­tas más valiosas en el ámbito em­pre­sa­rial. No obstante, solo puede usarse de forma gratuita si una in­s­ti­tu­ción pública pro­po­r­cio­na una licencia, es decir, que en la mayoría de los casos este data mining software es de pago obligado. El precio se regula en función de la solicitud y es posible es­ta­ble­cer co­n­di­cio­nes es­pe­cia­les, por ejemplo, para au­to­ri­da­des o in­s­ti­tu­cio­nes edu­ca­ti­vas. Solicitar una licencia de usuario anual ronda los 5.500 euros, hecho que convierte a SAS en una de las so­lu­cio­nes co­me­r­cia­les más caras. Aunque si se ajustan las funciones ne­ce­sa­rias in­di­vi­dua­l­me­n­te, se puede modificar el precio. Esta he­rra­mie­n­ta se ha es­ta­ble­ci­do como estándar en el ámbito fa­r­ma­céu­ti­co, aunque también se encuentra con mucha fre­cue­n­cia en el ámbito fi­na­n­cie­ro y ofrece so­lu­cio­nes óptimas en el ámbito de la in­te­li­ge­n­cia em­pre­sa­rial y el web mining. Para ello dispone, entre otros, de un software de in­te­li­ge­n­cia em­pre­sa­rial es­pe­cí­fi­co. Todo ello la convierte en una de las he­rra­mie­n­tas más potentes del mercado.

Co­m­pa­ra­ti­va de software de data mining

Tras una pre­se­n­ta­ción detallada de los di­fe­re­n­tes tipos de data mining software, a co­n­ti­nua­ción recogemos la in­fo­r­ma­ción más relevante en esta tabla co­m­pa­ra­ti­va:

Ca­ra­c­te­rí­s­ti­cas Lenguaje de pro­gra­ma­ción Sistema operativo Precio/Licencia
Ra­pi­d­Mi­ner Apto para todos los procesos. Destaca en el análisis pre­di­c­ti­vo Java Windows, macOS, Linux Freeware, di­fe­re­n­tes versiones de pago
WEKA Muchos métodos de cla­si­fi­ca­ción Java Windows, macOS, Linux Software libre (GPL)
Orange Crea una vi­sua­li­za­ción de datos atractiva sin que se requieran muchos co­no­ci­mie­n­tos previos para ello Núcleo del software: C++, am­plia­ción y lenguaje de entrada: Python Windows, macOS, Linux Software libre (GPL)
KNIME Software de data mining de código abierto que ha de­mo­cra­ti­za­do el acceso a los análisis pre­di­c­ti­vos Java Windows, macOS, Linux Software libre (GPL) (a partir de la versión 2.1)
SAS Caro, pero potente para grandes empresas Lenguaje SAS Windows, macOS, Linux Freeware limitado a in­s­ti­tu­cio­nes públicas, el precio se establece tras solicitud, di­fe­re­n­tes modelos di­s­po­ni­bles
Ir al menú principal