Para entender este concepto, que bebe de las ciencias de la computación y la estadística, es útil entender la metáfora contenida en el nombre. Si se observa el resultado del rastreo casi absoluto del comportamiento de los usuarios en Internet como una montaña de datos aparentemente inútil, el data mining, que se traduce como minería de datos, proporciona las herramientas necesarias para explorar esta cantidad ingente de datos y extraer de ella información relevante. Estas herramientas consisten en métodos estadísticos que permiten identificar patrones de comportamiento y conexiones en unos datos que, por sí solos, no significan nada.
La minería de datos se relaciona, a menudo, con el big data, concepto que se refiere a las bases de datos cuyo volumen ya no permite un análisis convencional y, por ello, se apoya en procesos computacionales. Mediante el proceso de data mining se puede explorar, sin embargo, cualquier cantidad de datos.
En realidad, la exploración de datos es una de las etapas de un proceso mayor, la denominada “extracción de conocimientos en bases de datos” (Knowledge Discovery in Databases o KDD), que abarca los siguientes pasos:
- Elección de la base de datos a analizar
- Procesamiento previo que limpia y prepara la base de datos
- Transformación en la forma que necesite el proceso de análisis
- Proceso mismo de análisis mediante un proceso matemático (data mining)
- Interpretación de los resultados
La información que se extrae mediante una KDD puede aplicarse a una gran variedad de ámbitos, por ejemplo, a la planificación estratégica de un negocio online y a la toma de decisiones de marketing.