Los sistemas de apoyo a la toma de de­ci­sio­nes tienen una larga tradición en el mundo de los negocios. Ya desde la década de 1960, las empresas utilizan todo tipo de métodos ana­lí­ti­cos que permiten obtener datos útiles con el objetivo de respaldar a la dirección ejecutiva en la pla­ni­fi­ca­ción es­tra­té­gi­ca de los procesos de negocio con informes, modelos y pro­nó­s­ti­cos basados en datos.

Estos sistemas de in­fo­r­ma­ción ana­lí­ti­cos con fu­n­cio­na­li­da­des de eva­lua­ción pueden cla­si­fi­car­se como sistemas de in­fo­r­ma­ción gerencial (Ma­na­ge­me­nt In­fo­r­ma­tion Systems, MIS), sistemas de soporte a de­ci­sio­nes o DSS (Decision Support Systems) o sistemas de in­fo­r­ma­ción ejecutiva (Executive In­fo­r­ma­tion Systems, EIS), los cuales apenas se di­fe­re­n­cian entre sí y desde los 1990 se engloban bajo el de­no­mi­na­dor común de Business in­te­lli­ge­n­ce (BI) o in­te­li­ge­n­cia de negocios tanto en la práctica em­pre­sa­rial como en la co­me­r­cia­li­za­ción de sus productos.

Nota

la Business In­te­lli­ge­n­ce (BI) comprende el tra­ta­mie­n­to y el análisis de datos en bruto por medios in­fo­r­má­ti­cos. La in­te­li­ge­n­cia de negocios tiene el fin de generar el co­no­ci­mie­n­to que ha de servir como fu­n­da­me­n­to de la pla­ni­fi­ca­ción es­tra­té­gi­ca de la empresa.

En el contexto de la Business In­te­lli­ge­n­ce, hoy la base de estos sistemas de in­fo­r­ma­ción la pro­po­r­cio­na ge­ne­ra­l­me­n­te un depósito central de datos que se conoce como Data Warehouse (DWH, en español almacén de datos). A co­n­ti­nua­ción ex­pli­ca­mos qué es un almacén de datos y cuál es su es­tru­c­tu­ra y pre­se­n­ta­mos di­fe­re­n­tes so­lu­cio­nes de software para instalar y gestionar un data warehouse tanto de pro­vee­do­res co­me­r­cia­les como de código abierto.

¿Qué es un data warehouse?

Un almacén de datos es un sistema de base de datos separado de los sistemas ope­ra­ti­vos de pro­ce­sa­mie­n­to de datos (bases de datos tra­n­sac­cio­na­les), en el cual se comprimen y guardan a largo plazo datos pro­ce­de­n­tes de fuentes di­fe­re­n­tes y en ocasiones muy he­te­ro­gé­neas. Muchas empresas vuelcan pe­rió­di­ca­me­n­te los datos hi­s­tó­ri­cos que guardan estas bases de datos tra­n­sac­cio­na­les en un almacén de datos, donde los preparan y limpian para poder acceder a ellos más tarde y ana­li­zar­los es­tra­té­gi­ca­me­n­te en el marco de la in­te­li­ge­n­cia em­pre­sa­rial. En este trasvase los datos ope­ra­ti­vos (tra­n­sac­cio­na­les) se co­n­vie­r­ten en datos pre­pa­ra­dos y útiles:

  • Datos ope­ra­ti­vos: se trata de in­fo­r­ma­ción tra­n­sac­cio­nal que generan los sistemas de ad­mi­ni­s­tra­ción y cuentas en la práctica comercial cotidiana. Entre las fuentes típicas de datos tra­n­sac­cio­na­les se cuentan sistemas de ad­mi­ni­s­tra­ción de datos como los programas de co­n­ta­bi­li­dad, los sistemas de gestión de me­r­ca­n­cías, los sistemas de pla­ni­fi­ca­ción de recursos de empresa (ERP) o los sistemas de ayuda y pedido.
  • Datos útiles: son los datos que resultan cuando los datos ope­ra­ti­vos de uso cotidiano se agrupan, guardan, depuran y preparan para el análisis en un lugar central separado.

Un DWH les ofrece a los analistas un amplio campo de visión sobre datos de origen muy he­te­ro­gé­neos y permite agregar in­di­ca­do­res ope­ra­ti­vos en el contexto del pro­ce­sa­mie­n­to analítico en línea (Online Ana­l­y­ti­cal Pro­ce­s­si­n­gs, OLAP). Como depósito central de todos los datos em­pre­sa­ria­les re­le­va­n­tes, a los que suele accederse ex­clu­si­va­me­n­te con permiso de lectura, el almacén de datos co­n­tri­bu­ye a la gestión del co­no­ci­mie­n­to interno del negocio. Como base sobre la cual trabajan los diversos métodos de minería de datos, el contenido de un DWH sostiene todas las re­fle­xio­nes y tomas de de­ci­sio­nes en relación con la gestión del re­n­di­mie­n­to y la pla­ni­fi­ca­ción es­tra­té­gi­ca del negocio.

¿Cómo se es­tru­c­tu­ra un data warehouse?

Al proceso de gestión y examen de un almacén de datos se le denomina data wa­rehou­si­ng y este comprende las si­guie­n­tes fases:

  1. Obtención e in­te­gra­ción de los datos
  2. Co­n­se­r­va­ción de los datos
  3. Eva­lua­ción y análisis de los datos

Estas tres fases se reflejan en una ar­qui­te­c­tu­ra ideal básica, un modelo de re­fe­re­n­cia de los sistemas de almacén de datos que, si bien puede constatar di­fe­re­n­cias en función del producto y el fa­bri­ca­n­te, en principio se orienta por una es­tru­c­tu­ra modular a tres niveles:

  • Re­co­le­c­ción
  • Al­ma­ce­na­mie­n­to y co­n­se­r­va­ción
  • Entrega (para su consulta)

A estos tres niveles se añade un co­m­po­ne­n­te central de control, el gestor del almacén de datos (Data Warehouse Manager), que asigna a cada nivel funciones es­pe­cia­les de ad­mi­ni­s­tra­ción.

Los diversos co­m­po­ne­n­tes que integran un almacén de datos no tienen que proceder del mismo fa­bri­ca­n­te, sino que pueden tener origen en productos de software di­fe­re­n­tes o en so­lu­cio­nes in­di­vi­dua­les.

El siguiente gráfico ilustra es­que­má­ti­ca­me­n­te la ar­qui­te­c­tu­ra de re­fe­re­n­cia de un data warehouse:

Nivel de obtención de los datos

Antes de cargar los datos en el almacén, esta in­fo­r­ma­ción, a menudo muy diversa, se ha de convertir a un formato homogéneo. Un almacén de datos se nutre tanto de fuentes internas de la empresa como de fuentes externas es­pe­cia­l­me­n­te re­le­va­n­tes:

  • Datos internos de sistemas de pla­ni­fi­ca­ción de recursos de empresa (En­te­r­pri­se Resource Planning, ERP), de sistemas gestión de las re­la­cio­nes con los clientes (Customer Re­la­tio­n­ship Ma­na­ge­me­nt, CRM), de bases de datos tra­n­sac­cio­na­les, de gestores de contenido (CMS), de archivos (Excel, CSV, texto), de correos ele­c­tró­ni­cos, etc. 
  • Datos externos desde apli­ca­cio­nes y sistemas de terceros, páginas web o Internet, redes sociales, servicios en la nube, etc.

Los sistemas que actúan en este nivel se comunican con los sistemas ope­ra­cio­na­les de una empresa por medio de in­te­r­fa­ces que se utilizan en la primera fase del al­ma­ce­na­mie­n­to del data wa­rehou­si­ng. Las funciones centrales de estos sistemas son la re­co­le­c­ción y la in­te­gra­ción de los datos.

Los datos se obtienen uti­li­za­n­do los si­guie­n­tes métodos de ex­tra­c­ción:

  • Trigger (di­s­pa­ra­dor): si los sistemas ope­ra­cio­na­les de una empresa soportan di­s­pa­ra­do­res de bases de datos, estos se pueden utilizar para au­to­ma­ti­zar la ex­tra­c­ción de datos. Los di­s­pa­ra­do­res permiten definir ope­ra­cio­nes que se ejecutan tan pronto de producen de­te­r­mi­na­dos eventos, que suelen consistir en cambios en la base de datos del sistema de origen. Esto conduce a la ex­tra­c­ción de los datos mo­di­fi­ca­dos hacia el almacén de datos.  
  • Archivos de protocolo: si un sistema ope­ra­cio­nal no soporta la te­c­no­lo­gía de di­s­pa­ra­do­res, el nivel de re­co­le­c­ción de datos puede contener programas capaces de examinar los archivos de protocolo o logs del sistema de origen y extraer las ope­ra­cio­nes que han re­gi­s­tra­do.
  • Programas de mo­ni­to­ri­za­ción: si no se cuenta con di­s­pa­ra­dor ni con archivos de protocolo, suelen uti­li­zar­se programas de su­pe­r­vi­sión que extraen los cambios en los datos de un sistema ope­ra­cio­nal a partir de al­go­ri­t­mos que generan snapshots de los datos pe­rió­di­ca­me­n­te y los comparan con los an­te­rio­res.

Cuando, al no ser posible acceder a las bases de datos, los sistemas no soportan ninguno de estos tres métodos, han de ser ellos mismos los que pro­to­co­li­cen los posibles cambios y envíen cualquier mo­di­fi­ca­ción relevante al data warehouse.

En cuanto a la in­te­gra­ción de los datos, la mayor parte de almacenes de datos contienen funciones de pro­ce­sa­mie­n­to analítico en línea (OLAP) que permiten trasladar los datos a es­tru­c­tu­ras mu­l­ti­di­me­n­sio­na­les. El de­no­mi­na­do Online Ana­l­y­ti­cal Pro­ce­s­si­ng es un método analítico basado en el proceso ETL con el que se comprimen los datos de gestión re­le­va­n­tes para la empresa:

  • E = Ex­tra­c­tion (ex­tra­c­ción): en la fase de ex­tra­c­ción de los datos se se­le­c­cio­na la in­fo­r­ma­ción relevante desde di­fe­re­n­tes fuentes siguiendo una es­tra­te­gia de push o de pull. Si los datos se extraen por la es­tra­te­gia de push, las fuentes de datos son impelidas a generar extractos re­gu­la­r­me­n­te y enviarlos al almacén de datos. Si se extraen por la es­tra­te­gia de pull, es el almacén de datos el que impulsa la ex­tra­c­ción.
  • T = Tra­n­s­fo­r­ma­tion (tra­n­s­fo­r­ma­ción): en esta fase los datos que se han extraído se depuran y se traducen al formato de la base de datos donde se deben guardar.
  • L= Loading (carga): en esta fase se guardan los datos ya tra­n­s­fo­r­ma­dos en su base de datos co­rre­s­po­n­die­n­te en el almacén de datos.

Este primer nivel de re­co­le­c­ción puede contener una de­no­mi­na­da staging area, un área temporal en la cual los datos que se van a cargar se someten a una pre­pa­ra­ción previa, lo que puede resultar necesario en el caso de procesos ETL muy complejos.

Al proceder de fuentes di­fe­re­n­tes, la in­te­gra­ción de estos datos en el almacén recurre a diversas he­rra­mie­n­tas de tra­n­s­fo­r­ma­ción y limpieza que pueden cla­si­fi­car­se según estas tres ca­te­go­rías.

  • He­rra­mie­n­tas de migración de datos: estos programas permiten definir reglas simples de tra­n­s­fo­r­ma­ción que co­n­vie­r­tan los datos de salida he­te­ro­gé­neos en un formato de destino uniforme.
  • He­rra­mie­n­tas de limpieza: en este caso, estos programas se apoyan en la llamada lógica difusa (fuzzy logic) y en las redes neu­ro­na­les para mejorar la calidad de los datos en tanto que corrige errores, datos in­co­m­ple­tos y re­pe­ti­cio­nes. Para llevar a cabo esta de­pu­ra­ción de registros, utiliza reglas pre­de­fi­ni­das, al­go­ri­t­mos o tablas de consulta (lookup tables). Esta operación también suele de­no­mi­nar­se gestión de la calidad (quality ma­na­ge­me­nt).
  • He­rra­mie­n­tas de auditoría de datos: estos programas se utilizan para encontrar reglas y re­la­cio­nes entre los datos, así como también para ide­n­ti­fi­car aquellos que co­n­tra­vie­nen las reglas definidas y son pre­vi­si­ble­me­n­te erróneos.

Tras la in­te­gra­ción, los datos extraídos entran en la base de datos central (Core Data Warehouse) mediante programas que:

  • Prueban las co­n­di­cio­nes de in­te­gri­dad
  • Cla­si­fi­can los datos
  • Calculan las agre­ga­cio­nes
  • Calculan las es­tru­c­tu­ras de acceso
  • Fra­g­me­n­tan los datos para que el acceso sea más eficiente

Nivel de co­n­se­r­va­ción de los datos

Este nivel co­n­s­ti­tu­ye el núcleo del almacén de datos y comprende el de­no­mi­na­do Core Data Warehouse o almacén maestro. Los datos extraídos en la fase anterior se guardan en él en la forma de matrices mu­l­ti­di­me­n­sio­na­les (esquemas de bola de nieve y de estrella) y se mantienen aquí con vistas a ser ar­chi­va­dos a largo plazo para análisis futuros. Dado que estos análisis rara vez tienen como objeto el contenido completo del almacén de datos, para ga­ra­n­ti­zar un examen eficiente suele ser habitual crear los de­no­mi­na­dos data marts (mercados de datos), basados en su­b­co­n­ju­n­tos o extractos de la in­fo­r­ma­ción total contenida en el almacén central.

Un data mart es una copia de un su­b­co­n­ju­n­to de datos ge­ne­ra­l­me­n­te realizada como copia temporal no pe­r­si­s­te­n­te. En ocasiones también se utilizan los llamados data marts in­de­pe­n­die­n­tes, que guardan un su­b­co­n­ju­n­to de datos separado de forma pe­r­du­ra­ble.

Un esquema en estrella es un tipo de diagrama entidad-relación (Entity Re­la­tio­n­ship Diagram, ERD), es decir, una re­pre­se­n­ta­ción gráfica de la es­tru­c­tu­ra tabular de una base de datos que ilustra tanto las di­fe­re­n­tes entidades como las re­la­cio­nes entre ellas. Así, un esquema en estrella sirve para vi­sua­li­zar es­tru­c­tu­ras de datos mu­l­ti­di­me­n­sio­na­les.

Los esquemas en estrella están co­m­pue­s­tos por una tabla de hechos y varias tablas de di­me­n­sio­nes alrededor de ella, ad­qui­rie­n­do la ca­ra­c­te­rí­s­ti­ca forma de estrella que da nombre al esquema:

  • La tabla de hechos contiene los índices y las métricas sobre los eventos de una empresa que se deben registrar de forma continua (el volumen de ventas, por ejemplo).
  • Las tablas de di­me­n­sio­nes contienen atributos que describen los datos de la tabla de hechos. Se trata así de un conjunto de datos de re­fe­re­n­cia para los eventos re­gi­s­tra­dos en la tabla de hechos.

En este tipo de esquema, la tabla de hechos está conectada por re­la­cio­nes de clave externa con todas sus tablas de di­me­n­sio­nes, pero no estas entre sí. La siguiente imagen muestra una re­pre­se­n­ta­ción si­m­pli­fi­ca­da de esta es­tru­c­tu­ra de datos:

En este esquema en estrella a modo de ejemplo puede verse la relación entre el hecho «Ventas» (Sales) y un de­te­r­mi­na­do «Canal de ventas» (Sales channel), «Producto» (Product), «Vendedor» (Seller), una «Región» (Region) o un «Periodo de tiempo» (Date). Una posible consulta que abarque tres di­me­n­sio­nes podría ser: ¿cuánto beneficio se obtuvo en 2016 con el producto «mesas» en el canal de venta online?

Una evolución del esquema de estrella es el esquema en copo de nieve (snowflake schema). Mientras que las tablas de di­me­n­sio­nes de un esquema en estrella no están no­r­ma­li­za­das, la in­fo­r­ma­ción re­fe­re­n­cial en un esquema de copo de nieve se almacena según la tercera norma formal (3NF): los datos se cla­si­fi­can y ordenan je­rá­r­qui­ca­me­n­te y la in­fo­r­ma­ción re­du­n­da­n­te se guarda en tablas separadas. Es así como se crean las estrellas ra­mi­fi­ca­das que recuerdan a la es­tru­c­tu­ra interna de los copos de nieve.

Frente a las es­tru­c­tu­ras en estrella, los sistemas en forma de copo de nieve se ca­ra­c­te­ri­zan por una menor uti­li­za­ción de memoria, que resulta del al­ma­ce­na­mie­n­to no­r­ma­li­za­do de los datos. Se entiende como no­r­ma­li­za­ción de bases de datos el de­s­pla­za­mie­n­to de columnas a tablas nuevas con el fin de evitar registros du­pli­ca­dos. Al reducirse la re­du­n­da­n­cia, también disminuye la necesidad de ma­n­te­ni­mie­n­to de los datos: el objetivo es que la in­fo­r­ma­ción figure una sola vez y solo haya que mo­di­fi­car­se en un solo lugar si es necesario hacerlo. Sin embargo, cuando los datos se depositan en tablas no­r­ma­li­za­das se crean ne­ce­sa­ria­me­n­te es­tru­c­tu­ras muy complejas que ra­le­n­ti­zan el pro­ce­sa­mie­n­to de las consultas. Para acceder a los datos de un esquema en copo de nieve, los analistas deben primero conectar las tablas de di­me­n­sio­nes en varias capas mediante joins.

Nota

un join es una operación con la cual se pueden agrupar bases de datos co­ne­c­ta­das con una clave externa bajo unas co­n­di­cio­nes de­te­r­mi­na­das.

En la práctica, la es­tru­c­tu­ra de un almacén de datos suele basarse en el esquema en copo de nieve, mientras que los mercados de datos se im­ple­me­n­tan siguiendo el esquema en estrella.

Con fre­cue­n­cia se hace re­fe­re­n­cia a estos esquemas como tablas de di­me­n­sio­nes porque se pueden re­pre­se­n­tar como una dimensión del cubo OLAP mu­l­ti­di­me­n­sio­nal. Esto permite a los cie­n­tí­fi­cos de datos es­ta­ble­cer re­la­cio­nes entre los hechos al­ma­ce­na­dos en el almacén y todo tipo de in­fo­r­ma­ción de re­fe­re­n­cia que permite analizar in­di­ca­do­res ope­ra­ti­vos del negocio (como, por ejemplo, el volumen de ventas) de forma mu­l­ti­di­me­n­sio­nal a partir de di­fe­re­n­tes aspectos y exa­mi­nar­los en diversos niveles de detalle.

La siguiente figura muestra es­que­má­ti­ca­me­n­te un cubo OLAP, cuyos lados co­m­pre­n­den las di­me­n­sio­nes “Gama de productos”, “Canal de di­s­tri­bu­ción” y “Periodo” y cuya longitud, a su vez, se ve de­te­r­mi­na­da por el número de celdas. Cada celda del cubo contiene una sola cifra, por ejemplo, como en la imagen, el volumen de ventas para el producto “Seguro de vida” a través del canal de venta “Sucursal de venta” en el año “2016” (destacado en azul claro en la imagen):

Este pro­ce­di­mie­n­to no está limitado a las tres di­me­n­sio­nes, pues un cubo de datos es mu­l­ti­di­me­n­sio­nal y puede co­m­pre­n­der tantas di­me­n­sio­nes como sean ne­ce­sa­rias.

Nota

en función de la te­c­no­lo­gía que fu­n­da­me­n­ta el DWH maestro se puede di­fe­re­n­ciar entre diversos métodos de OLAP. Si un cubo de datos toma sus datos de una base de datos re­la­cio­nal se habla de un ROLAP u OLAP re­la­cio­nal, mientras que los cubos basados en bases de datos mu­l­ti­di­me­n­sio­na­les se llaman MOLAP (OLAP mu­l­ti­di­me­n­sio­nal).

Nivel de entrega de los datos

Este nivel funciona como interfaz para las apli­ca­cio­nes finales y las he­rra­mie­n­tas de pre­se­n­ta­ción, que facilitan métodos de análisis y eva­lua­ción de datos que permiten extraer la in­fo­r­ma­ción de los almacenes de datos y pre­pa­rar­los de distintas formas para el usuario final. Entre estas se incluyen he­rra­mie­n­tas de ela­bo­ra­ción de informes y de consultas, de co­la­bo­ra­ción, de minería de datos, de OLAP, sistemas de in­fo­r­ma­ción ejecutiva (EIS) y he­rra­mie­n­tas de pro­ye­c­ción y si­mu­la­ción.

He­rra­mie­n­tas de consulta e informes

Este tipo de programas ponen a di­s­po­si­ción del usuario di­fe­re­n­tes funciones para elaborar informes estándar (pre­de­fi­ned re­po­r­ti­n­gs) de forma au­to­ma­ti­za­da cada cierto tiempo o bajo petición. Los programas de consulta si­m­pli­fi­can la rea­li­za­ción de consultas al almacén de datos pre­de­fi­nié­n­do­las.

He­rra­mie­n­tas de co­la­bo­ra­ción

Los programas de co­la­bo­ra­ción apoyan la co­mu­ni­ca­ción y el trabajo conjunto de los usuarios en el análisis de los datos. La gama de funciones de estas he­rra­mie­n­tas comprende, por ejemplo, el al­ma­ce­na­mie­n­to de co­me­n­ta­rios y el in­te­r­ca­m­bio de re­su­l­ta­dos de análisis.

He­rra­mie­n­tas de minería de datos

Bajo el título de data mining o minería de datos se engloban todos aquellos métodos de análisis no di­re­c­cio­na­les, en parte au­to­ma­ti­za­dos, que tienen como objetivo encontrar patrones, te­n­de­n­cias y re­la­cio­nes re­le­va­n­tes en la in­fo­r­ma­ción. Los programas de minería de datos se apoyan en métodos es­ta­dí­s­ti­cos y ma­te­má­ti­cos, así como en te­c­no­lo­gías de in­te­li­ge­n­cia ar­ti­fi­cial (KI) y de apre­n­di­za­je au­to­má­ti­co. El volumen de los datos que las empresas generan, procesan y agrupan en almacenes de datos para ana­li­zar­los crece de forma ex­po­ne­n­cial y cada dos años se duplica el volumen medio de datos en todo el mundo. En este contexto, los métodos de minería de datos aplicados al data wa­rehou­si­ng no hacen más que ganar en re­le­va­n­cia.

He­rra­mie­n­tas de Online Ana­l­y­ti­cal Pro­ce­s­si­ng (OLAP)

Entre las he­rra­mie­n­tas di­s­po­ni­bles de análisis y eva­lua­ción en almacenes de datos se han co­n­so­li­da­do las apli­ca­cio­nes de OLAP como interfaz estándar de usuario. Las he­rra­mie­n­tas que se utilizan en el marco del pro­ce­sa­mie­n­to analítico en línea presentan funciones con las cuales los usuarios pueden formular consultas es­pe­cí­fi­cas (ad hoc) al almacén de datos que permiten explorar el contenido mu­l­ti­di­me­n­sio­nal del mismo. Su re­pre­se­n­ta­ción por el método OLAP permite modelar los datos depurados en relación con tantas di­me­n­sio­nes pre­de­fi­ni­das como sean ne­ce­sa­rias. En este proceso, los analistas pueden recurrir a diversas ope­ra­cio­nes con las cuales se puede editar un cubo OLAP:

  • Slicing: se conoce como slicing el pro­ce­di­mie­n­to por el cual se delimita una dimensión del cubo OLAP por una porción cua­n­ti­ta­ti­va, prá­c­ti­ca­me­n­te como si se cortara un “trozo” de datos y se estudiara por separado.

En esta imagen se ha aislado la porción “2015” de la dimensión “Periodo”, de modo que muestra todas las ventas que se han generado en 2015 en todos los canales.

  • Dicing: cuando se in­te­r­vie­ne en un cubo OLAP con varias ope­ra­cio­nes de slicing si­mu­l­tá­neas en varias di­me­n­sio­nes se habla de dicing, porque se crea un cubo nuevo más reducido que contiene una porción del cubo global.

La siguiente imagen muestra una operación de dicing en la cual el cubo tri­di­me­n­sio­nal se reduce en tres di­me­n­sio­nes a una porción de in­fo­r­ma­ción:

  • Pivoting: este hace re­fe­re­n­cia al método de girar un cubo de datos de forma que se visualice, al menos, otra dimensión.

  • Drill down/Roll up: cuando las variables de un objeto se deben desglosar a valores aún más de­ta­lla­dos se utiliza la operación drill down, que permite a los analistas ampliar una sección del cubo OLAP para aumentar su grado de detalle. La operación inversa se denomina roll up y en ella se compacta la in­fo­r­ma­ción a niveles más altos de la jerarquía. Ambos se utilizan en la na­ve­ga­ción en es­tru­c­tu­ras je­rá­r­qui­cas mu­l­ti­di­me­n­sio­na­les.

La siguiente imagen muestra un drill down del objeto “Ventas” en la dimensión “Productos”. Al ampliar el detalle, las cifras de ventas pueden in­te­r­pre­tar­se en relación con cada producto en pa­r­ti­cu­lar.

  • Drill out/Split: esta operación permite a los analistas añadir más di­me­n­sio­nes a un cubo OLAP re­su­l­ta­n­do así datos más exhau­s­ti­vos pero, a di­fe­re­n­cia de una operación drill down, el grado de detalle no depende de la gra­nu­la­ri­dad o es­pe­ci­fi­ci­dad, sino de un aumento de la in­fo­r­ma­ción, resultado de las nuevas di­me­n­sio­nes añadidas.
  • Drill in/Merge: la operación contraria al drill out consiste en reducir el grado de detalle del cubo de OLAP eli­mi­na­n­do di­me­n­sio­nes. Al contrario que el roll up, en esta operación la pérdida de in­fo­r­ma­ción no resulta de un cambio del nivel de ob­se­r­va­ción, sino de la pérdida de in­fo­r­ma­ción di­me­n­sio­nal. La gra­nu­la­ri­dad no cambia.
  • Drill across: mientras que las ope­ra­cio­nes pre­ce­de­n­tes siempre se refieren a un único cubo de OLAP, este método se aplica en varios cubos co­n­di­cio­na­dos para permitir análisis globales. En este proceso se analizan varias tablas de datos con al menos una dimensión en común en el mismo nivel je­rá­r­qui­co y con la misma gra­nu­la­ri­dad, es decir, pre­se­r­va­n­do el nivel de ob­se­r­va­ción.
  • Drill through: en este caso el analista se­le­c­cio­na una única celda del cubo de datos y la observa en su mayor grado de detalle, pero, a di­fe­re­n­cia del drill down, el drill through recurre a los datos ori­gi­na­les de la celda se­le­c­cio­na­da. De este modo, el resultado de esta operación deriva de las celdas de la tabla que han servido para calcular la celda se­le­c­cio­na­da del cubo.

Sistemas de in­fo­r­ma­ción ejecutiva (EIS)

Cercanas al OLAP, las he­rra­mie­n­tas de EIS ponen a di­s­po­si­ción de los usuarios distintas opciones a la hora de formular consultas es­pe­cí­fi­cas y modelar los datos. Hoy, no obstante, para di­fe­re­n­ciar­lo de OLAP, el nombre de Executive In­fo­r­ma­tion Systems se utiliza sobre todo en relación con sistemas de apli­ca­cio­nes que facilitan informes pre­de­fi­ni­dos para ciertos sectores ope­ra­ti­vos como la venta, el marketing o la pla­ni­fi­ca­ción fi­na­n­cie­ra.

He­rra­mie­n­tas de previsión y si­mu­la­ción

Las fo­re­ca­s­ti­ng and si­mu­la­tion tools permiten a los usuarios ex­tra­po­lar al futuro los in­di­ca­do­res guardados en el DWH para poder elaborar modelos de pre­di­c­ción.

Gestión de almacenes de datos

En todos los niveles de un data warehouse se en­cue­n­tran co­n­te­ni­das diversas he­rra­mie­n­tas que suelen incluirse en el ámbito de la gestión de almacenes y cuya misión consiste en crear, mantener y operar todas las funciones ad­mi­ni­s­tra­ti­vas ne­ce­sa­rias en un almacén de datos. Tareas centrales de este gestor de DWH son la pla­ni­fi­ca­ción (sche­du­li­ng) de los procesos y la gestión de los metadatos, de la seguridad y del sistema.

  • Sche­du­li­ng: la pla­ni­fi­ca­ción engloba el control de los procesos en el almacén de datos. Las funciones de ad­mi­ni­s­tra­ción en esta sección se pueden organizar en la si­guie­n­tes ca­te­go­rías en relación con los tres niveles de la ar­qui­te­c­tu­ra del almacén:

    • Registro e in­te­gra­ción de los datos: en el nivel de recogida de datos, el gestor es re­s­po­n­sa­ble del diseño y del ajuste de los procesos ETL, así como de su­pe­r­vi­sar las ac­tua­li­za­cio­nes y la gestión de la calidad.

    • Ma­n­te­ni­mie­n­to de los datos: en el nivel de ma­n­te­ni­mie­n­to de datos, el DWH manager supervisa la carga de la memoria, construye tablas de agre­ga­ción y ejecuta ope­ra­cio­nes de archivado y de copia de seguridad.

    • Entrega de los datos: las funciones de ad­mi­ni­s­tra­ción en este nivel incluyen la gestión de los usuarios y la su­pe­r­vi­sión de la duración de ejecución de las consultas.
  • Gestión de los metadatos: el re­po­si­to­rio de metadatos es un co­m­po­ne­n­te central de todo almacén de datos porque contiene toda la in­fo­r­ma­ción necesaria para su co­n­s­tru­c­ción y fu­n­cio­na­mie­n­to, así como todo tipo de in­fo­r­ma­ción sobre el volumen de datos que guarda. Estos metadatos abarcan, por ejemplo, la de­fi­ni­ción del esquema de base de datos que fu­n­da­me­n­ta el DWH, los datos sobre las es­tru­c­tu­ras de memoria, sobre las rutas de acceso y tamaños de los archivos, metadatos que describen las fuentes de los datos, así como el día y la hora en que tienen lugar las ac­tua­li­za­cio­nes, las reglas de de­pu­ra­ción y de tra­n­s­fo­r­ma­ción de los datos, índices y tablas de partición. El gestor también se ocupa del in­te­r­ca­m­bio de metadatos entre cada uno de los co­m­po­ne­n­tes del almacén y facilita una base de metadatos homogénea.
  • Gestión de la seguridad: aquí tienen lugar diversos servicios incluidos en la au­te­n­ti­ca­ción de usuarios, de au­to­ri­za­ción y de cifrado.
  • Gestión del sistema: aquí el gestor del DWH facilita di­fe­re­n­tes funciones de ad­mi­ni­s­tra­ción para el fu­n­cio­na­mie­n­to del almacén de datos pro­pia­me­n­te dicho, entre ellas el mo­ni­to­ri­ng (re­n­di­mie­n­to, carga, etc.), el archivado de los datos o la copia de los datos.

Al­ma­ce­na­mie­n­to y pro­te­c­ción datos en los data wa­rehou­ses

La agre­ga­ción a gran escala de datos ope­ra­ti­vos, de negocio y de los clientes en un almacén de datos, así como su análisis con ayuda de métodos de data mining o de ope­ra­cio­nes de OLAP, ofrece a las empresas una gran opo­r­tu­ni­dad a la hora de optimizar los procesos de negocio de forma so­s­te­ni­ble. Junto a sus ventajas para la toma de de­ci­sio­nes, los aba­n­de­ra­dos de la pro­te­c­ción de datos, sin embargo, también ponen de relieve los riesgos que este tipo de análisis de big data traen consigo, en pa­r­ti­cu­lar para el derecho fu­n­da­me­n­tal al control de la propia in­fo­r­ma­ción y la pro­te­c­ción de la esfera privada. Según los críticos, los análisis que permiten la creación de perfiles pe­r­so­na­les y la pre­di­c­ción au­to­ma­ti­za­da de formas de co­m­po­r­ta­mie­n­to y de actuación son los más pe­lia­gu­dos. En el centro del debate se sitúa el potencial de ma­ni­pu­la­ción de los datos que se obtienen de estos análisis. Si bien la le­gi­s­la­ción española no hace re­fe­re­n­cia a los almacenes de datos como tales, sí establece las re­s­po­n­sa­bi­li­da­des de los de­no­mi­na­dos «re­s­po­n­sa­bles de los ficheros y de su tra­ta­mie­n­to», de­no­mi­na­ción que incluye a personas físicas o jurídicas, es decir, a empresas públicas o privadas con un archivo de datos pe­r­so­na­les a su cargo, como un almacén de datos. La Ley Orgánica 15/1999, de 13 de diciembre, de Pro­te­c­ción de Datos de Carácter Personal, conocida como LOPD, define estas re­s­po­n­sa­bi­li­da­des como obli­ga­cio­nes: 1. In­s­cri­p­ción del fichero: el re­s­po­n­sa­ble de los ficheros ha de no­ti­fi­car­los ante el Registro General de Pro­te­c­ción de Datos para proceder a su in­s­cri­p­ción.  No so­li­ci­tar­la co­n­s­ti­tu­ye una in­fra­c­ción leve según recoge la ley.
2. Calidad de los datos: la empresa o el re­s­po­n­sa­ble del fichero ha de ga­ra­n­ti­zar que los datos que ha recogido son adecuados y veraces, se han recabado le­gí­ti­ma­me­n­te y son uti­li­za­dos ex­clu­si­va­me­n­te para el fin para el que se ob­tu­vie­ron. Este es un derecho fu­n­da­me­n­tal recogido por el Tribunal Co­n­s­ti­tu­cio­nal Europeo en la sentencia 292/2000 como derecho de au­to­de­te­r­mi­na­ción in­fo­r­ma­ti­va o de libre di­s­po­ni­bi­li­dad de los datos de carácter personal. Entre los pri­n­ci­pios asociados a la calidad de los datos, la LOPD y la RLOPD recogen que los datos son de calidad cuando son pe­r­ti­ne­n­tes y adecuados a la finalidad, se cancelan cuando ya no son ne­ce­sa­rios para la finalidad con la que fueron recabados o no se recogen por medios ilícitos, desleales o frau­du­le­n­tos (in­fra­c­ción grave recogida en el artículo 44.4.a).
3. Deber de guardar secreto (art. 10): la empresa ha de ga­ra­n­ti­zar que se cumplen los deberes de secreto y seguridad (sa­l­va­gua­r­dar­los del acceso no au­to­ri­za­do de terceros). El artículo 9 impone a los re­s­po­n­sa­bles de ficheros adoptar las medidas ne­ce­sa­rias para ga­ra­n­ti­zar la seguridad técnica del archivo. Para facilitar a las empresas el cu­m­pli­mie­n­to de la LOPD, la Agencia Estatal por la pro­te­c­ción de los datos ha elaborado esta guía de seguridad.
4. Deber de in­fo­r­ma­ción (art. 5): antes de recabar los datos de ha de informar al in­te­re­sa­do al respecto y obtener su debido co­n­se­n­ti­mie­n­to.
5. Atención de los derechos de los ciu­da­da­nos: se ha de ga­ra­n­ti­zar que el ciudadano pueda ejercer su derecho de oposición, acceso, re­c­ti­fi­ca­ción y ca­n­ce­la­ción; que las empresas con las que se colabora también cumplan con lo es­ta­ble­ci­do en la LOPD, y cumplir con la le­gi­s­la­ción sectorial co­rre­s­po­n­die­n­te. Según el artículo 44.3.e) de la LOPD "El im­pe­di­me­n­to o la ob­s­ta­cu­li­za­ción del ejercicio de los derechos de acceso, re­c­ti­fi­ca­ción, ca­n­ce­la­ción y oposición" co­n­s­ti­tu­ye una falta grave. Sin delimitar ex­plí­ci­ta­me­n­te el caso de los almacenes de datos y de los pro­ce­di­mie­n­tos de análisis de big data, de la LOPD se extrae lo es­ta­ble­ci­do por la AEPD en materia de al­ma­ce­na­mie­n­to de datos de cualquier forma que permita su tra­ta­mie­n­to y su análisis, también en DWH. No cumplir con lo es­ta­ble­ci­do puede desem­bo­car en una in­fra­c­ción de mayor o menor gravedad, como la que ha recaído re­cie­n­te­me­n­te sobre Facebook por parte de la AEPD a raíz de una in­ve­s­ti­ga­ción a cargo de un Grupo de Contacto compuesto por las Au­to­ri­da­des de Pro­te­c­ción de Datos de Bélgica, España, Francia, Hamburgo (Alemania) y Países Bajos.

Software para data wa­rehou­ses

El archivado en almacenes de datos ya no es un lujo exclusivo de las grandes co­r­po­ra­cio­nes, pues las pequeñas y medianas empresas empiezan a descubrir el potencial derivado de la op­ti­mi­za­ción de los procesos mediante el análisis de grandes volúmenes de datos. Al lado de suites pro­fe­sio­na­les de Business In­te­lli­ge­n­ce y so­lu­cio­nes completas de DWH han ido surgiendo en los últimos años productos más ase­qui­bles con los que iniciarse, servicios en la nube más flexibles y apli­ca­cio­nes de código abierto más ajustadas a las ne­ce­si­da­des de la pyme.

Programas de data wa­rehou­si­ng de pago

El software comercial de BI con cierto renombre suele di­s­ti­n­gui­r­se por una elevada fia­bi­li­dad, una gama de funciones acorde con los Service Level Agree­me­nts (SLA) y una atención al cliente de gran calidad, pero también por el coste de su ad­qui­si­ción o de su uti­li­za­ción como servicio en la nube.

La siguiente lista enumera los productos de pago di­s­po­ni­bles en la ac­tua­li­dad de fa­bri­ca­n­tes de primera línea en orden al­fa­bé­ti­co:

Pro­vee­do­res de software pro­pie­ta­rio Productos de data wa­rehou­si­ng
Amazon Web Services Amazon Redshift
Cloudera Cloudera En­te­r­pri­se
Hewlett Packard En­te­r­pri­se HP Vertica
HP ArcSight Data-Platform
HP Haven OnDemand
HP IDOL
HP Key View
IBM IBM Netezza
IBM PureData System
IBM In­fo­S­phe­re DataStage
Microsoft SQL Server
Microsoft Analytics Platform System
Azure HDInsight for Hadoop
Oracle Oracle Business In­te­lli­ge­n­ce
Oracle Database
Oracle Exadata Database Machine
Oracle NoSQL Database
Oracle TimesTen In-Memory Database
Oracle Big Data Appliance
Pivotal Software Pivotal Greenplum
Pivotal Big Data Suite
Pivotal HDB (powered by Apache HAWQ)
Pivotal HDP (OEM Ho­r­to­n­s­wo­r­ks Data Platform)
SAP SAP NetWeaver Business In­te­lli­ge­n­ce
SAP IQ
SAP HANA En­te­r­pri­se Cloud
SAS SAS Data Ma­na­ge­me­nt
SAS Access Interface to Hadoop
SAS Fe­de­ra­tion Server
SAS Data Loader for Hadoop
SAS Event Stream Pro­ce­s­si­ng
Snowflake Computing Snowflake
Teradata Teradata Active En­te­r­pri­se Data Warehouse
Teradata Data Warehouse Appliance
Teradata Appliance for Hadoop
Teradata In­te­gra­ted Big Data Platform
Teradata Aster Big Analytics Appliance

So­lu­cio­nes open source de data wa­rehou­si­ng

Además de las so­lu­cio­nes pro­pie­ta­rias de alto nivel, el mercado del software de in­te­li­ge­n­cia de negocio también ofrece so­lu­cio­nes de código abierto que facilitan funciones de data wa­rehou­si­ng de forma gratuita. La siguiente co­m­pa­ra­ti­va se basa en in­fo­r­ma­ción del Mi­ni­s­te­rio Alemán de Economía y Energía y muestra los programas más uti­li­za­dos así como sus ámbitos de apli­ca­ción:

Software BI Extrae datos puros Tra­n­s­fo­r­ma datos puros Carga datos tra­n­s­fo­r­ma­dos OLAP Data Mining Panel de control Informes
Pentaho DI - - - -
Talend OS - - - -
Jasper ETL - - - -
Pentaho Mondrian - - - -
Jedox - - -
BIRT - - - -
SQL Power Wabit - - -
KNIME -
Ra­pi­d­Mi­ner
Weka - -
Ja­s­pe­r­So­ft
Pentaho
SpagoBI

En función de sus ámbitos de apli­ca­ción, estos programas de la lista pueden ser cla­si­fi­ca­dos como software de ETL, de OLAP, de data mining o de ela­bo­ra­ción de informes. También se en­cue­n­tran so­lu­cio­nes in­te­gra­das de BI que cubren todos los aspectos de apli­ca­ción.

Software de ETL

Para la recogida e in­te­gra­ción de los datos en los procesos de ETL, los programas Pentaho DI, Talend OS y Jasper ETL son los más adecuados.

  • Pentaho DI: conocida también como Kettle, la he­rra­mie­n­ta de ETL Pentaho Data In­te­gra­tion (DI) forma parte de la suite Pentaho BI, aunque también se puede utilizar en es­tru­c­tu­ras de data wa­rehou­si­ng como apli­ca­ción in­de­pe­n­die­n­te. Esta he­rra­mie­n­ta de recogida e in­te­gra­ción dispone de una interfaz gráfica que también permite gestionar procesos de ETL a usuarios sin co­no­ci­mie­n­tos en pro­gra­ma­ción. Para ello Pentaho DI facilita una amplia paleta de módulos con los cuales se pueden definir los pasos que componen un proceso de ETL. La he­rra­mie­n­ta soporta todos los sistemas de base de datos ha­bi­tua­les y puede extraer datos de archivos planos como CSV, Excel o de texto. Asimismo también facilita in­te­r­fa­ces a suites de BI pro­pie­ta­rias de SAS o SAP así como a software de análisis como Google Analytics. 
  • Talend OS: la he­rra­mie­n­ta de Talend es co­m­pa­ra­ble a Pentaho DI porque también permite al usuario definir los procesos de recogida y de in­te­gra­ción de datos mediante módulos pa­ra­me­tri­za­dos (los llamados Jobs). Talend Open Studio ofrece in­te­r­fa­ces a todas las fuentes de datos más ha­bi­tua­les y a diversas funciones de tra­n­s­fo­r­ma­ción de datos. Un editor de mapas permite a los usuarios pasar datos he­te­ro­gé­neos sin tratar a una es­tru­c­tu­ra pre­de­fi­ni­da. Como Pentaho DI, Talend OS también dispone de una interfaz gráfica amable con los menos ex­pe­ri­me­n­ta­dos en pro­gra­ma­ción.
  • Jasper ETL: Jasper ETL es el resultado de una coope­ra­ción entre las compañías de software Ja­s­pe­r­so­ft y Talend y se basa en lo esencial en Talend OS, la he­rra­mie­n­ta de in­te­gra­ción que domina el mercado open source. Vale la pena de­ca­n­tar­se por él es­pe­cia­l­me­n­te si se utilizan otros productos de BI de Ja­s­pe­r­so­ft en la es­tru­c­tu­ra del almacén de datos.

Apli­ca­cio­nes de OLAP

Entre las he­rra­mie­n­tas de OLAP en­co­n­tra­mos las co­n­so­li­da­das Pentaho Mondrian y Jedox.

  • Pentaho Mondrian: Mondrian es un servidor OLAP basado en Java. Ori­gi­na­ria­me­n­te de­sa­rro­lla­do como proyecto open source autónomo, desde 2006 forma parte de la suite Pentaho BI aun estando di­s­po­ni­ble como apli­ca­ción in­de­pe­n­die­n­te e incluida en las so­lu­cio­nes BI de otros fa­bri­ca­n­tes como Ja­s­pe­r­so­ft. De esta manera los usuarios obtienen beneficio de una unión de recursos de código abierto que facilita proyectos comunes como Workbench o la interfaz OLAP4J. El proyecto Mondrian persigue un principio re­la­cio­nal (ROLAP) fu­n­da­me­n­tá­n­do­se en una base de datos re­la­cio­nal, cuyas tablas se organizan en esquemas de estrella o de copo de nieve. El acceso a ella se realiza en la forma de consulta mu­l­ti­di­me­n­sio­nal (MDX), por XML for Analysis (XMLA) o con la interfaz de Java OLAP4J. El esquema de Mondrian Workbench pro­po­r­cio­na la interfaz gráfica al programa. Los esquemas de Mondrian se pueden de­sa­rro­llar y probar en el es­cri­to­rio sin di­fi­cu­l­tad.
  • Jedox: el de­sa­rro­lla­dor de software Jedox ofrece con su suite homónima una solución completa para apli­ca­cio­nes de BI y de gestión del re­n­di­mie­n­to. El co­m­po­ne­n­te central del programa es un servidor OLAP In Memory de gran potencia que puede in­te­grar­se en otros entornos de software mediante in­te­r­fa­ces para Java, PHP, C/C++ o .NET. Jedox resulta es­pe­cia­l­me­n­te atractiva para los usuarios del sector de las pymes es­pe­cia­l­me­n­te por el Excel Add In con el cual también se puede controlar el servidor OLAP desde la conocida hoja de cálculo de Microsoft. El uso de las apli­ca­cio­nes ofi­má­ti­cas está muy extendido en empresas pequeñas y medianas y a menudo re­pre­se­n­tan la base del registro de los datos. Al integrar Excel en el programa se reduce co­n­si­de­ra­ble­me­n­te la necesidad de formar a los nuevos empleados en su uso.

Data mining

También en el campo de la minería de datos los usuarios cuentan con las co­rre­s­po­n­die­n­tes he­rra­mie­n­tas libres con licencia open source. De entre todas, re­co­me­n­da­mos KNIME, Ra­pi­d­Mi­ner y Weka.

  • KNIME: KNIME (Konstanz In­fo­r­ma­tion Miner) es una he­rra­mie­n­ta de minería de datos de­sa­rro­lla­da en la Uni­ve­r­si­dad de Constanza, Alemania, que ofrece, siguiendo un concepto de fra­c­cio­na­mie­n­to de datos (data pi­pe­li­ni­ng) modular y pro­ce­di­mie­n­tos de análisis propios, po­si­bi­li­da­des de in­te­gra­ción de diversos al­go­ri­t­mos de minería de datos y de apre­n­di­za­je au­to­má­ti­co. En la interfaz gráfica se define cada uno de los pasos que integran la pre­pa­ra­ción de los datos (ETL), la mo­de­li­za­ción, el análisis y la vi­sua­li­za­ción arra­s­tra­n­do los módulos y co­lo­cá­n­do­los en el apartado de trabajo que co­rre­s­po­n­da formando una hilera. La empresa madre KNIME.com AG sita en Suiza ofrece la descarga gratuita del software, además de apoyo técnico y servicio de asesoría en su central de Zúrich. Escrito en Java, KNIME se ofrece como plugin para la he­rra­mie­n­ta de pro­gra­ma­ción Eclipse (IDE).
  • Ra­pi­d­Mi­ner: la pla­ta­fo­r­ma de análisis Ra­pi­d­Mi­ner de la compañía homónima propone un entorno integrado para apre­n­di­za­je au­to­má­ti­co, minería de datos, texto y web, análisis de se­n­ti­mie­n­to (minería de opinión) y de tiempo, así como modelos de pre­di­c­ción en un modelo open core. El programa soporta toda la escala del proceso de data mining, in­clu­ye­n­do la pre­pa­ra­ción de los datos, su vi­sua­li­za­ción, su va­li­da­ción y su op­ti­mi­za­ción. Aquellos usuarios para los cuales la versión gratuita, que solo incluye un pro­ce­sa­dor lógico y cuyo análisis solo abarca 10 mil registros como máximo, no es su­fi­cie­n­te, pueden optar por una licencia En­te­r­pri­se de pago. El programa está escrito en Java y ofrece una interfaz gráfica de usuario con la cual se puede diseñar y ejecutar el proceso de análisis usando el ratón.
  • Weka: Weka, acrónimo de Waikato En­vi­ro­n­me­nt for Knowledge Analysis, es un proyecto que nace en la Uni­ve­r­si­dad de Waikato, en Nueva Zelanda. Esta he­rra­mie­n­ta de análisis ofrece a los usuarios diversos al­go­ri­t­mos de apre­n­di­za­je au­to­má­ti­co y, además de los métodos clásicos de data mining tales como la cla­si­fi­ca­ción, la aso­cia­ción y los análisis de regresión o de clústeres, Weka también contiene diversos co­m­po­ne­n­tes de tra­ta­mie­n­to previo y de vi­sua­li­za­ción de datos. El programa, escrito en Java, cuenta con una interfaz gráfica de usuario, pero también permite la in­ter­ac­ción por medio de líneas de comandos. También facilita una interfaz de Java para integrar al programa en las so­lu­cio­nes propias de software.

Ela­bo­ra­ción de informes

In­s­tru­me­n­tos re­co­me­n­da­bles para elaborar informes son BIRT y SQL Power Wabit, he­rra­mie­n­tas que junto a los ha­bi­tua­les informes mensuales, tri­me­s­tra­les o anuales, también contienen funciones ad hoc para tener acceso a datos re­le­va­n­tes en tiempo real.

  • BIRT: BIRT (Business In­te­lli­ge­n­ce and Reporting Tools) es un proyecto libre de la fundación Eclipse, que diseña funciones de BI Reporting para clientes en­ri­que­ci­dos (rich clients) y apli­ca­cio­nes web. El software es adecuado es­pe­cia­l­me­n­te para apli­ca­cio­nes basadas en Java y cubre am­plia­me­n­te la vi­sua­li­za­ción de datos y la ela­bo­ra­ción de informes. Los informes se diseñan en una interfaz gráfica de usuario basada en la he­rra­mie­n­ta de pro­gra­ma­ción Eclipse y se guardan como archivos XML.
  • SQL Power Wabit: esta he­rra­mie­n­ta de reporting permite elaborar informes basados en consultas clásicas a la base de datos y solo soporta cubos de OLAP si existe una de­s­cri­p­ción de la es­tru­c­tu­ra de los datos. El programa soporta informes estándar, consultas ad hoc a la base de datos, páginas de resumen pe­r­so­na­li­za­das y ope­ra­cio­nes drill down en el contexto del Online Ana­l­y­ti­cal Pro­ce­s­si­ng. Con funciones como el control por drag and drop, la ac­tua­li­za­ción en vivo de los informes de re­su­l­ta­dos, una función de búsqueda global y un editor WYSIWYG para esbozar informes, SQL Power Wabit se ajusta también a los usuarios sin co­no­ci­mie­n­tos de SQL. El editor permite crear exhau­s­ti­vos informes con el ratón y pe­r­so­na­li­zar­los ajustando la fuente, el color y la co­m­po­si­ción.

So­lu­cio­nes in­te­gra­das de Business In­te­lli­ge­n­ce

Las opciones en cuanto a so­lu­cio­nes in­te­gra­das de BI no se quedan en las suites de BI de los grandes fa­bri­ca­n­tes como SAP, Oracle, IBM, SAS, HP o Microsoft. El mercado del código abierto también ofrece proyectos de software que ponen a di­s­po­si­ción de los usuarios so­lu­cio­nes de data wa­rehou­si­ng en forma de co­m­pi­la­cio­nes. De entre ellos destacan las suites Pentaho CE, Ja­s­pe­r­so­ft y SpagoBI.

  • Pentaho Community Edition (CE): además de sus propios proyectos, la suite de Pentaho abarca una serie de otros proyectos open source que se integran pau­la­ti­na­me­n­te en su portfolio de productos. Sus puntos fuertes radican en la in­te­gra­ción de los datos y en la au­to­ma­ti­za­ción de informes, siendo los programas: 

     
    • Pentaho Business Analytics Platform: apli­ca­ción web que permite a los usuarios depositar toda la in­fo­r­ma­ción en un lugar central.
    • Pentaho Data In­te­gra­tion: he­rra­mie­n­ta de ETL explicada con an­te­rio­ri­dad.
    • Pentaho Report Designer (PRD): se trata de una evolución de JFree­Re­po­rt. La solución de reporting de código abierto soporta diversos formatos de salida, como PDF, Excel, HTML, Text, Rich Text File, XML y CSV.
    • Pentaho Ma­r­ke­t­pla­ce: el mercado permite al usuario ampliar la pla­ta­fo­r­ma Pentaho con plugins.
    • Pentaho Ag­gre­ga­tion Designer (PAD): con PAC se crea y se optimiza el contenido de las bases de datos. El núcleo de la he­rra­mie­n­ta lo co­n­s­ti­tu­ye el servidor OLAP Mondrian.
    • Pentaho Schema Workbench (PSW): en este caso se trata de una interfaz gráfica de diseño para crear y probar esquemas para los cubos OLAP de Mondrian.
    • Pentaho Metadata Editor (PME): PME se utiliza para describir de forma detallada las es­tru­c­tu­ras de datos su­b­ya­ce­n­tes con ayuda de un archivo XML.

La edición En­te­r­pri­se de Pentaho (EE) amplía la suite con una gama de funciones más extensa y soporte pro­fe­sio­nal a cambio de una su­s­cri­p­ción.

  • Ja­s­pe­r­so­ft: Ja­s­pe­r­so­ft también propone una solución integrada de BI co­n­te­nie­n­do di­fe­re­n­tes apli­ca­cio­nes de data wa­rehou­si­ng. La co­m­pi­la­ción abarca los si­guie­n­tes programas:

     
    • Ja­s­pe­rRe­po­rts Server: servidor de informes que facilita funciones OLAP en un servidor Mondrian adaptado.
    • Ja­s­pe­rRe­po­rts Library: Ja­s­pe­r­so­ft facilita una bi­blio­te­ca Java para poder crear informes.
    • Ja­s­pe­r­so­ft Studio: este es el editor para crear los informes.
    • Ja­s­pe­r­so­ft ETL: la he­rra­mie­n­ta de ETL basada en Talend OS se describió an­te­rio­r­me­n­te.
    • Mobile BI: apli­ca­ción nativa para te­r­mi­na­les iPhone y Android para acceder a los informes y a los paneles de control desde el móvil.

Ja­s­pe­r­so­ft también cuenta con su versión comercial de pago con un abanico ampliado de funciones.

  • SpagoBI: a di­fe­re­n­cia de Pentaho y Ja­s­pe­r­so­ft, que co­me­r­cia­li­zan sus productos con doble licencia, la ini­cia­ti­va Spa­go­Wo­r­ld ofrece su suite de BI ex­clu­si­va­me­n­te como solución open source. Los usuarios pro­fe­sio­na­les pueden solicitar la co­n­fi­gu­ra­ción y el ajuste pro­fe­sio­nal del software como servicio de pago. La co­m­pi­la­ción incluye estos programas:

     
    • SpagoBI Server: este servidor co­n­s­ti­tu­ye el corazón de la suite abierta de BI y facilita diversas he­rra­mie­n­tas de análisis y funciones.
    • SpagoBI Studio: se trata de un entorno integrado de de­sa­rro­llo.
    • SpagoBI Meta: entorno para la gestión de los metadatos.
    • SpagoBI SDK: con este programa la suite de Spago dispone de una capa de in­te­gra­ción que permite in­co­r­po­rar he­rra­mie­n­tas externas como Talend OS (ETL), Jedox o Mondrian (OLAP), Weka o R (data mining) o BIRT o Ja­s­pe­rRe­po­rts Library (informes).

Ma­n­te­ni­mie­n­to de los datos

En el terreno de la co­n­se­r­va­ción de los datos los usuarios también pueden recurrir a una serie de al­te­r­na­ti­vas de código abierto a sistemas de gestión pro­pie­ta­rios como Microsoft SQL Server, IBM DB2 o a so­lu­cio­nes de Oracle y Teradata. Como almacén central de datos podemos contar con las bases de datos re­la­cio­na­les MySQL y MariaDB o el sistema de gestión re­la­cio­nal de objetos Po­s­t­gre­S­QL. Pivotal ofrece a este último con licencia abierta y como evolución op­ti­mi­za­da especial para ar­qui­te­c­tu­ras de almacén de datos con el nombre de Greenplum Database.

El data wa­rehou­si­ng llega a la pyme

El mercado de la Business In­te­lli­ge­n­ce y los sistemas de data wa­rehou­si­ng también ofrece, junto a so­lu­cio­nes de alto nivel, una amplia paleta de proyectos open source que co­n­tri­bu­yen a reducir el obstáculo fi­na­n­cie­ro que la entrada en el mundo del big data supone para la pequeña y la mediana empresa.

A la hora de im­ple­me­n­tar so­lu­cio­nes de BI, se re­co­mie­n­da a estas empresas centrarse primero en la ela­bo­ra­ción de informes. Ya con algunas tareas sencillas es posible para las empresas obtener los primeros be­ne­fi­cios de la reunión de todos los datos en un solo lugar. Si durante el examen se ponen de relieve huecos en la in­fo­r­ma­ción al­ma­ce­na­da, en un siguiente paso se podría re­or­ga­ni­zar la recogida de datos con ayuda de las he­rra­mie­n­tas de ETL u OLAP que se han pre­se­n­ta­do aquí. La in­co­r­po­ra­ción de una ar­qui­te­c­tu­ra de DWH en la in­frae­s­tru­c­tu­ra in­fo­r­má­ti­ca de la empresa concluye con las he­rra­mie­n­tas de minería de datos, las cuales pueden detectar te­n­de­n­cias y re­la­cio­nes nuevas mediante análisis continuos (análisis de carritos de la compra) de forma que pueden entregar in­fo­r­ma­ción muy relevante para la toma de de­ci­sio­nes es­tra­té­gi­cas.

Las pymes que tengan la intención de utilizar un almacén de datos no pueden perder de vista las im­pli­ca­cio­nes en cuanto a la pro­te­c­ción y la seguridad de los datos de la es­tra­te­gia de BI.

Ir al menú principal