En la era de la in­fo­r­ma­ción, las or­ga­ni­za­cio­nes recopilan co­n­s­ta­n­te­me­n­te grandes ca­n­ti­da­des de datos. Pero en la mayoría de los casos, los datos re­co­pi­la­dos se almacenan sin llegar a ser ana­li­za­dos. Estos datos, que existen, pero no se utilizan, se denominan dark data.

Private Cloud powered by VMware
Pago por uso y el más alto nivel de seguridad de los datos.

Bajo la división Arsys Cloud Solutions, diseñamos So­lu­cio­nes a tu medida.

¿Qué es el dark data?

El dark data es un conjunto de datos que no son ac­ce­si­bles o no son conocidos por la or­ga­ni­za­ción. Puede tratarse de datos in­co­m­ple­tos, que no han sido ana­li­za­dos, que son secretos o que no han sido re­co­pi­la­dos (todavía). Lo esencial para que en­te­n­da­mos el término de dark data es que es relativo. Que los datos sean “dark” o no depende de la relación de esos datos respecto a una de­te­r­mi­na­da or­ga­ni­za­ción.

El dark data es es­pe­cia­l­me­n­te relevante en relación con la gestión de big data. Se generan co­n­ti­nua­me­n­te tantos datos que a menudo no se pueden procesar y analizar a tiempo. En las palabras del es­ta­dí­s­ti­co británico David Hand:

Cita

“En tiempos de big data, es fácil pensar que tenemos toda la in­fo­r­ma­ción que ne­ce­si­ta­mos para tomar buenas de­ci­sio­nes. Pero, de hecho, los datos nunca son completos y pueden re­pre­se­n­tar solo la punta del iceberg”

(“In the era of big data, it is easy to imagine that we have all the in­fo­r­ma­tion we need to make good decisions. But in fact the data we have are never complete, and may be only the tip of the iceberg.”)

- David Hand

Veamos cuatro si­tua­cio­nes concretas. Dark data pueden ser:

  1. Datos cuya exi­s­te­n­cia se desconoce
  2. Datos sujetos a in­ce­r­ti­du­m­bres
  3. Datos que se almacenan sin utilizar
  4. Datos que ni siquiera se han llegado a recopilar

De los cuatro es­ce­na­rios, di­fe­re­n­cia­mos además dos casos distintos:

  1. La or­ga­ni­za­ción es co­n­s­cie­n­te de que faltan datos, que están in­co­m­ple­tos o que están sujetos a in­ce­r­ti­du­m­bre.

Este caso es el menos pro­ble­má­ti­co de los dos. Si la or­ga­ni­za­ción es co­n­s­cie­n­te de que los datos de los que dispone pueden ser úni­ca­me­n­te la punta del iceberg, podrá tomar co­n­tra­me­di­das y adaptarse a la situación. La or­ga­ni­za­ción puede intentar completar los datos re­co­pi­la­dos o evaluar los datos que sí están di­s­po­ni­bles con respecto a las in­ce­r­ti­du­m­bres.

  1. La or­ga­ni­za­ción no es co­n­s­cie­n­te de que faltan datos o supone que los datos que ha re­co­le­c­ta­do están completos.

Este caso es el más peligroso de los dos. Si la or­ga­ni­za­ción asume que tiene una imagen completa de la situación basándose en los datos que ha re­co­pi­la­do, está operando bajo una su­po­si­ción falsa. Las co­n­clu­sio­nes extraídas de datos in­co­m­ple­tos conducen a de­ci­sio­nes in­e­fi­cie­n­tes.

En tiempos de big data y de data mining, las or­ga­ni­za­cio­nes se esfuerzan en extraer toda la in­fo­r­ma­ción posible de los datos que recopilan.

¿Qué son los datos realmente?

El término “datos” está en boca de todos desde la explosiva difusión de las te­c­no­lo­gías de la in­fo­r­ma­ción. Utilizado por políticos, re­pre­se­n­ta­n­tes de empresas y cie­n­tí­fi­cos por igual; sin embargo, el concepto sigue siendo confuso para muchas personas. Esto se debe a que los datos no son de na­tu­ra­le­za física, sino un concepto abstracto.

Los datos no son lo mismo que la in­fo­r­ma­ción

En primer lugar, tengamos en cuenta que los datos son una ma­ni­fe­s­ta­ción de la in­fo­r­ma­ción. En realidad, los datos son los elementos más pequeños que componen la in­fo­r­ma­ción. De la misma forma que los átomos son los elementos más pequeños que componen la materia o que los fotones son los elementos más pequeños que componen la energía.

Nota

Uti­li­za­mos el término “in­fo­r­ma­ción” aquí como un término abstracto, al igual que la materia y la energía. Cuando hablamos de in­fo­r­ma­ción en plural, nos referimos a ex­pre­sio­nes concretas.

Cada dato, por sí mismo, carece de sentido. Solo la in­te­r­pre­ta­ción de varios datos permite obtener in­fo­r­ma­ción útil. Para en­te­n­de­r­lo, piensa en los datos como si fueran letras in­di­vi­dua­les. Una sola letra, por ejemplo, la letra “A”, no tiene si­g­ni­fi­ca­do por sí misma. Solo cuando se combinan varias letras se obtiene una palabra como, por ejemplo, “Manzana”. Aquí, además, el orden es decisivo, ¿o te sirve de algo la palabra “zaanMan”?

La in­fo­r­ma­ción es, por tanto, un conjunto de datos agrupados en es­tru­c­tu­ras y separados entre sí. Después de agru­par­los, el proceso de in­te­r­pre­ta­ción depende del contexto. Esto significa que una serie de datos puede ser in­te­r­pre­ta­da de di­fe­re­n­tes formas, lo que puede dar lugar a varios si­g­ni­fi­ca­dos. Piensa de nuevo en la palabra “Manzana”. En lugar de combinar las letras in­di­vi­dua­les para formar una palabra, podríamos contar las letras. El resultado sería una in­fo­r­ma­ción diferente basada en los mismos datos.

Ima­gi­ne­mos la totalidad de los datos de una or­ga­ni­za­ción como una montaña. Y que el reto consiste en extraer in­fo­r­ma­ción útil de la montaña de datos. A di­fe­re­n­cia de una montaña física, donde los ma­te­ria­les valiosos solo se pueden extraer una vez, la in­fo­r­ma­ción útil puede, en principio, extraerse varias veces de una montaña de datos. Cada vez que se extrae la in­fo­r­ma­ción depende del contexto y de la pe­r­s­pe­c­ti­va.

La jerarquía de la in­fo­r­ma­ción

Si la in­fo­r­ma­ción se compone de datos, como la materia se compone de átomos, es natural suponer que existen otras es­tru­c­tu­ras su­pe­rio­res. De hecho, existe una jerarquía de la in­fo­r­ma­ción: los datos están en la parte inferior, seguidos por la in­fo­r­ma­ción y fi­na­l­me­n­te por el co­no­ci­mie­n­to.

El co­no­ci­mie­n­to consiste en in­fo­r­ma­ción in­te­r­co­ne­c­ta­da. Para ello, hay una po­n­de­ra­ción de las unidades in­di­vi­dua­les de in­fo­r­ma­ción. Algunas unidades son primarias, otras se­cu­n­da­rias. Para el co­no­ci­mie­n­to es crucial el concepto de re­fe­re­n­cia, que hoy se conoce como (hyper)-link: de­te­r­mi­na­da in­fo­r­ma­ción que remite a otra unidad de co­no­ci­mie­n­to. Ejemplos de co­no­ci­mie­n­to son las entradas de Wikipedia, las recetas y los procesos do­cu­me­n­ta­dos.

A partir del co­no­ci­mie­n­to, nace la in­te­li­ge­n­cia. Permite obtener co­n­clu­sio­nes y reconocer patrones a partir del co­no­ci­mie­n­to aprendido y la ex­pe­rie­n­cia adquirida. Los nuevos co­no­ci­mie­n­tos se crean a partir de la de­fi­ni­ción y prueba de nuevas hipótesis. Para la in­te­li­ge­n­cia es crucial la in­fo­r­ma­ción eje­cu­ta­ble o, en otras palabras: el código. Pueden ser al­go­ri­t­mos o heu­rí­s­ti­cas. Mientras que los datos, la in­fo­r­ma­ción y el co­no­ci­mie­n­to son inertes, la in­te­li­ge­n­cia requiere un entorno de ejecución. Las células, los or­ga­ni­s­mos, los or­de­na­do­res y las redes son sistemas que muestran in­te­li­ge­n­cia.

El nivel más alto en la jerarquía de la in­fo­r­ma­ción es la sabiduría. La sabiduría es la suma del co­no­ci­mie­n­to y la in­te­li­ge­n­cia. La sabiduría permite evaluar di­fe­re­n­tes vías para encontrar una solución equi­li­bra­da. Las preguntas in­te­re­sa­n­tes no son tanto el “qué” (datos, in­fo­r­ma­ción) o el “cómo” (co­no­ci­mie­n­to, in­te­li­ge­n­cia), sino el “por qué” y el “para qué”. Un buen ejemplo de sabiduría es una bi­blio­te­ca. Esto no solo incluye el co­no­ci­mie­n­to en forma de libros y otros medios, sino también la in­te­li­ge­n­cia en forma de personal y sistemas de índices.

Hosting Nextcloud ad­mi­ni­s­tra­do
Tu al­ma­ce­na­mie­n­to cloud bajo control
  • Control total de datos
  • Fácil de ad­mi­ni­s­trar
  • Agrega fá­ci­l­me­n­te apli­ca­cio­nes y he­rra­mie­n­tas de co­la­bo­ra­ción

¿Cómo se produce el dark data?

Los procesos or­ga­ni­za­ti­vos que se apoyan en los métodos modernos de procesado de la in­fo­r­ma­ción producen datos co­n­s­ta­n­te­me­n­te. Una cierta pro­po­r­ción de todos los datos re­co­pi­la­dos se convierte en dark data, pues la in­fo­r­ma­ción de que los datos existen se pierde o falta desde el principio. También puede ocurrir que el co­no­ci­mie­n­to de cómo se pueden analizar los datos no esté di­s­po­ni­ble.

El dark data se presenta de varias formas. En las palabras de la experta en marketing Sky Cassidy:

Cita

“El dark data es un conjunto de datos que las empresas recopilan y conservan como parte de los procesos em­pre­sa­ria­les ha­bi­tua­les sin intención de ana­li­zar­los ni de des­ha­ce­r­se de ellos. Esto incluye archivos de registro web, es­ta­dí­s­ti­cas de visitas a la página web, gra­ba­cio­nes de cámaras de vi­gi­la­n­cia, correos ele­c­tró­ni­cos de antiguos empleados y mucho más.”

(“So as for Dark data, it’s all the in­fo­r­ma­tion companies collect in their regular business processes, don’t use, have no plans to use, but will never throw out. It’s web logs, visitor tracking data, su­r­vei­lla­n­ce footage, email co­rre­s­po­n­de­n­ces from past employees, and so much more.”)

- Sky Cassidy

El dark data surge de los datos olvidados o que ya no son ac­ce­si­bles

Una gran parte del dark data consiste en datos a los que ya no se puede acceder porque se han olvidado o porque no se dispone de las he­rra­mie­n­tas de acceso.

Los empleados almacenan co­n­ti­nua­me­n­te datos en sus di­s­po­si­ti­vos privados y de empresa. Estos datos caen rá­pi­da­me­n­te en el olvido y se co­n­vie­r­ten en dark data. Los datos de las memorias USB y los discos duros externos, así como las bases de datos internas de los di­s­po­si­ti­vos móviles y de sobremesa retirados, forman parte del dark data tanto como los datos de los archivos adjuntos en correos ele­c­tró­ni­cos y bases de datos no uti­li­za­das.

La es­ca­la­bi­li­dad casi infinita es una de las ventajas de la nube, pero al mismo tiempo también su talón de Aquiles. Con la ayuda del al­ma­ce­na­mie­n­to en la nube, es posible seguir acu­mu­la­n­do datos sin llegar a un límite fijado, lo que tienta a los empleados a recopilar ca­n­ti­da­des ili­mi­ta­das de datos. Si el frenesí de re­co­pi­la­ción de datos se produce al margen de procesos es­tri­c­ta­me­n­te regulados, suelen resultar en dark data.

Cuando los datos se almacenan di­gi­ta­l­me­n­te, hay que hacerlo teniendo en cuenta la seguridad y la pro­te­c­ción de los datos. Los datos están en­cri­p­ta­dos, los sistemas están pro­te­gi­dos con accesos por medio de au­te­n­ti­ca­ción. Pero ¿qué ocurre si se olvida la co­n­tra­se­ña de acceso o no se encuentra la clave? En ambos casos, deja de haber acceso a los datos; se pierde la po­si­bi­li­dad de acceder a la in­fo­r­ma­ción que contiene.

No obstante, existe otro peligro, el de perder el acceso a los datos que realmente son ne­ce­sa­rios. Esto puede ocurrir si los datos ya no se en­cue­n­tran ac­ce­si­bles. Si, por ejemplo, se trata de un formato de archivo pro­pie­ta­rio, puede ser necesario utilizar un programa especial para leerlo. Sin embargo, puede ocurrir que el programa ya no esté di­s­po­ni­ble en la versión requerida. Esto significa que los datos pe­r­ma­ne­cen atrapados en el vendor lock-in.

El dark data surge de datos in­co­m­ple­tos o des­ac­tua­li­za­dos

El dark data no solo está formado por los datos a los que no se tiene acceso. También incluye datos in­co­m­ple­tos o des­ac­tua­li­za­dos. Volvamos a escuchar al es­ta­dí­s­ti­co David Hand:

Cita

“Dark data son datos que faltan. Puede que quieras los datos de hoy, pero solo tienes los de ayer. Tal vez tengas una muestra sesgada o te falten algunos casos de la muestra de los datos. O, tal vez, los valores medidos son inexactos, pues no existe un in­s­tru­me­n­to de medición perfecto”.

(“Dark data are data you don't have. This might be because you want today's data, but all you have is ye­s­te­r­da­y's. It might be because your sample is distorted, perhaps certain types of cases are missing. It might be because the recorded values are inac­cu­ra­te – after all, no mea­su­re­me­nt in­s­tru­me­nt is perfect.”)

- David Hand

Recuerda que los datos son el nivel más bajo dentro de la jerarquía de la in­fo­r­ma­ción. Las im­pre­ci­sio­nes y de­s­via­cio­nes de los datos se ma­ni­fie­s­tan en los niveles de in­fo­r­ma­ción su­pe­rio­res. Esto suele provocar efectos en cascada: pequeñas de­s­via­cio­nes provocan grandes cambios. Por lo tanto, los datos in­co­m­ple­tos pueden tener re­pe­r­cu­sio­nes im­po­r­ta­n­tes.

Lo mismo ocurre con los datos des­ac­tua­li­za­dos. Por ejemplo, co­n­si­de­re­mos la geo­lo­ca­li­za­ción de un usuario, que se almacena como parte de un conjunto de datos. Dado que la geo­lo­ca­li­za­ción cambia co­n­s­ta­n­te­me­n­te a medida que el usuario se desplaza, la in­fo­r­ma­ción que recoge la geo­lo­ca­li­za­ción solo puede ser útil si los datos se analizan en tiempo real. Por ejemplo, si quieres hacer una oferta a un usuario basada en su ubicación, debes hacerla mientras el usuario esté todavía en ese lugar.

El dark data surge de datos que no han sido ana­li­za­dos

Una gran parte del dark data consiste en datos que se han re­co­pi­la­do y al­ma­ce­na­do, pero no se han analizado. Un volumen es­pe­cia­l­me­n­te elevado de dark data procede de fuentes que generan datos au­to­má­ti­ca­me­n­te. Esto incluye los sensores, así como los archivos de registro y las es­ta­dí­s­ti­cas de visitas de las páginas web. Los datos generados se almacenan a menudo durante largos periodos de tiempo sin que se extraiga y analice la in­fo­r­ma­ción que contienen.

Algunos datos están di­s­po­ni­bles en formatos que requieren pro­ce­di­mie­n­tos complejos para su eva­lua­ción. Esto incluye tanto los textos co­n­te­ni­dos en archivos de imagen como las palabras habladas en archivos de audio. En general, las imágenes digitales contienen una gran cantidad de in­fo­r­ma­ción que solo puede au­to­ma­ti­zar­se con métodos modernos de in­te­li­ge­n­cia ar­ti­fi­cial. El re­co­no­ci­mie­n­to y la cla­si­fi­ca­ción de patrones se utilizan para ide­n­ti­fi­car y asignar los objetos re­pre­se­n­ta­dos en los datos de las imágenes. Dado que estos enfoques son todavía re­la­ti­va­me­n­te nuevos, la mayor parte del contenido de imágenes al­ma­ce­na­do en todo el mundo es se­gu­ra­me­n­te dark data.

En otro caso, el dark data surge de datos exi­s­te­n­tes, pero no ana­li­za­dos. Es decir, si los datos solo se almacenan y conservan para cumplir con un archivado a prueba de auditoría, pero sin ninguna intención de ser ana­li­za­dos. El es­ta­dí­s­ti­co David Hand describe el problema de una manera muy acertada:

Cita

“Puede incluso ocurrir que los datos existan pero no hayan sido exa­mi­na­dos. Que los datos se pudran poco a poco en un enorme almacén de datos porque solo se re­co­pi­la­ron por cumplir con la normativa”.

(“It might even be that the data are available, but une­xa­mi­ned, gently decaying in a giant data warehouse, unlooked at because they were collected purely for co­m­plia­n­ce reasons.”)

- David Hand

El dark data surge de datos que aún no han sido re­co­pi­la­dos

Además de los tipos de dark data co­me­n­ta­dos an­te­rio­r­me­n­te, existe otro tipo. Este último tipo tiene un carácter más teórico puesto que, en este caso, los datos aún no se han re­co­pi­la­do. Na­tu­ra­l­me­n­te, estos datos (aún no exi­s­te­n­tes) no están a la vista de la or­ga­ni­za­ción, que es ajena a ellos. Por ello también cuentan como dark data.

El es­ta­dí­s­ti­co David Hand traza una analogía con la as­tro­fí­si­ca y su conocida “materia oscura”:

Cita

“Al igual que gran parte del universo se compone de materia oscura, invisible para nosotros pero no obstante presente, el universo de la in­fo­r­ma­ción está lleno de dark data que ignoramos, asumiendo el riesgo que eso conlleva”.

(“Just as much of the universe is composed of dark matter, invisible to us but no­ne­the­le­ss present, the universe of in­fo­r­ma­tion is full of Dark data that we overlook at our peril.”)

-David Hand

¿Por qué el dark data es un problema?

El dark data supone un problema para empresas y otras or­ga­ni­za­cio­nes. Hay varias razones para ello. Aquí solo hablamos de los casos en los que los datos realmente existen y excluimos los casos en los que los datos aún no existen.

El al­ma­ce­na­mie­n­to de dark data es im­pro­du­c­ti­vo

El al­ma­ce­na­mie­n­to de cualquier tipo de datos requiere recursos. Esto incluye, en pa­r­ti­cu­lar, el espacio de al­ma­ce­na­mie­n­to y la energía su­mi­ni­s­tra­da por el proveedor, lo que conlleva unos costes que asume la or­ga­ni­za­ción a la que le pe­r­te­ne­cen los datos. Por tanto, la or­ga­ni­za­ción suele es­fo­r­zar­se en almacenar úni­ca­me­n­te los datos que tiene pensado analizar.

La efi­cie­n­cia se define como el cociente entre el beneficio y el esfuerzo. Si se obtiene un alto beneficio con poco esfuerzo, se habla de alta efi­cie­n­cia. Por otro lado, un beneficio bajo con un esfuerzo alto significa que la efi­cie­n­cia es baja.

Eficiencia = Beneficio / Esfuerzo

Se supone que los datos son útiles, aunque el uso real del dark data es limitado. Sin embargo, hay que hacer un esfuerzo continuo para almacenar esos datos. En co­n­se­cue­n­cia, el al­ma­ce­na­mie­n­to de dark data es in­e­fi­cie­n­te.

No se puede encontrar la aguja de la in­fo­r­ma­ción en el pajar del dark data

Ima­gi­ne­mos la totalidad de los datos de una or­ga­ni­za­ción como un iceberg. En este caso la mayoría de los datos son dark data. De­s­gra­cia­da­me­n­te, los datos útiles no se acumulan en la su­pe­r­fi­cie. Más bien, se mezclan con el dark data y no pueden separarse fá­ci­l­me­n­te. Para encontrar datos útiles, hay que buscar en todo el iceberg.

Debido a la enorme masa de dark data, la in­fo­r­ma­ción útil permanece oculta. A menudo no está claro si los datos tienen algún valor. La falta de datos o los datos in­co­rre­c­tos conducen a in­fo­r­ma­ción in­co­rre­c­ta. El dark data influye, pues, en las co­n­clu­sio­nes que se extraen de la in­fo­r­ma­ción di­s­po­ni­ble. Esto limita el co­m­po­r­ta­mie­n­to de la or­ga­ni­za­ción.

Nadie sabe todo lo que contiene el dark data

El dark data es, por de­fi­ni­ción, opaco. Nunca se puede estar seguro de si contiene in­fo­r­ma­ción útil ni in­fo­r­ma­ción sensible que pueda caer en manos equi­vo­ca­das.

Los datos suelen al­ma­ce­nar­se durante largos periodos de tiempo. El dark data es poco pro­du­c­ti­vo para la or­ga­ni­za­ción. A menudo, hay una falta de mo­ti­va­ción para proteger los datos. Los datos al­ma­ce­na­dos no uti­li­za­dos se olvidan fá­ci­l­me­n­te. Esto hace que sea más probable encontrar dark data inade­cua­da­me­n­te protegido.

En principio, los datos siempre pueden contener in­fo­r­ma­ción sujeta a una pro­te­c­ción especial. En la mayoría de los casos, cada dato in­di­vi­dua­l­me­n­te es ino­fe­n­si­vo; mientras que, por el contrario, sí se puede extraer in­fo­r­ma­ción sensible de grandes volúmenes de datos. Por ejemplo, se pueden crear perfiles de mo­vi­mie­n­to a partir de los datos de lo­ca­li­za­ción re­co­pi­la­dos durante largos periodos de tiempo. Por lo tanto, la pérdida de dark data supone un alto riesgo de daños.

Además de la fi­l­tra­ción de datos sensibles, existe otro riesgo asociado al dark data. Esto se debe a que es posible que estos datos no puedan ser re­cu­pe­ra­dos por el disaster recovery después de un fallo. Ima­gi­ne­mos un sistema que funcione sin problemas. En principio se cree que todos los co­m­po­ne­n­tes son conocidos, los cuales mantienen los cloud backups. Pero resulta que nadie sabía que uno de los co­m­po­ne­n­tes estaba compuesto por dark data. Por lo que, al re­s­ta­ble­cer el sistema, falta una parte crítica. En el peor de los casos, se pueden producir fallos de sistemas im­po­r­ta­n­tes.

El dark data es difícil de eliminar

Es difícil gestionar una montaña de datos. El dark data puede contener in­fo­r­ma­ción útil o sensible. Puede haber períodos es­pe­cí­fi­cos que definan el plazo mínimo de al­ma­ce­na­mie­n­to de los datos dentro de la empresa. Así que no es fácil des­ha­ce­r­se de los datos de cualquier manera.

Esta situación es más o menos similar a la de los residuos pe­li­gro­sos, que son difíciles o im­po­si­bles de separar. Si una tonelada de residuos contiene un gramo de material altamente tóxico, toda la tonelada se trata como residuo peligroso. Así que los datos siguen al­ma­ce­ná­n­do­se y la montaña de datos sigue creciendo. Lo que supone un aumento en el coste de al­ma­ce­na­mie­n­to.

Ir al menú principal