La reducción de datos hace re­fe­re­n­cia a los métodos que pueden uti­li­zar­se para reducir la cantidad física de datos que se almacena. De esta manera, se ahorra espacio de al­ma­ce­na­mie­n­to y costes. [TOC]

¿Qué es la reducción de datos?

El término reducción de datos engloba varios métodos de op­ti­mi­za­ción de capacidad. Su objetivo es reducir la cantidad de datos que hay que almacenar. Ante el aumento global del volumen de datos, esta reducción es necesaria para ga­ra­n­ti­zar un al­ma­ce­na­mie­n­to de datos eficiente en cuanto a recursos y costes.

Existen di­fe­re­n­tes enfoques para la reducción de datos: la co­m­pre­sión de datos y la de­du­pli­ca­ción. Mientras que la co­m­pre­sión sin pérdidas utiliza re­du­n­da­n­cias dentro de un archivo para comprimir datos, los al­go­ri­t­mos de de­du­pli­ca­ción si­n­cro­ni­zan datos entre archivos para evitar re­pe­ti­cio­nes.

De­du­pli­ca­ción

La de­du­pli­ca­ción es un proceso de reducción de datos que se basa ese­n­cia­l­me­n­te en evitar la re­du­n­da­n­cia de datos en un sistema de al­ma­ce­na­mie­n­to. Puede rea­li­zar­se tanto en el destino del al­ma­ce­na­mie­n­to como en el origen de los datos. Se utiliza un motor de de­du­pli­ca­ción que emplea al­go­ri­t­mos es­pe­cia­les para ide­n­ti­fi­car y eliminar los archivos o bloques de datos re­du­n­da­n­tes. El principal campo de apli­ca­ción de la de­du­pli­ca­ción es la copia de seguridad de datos.

El objetivo de la reducción de datos mediante de­du­pli­ca­ción es escribir en un soporte de datos no volátil solo la cantidad de in­fo­r­ma­ción necesaria para poder re­co­n­s­truir un archivo sin pérdidas. Cuantos más du­pli­ca­dos se eliminen, menor será la cantidad de datos que sea necesario almacenar o tra­n­s­fe­rir.

Los du­pli­ca­dos pueden ide­n­ti­fi­car­se a nivel de archivo, como ocurre con Git o Dropbox, pero los al­go­ri­t­mos de de­du­pli­ca­ción que funcionan a nivel de subar­chi­vo son más efi­cie­n­tes. Para ello, los archivos se dividen primero en bloques de datos (chunks) y se les asignan checksums únicos, de­no­mi­na­dos valores hash. Una base de datos de se­gui­mie­n­to sirve como una instancia central de control, que contiene todos los valores de checksum.

Se puede di­s­ti­n­guir entre dos variantes de de­du­pli­ca­ción basada en bloques:

  • Longitud de bloque fija: los archivos se dividen en secciones de longitud exac­ta­me­n­te igual, que se ajustan al tamaño del clúster del sistema de archivos o del sistema RAID (ge­ne­ra­l­me­n­te 4KB).
  • Longitud de bloque variable: el algoritmo divide los datos en bloques de lo­n­gi­tu­des di­fe­re­n­tes, cuya extensión varía según el tipo de datos que se estén pro­ce­sa­n­do.

La forma en que se dividen los bloques tiene un impacto si­g­ni­fi­ca­ti­vo en la efi­cie­n­cia de la de­du­pli­ca­ción de datos. Esto es evidente cuando se modifican archivos de­du­pli­ca­dos po­s­te­rio­r­me­n­te: al usar tamaños de bloque fijos, al cambiar un archivo, todos los segmentos su­b­si­guie­n­tes también se co­n­si­de­ran nuevos debido al de­s­pla­za­mie­n­to de los límites de bloque por parte del algoritmo de de­du­pli­ca­ción. Esto aumenta la carga co­mpu­tacio­nal y la uti­li­za­ción del ancho de banda.

Sin embargo, si un algoritmo utiliza límites de bloque variables, los cambios en un único bloque de datos no afectan a los segmentos vecinos. En su lugar, solo el bloque de datos mo­di­fi­ca­do se amplía con los nuevos bytes y se guarda. Esto alivia la carga de la red. Sin embargo, la fle­xi­bi­li­dad en términos de cambios en los archivos es más intensiva en términos de cálculos, ya que el algoritmo primero debe de­te­r­mi­nar cómo se dividen los bloques.

Backup cloud por Acronis
Protege tu in­frae­s­tru­c­tu­ra y reduce el tiempo de inac­ti­vi­dad
  • Copias de seguridad au­to­má­ti­cas y fácil re­cu­pe­ra­ción
  • Gestión y pla­ni­fi­ca­ción intuitiva
  • Pro­te­c­ción contra las amenazas basadas en IA
  • Incluye crédito inicial de 250 € el primer mes

Co­m­pre­sión de datos

La co­m­pre­sión de datos consiste en convertir archivos en una re­pre­se­n­ta­ción al­te­r­na­ti­va más eficiente que la original. El objetivo de esta reducción de datos es reducir tanto el espacio de al­ma­ce­na­mie­n­to necesario como el tiempo de tra­n­s­mi­sión. Esta ganancia de co­di­fi­ca­ción puede lograrse uti­li­za­n­do dos enfoques di­fe­re­n­tes:

  • Co­m­pre­sión re­du­n­da­n­te: con la co­m­pre­sión de datos sin pérdidas, los datos también se pueden de­s­co­m­pri­mir al bit exacto después de la co­m­pre­sión. Por tanto, los datos de entrada y salida son idénticos. Esta co­m­pre­sión re­du­n­da­n­te solo es posible si un archivo contiene in­fo­r­ma­ción re­du­n­da­n­te.
  • Co­m­pre­sión irre­le­va­n­te: en una co­m­pre­sión con pérdida, se elimina in­fo­r­ma­ción irre­le­va­n­te para comprimir un archivo. Esto siempre va aco­m­pa­ña­do de una pérdida de datos. Después de una co­m­pre­sión de irre­le­va­n­cia, los datos ori­gi­na­les solo se pueden recuperar de manera apro­xi­ma­da. La cla­si­fi­ca­ción de qué datos se co­n­si­de­ran irre­le­va­n­tes es subjetiva. Por ejemplo, en la co­m­pre­sión de audio MP3, se eliminan patrones de fre­cue­n­cia que se asume que las personas apenas escuchan o ni siquiera perciben.

Mientras que la co­m­pre­sión a nivel de sistemas de al­ma­ce­na­mie­n­to es bá­si­ca­me­n­te sin pérdida, la pérdida de datos en otros ámbitos como la tra­n­s­mi­sión de imágenes, vídeo y audio se acepta de­li­be­ra­da­me­n­te para lograr una reducción del tamaño de los archivos.

Tanto la co­di­fi­ca­ción como la de­s­co­di­fi­ca­ción de un archivo requieren un esfuerzo co­mpu­tacio­nal. Esto depende pri­n­ci­pa­l­me­n­te del método de co­m­pre­sión utilizado. Mientras que algunas técnicas están diseñadas para re­pre­se­n­tar los datos de salida de la forma más compacta posible, otras se centran en reducir el tiempo de cálculo necesario. Por tanto, la elección del método de co­m­pre­sión depende siempre de los re­qui­si­tos del ámbito de apli­ca­ción.

Co­m­pa­ra­ción de distintas opciones de reducción de datos

Para implantar pro­ce­di­mie­n­tos de copia de seguridad u optimizar el al­ma­ce­na­mie­n­to en sistemas de archivos estándar, las empresas suelen recurrir a la de­du­pli­ca­ción. Esto se debe pri­n­ci­pa­l­me­n­te a que los sistemas de de­du­pli­ca­ción funcionan de forma ex­tre­ma­da­me­n­te eficiente cuando se trata de almacenar archivos idénticos.

Los métodos de co­m­pre­sión de datos, en cambio, suelen asociarse a mayores costes de co­mpu­tación y, por tanto, requieren pla­ta­fo­r­mas más complejas. Los sistemas de al­ma­ce­na­mie­n­to con una co­m­bi­na­ción de ambos procesos de reducción de datos pueden uti­li­zar­se con mayor eficacia. En primer lugar, se eliminan las re­du­n­da­n­cias de los archivos que se van a almacenar mediante de­du­pli­ca­ción y, a co­n­ti­nua­ción, se comprimen los datos restantes.

Ir al menú principal