Reducción de datos

Índice

La reducción de datos hace referencia a los métodos que pueden utilizarse para reducir la cantidad física de datos que se almacena. De esta manera, se ahorra espacio de almacenamiento y costes. [TOC]

¿Qué es la reducción de datos?

El término reducción de datos engloba varios métodos de optimización de capacidad. Su objetivo es reducir la cantidad de datos que hay que almacenar. Ante el aumento global del volumen de datos, esta reducción es necesaria para garantizar un almacenamiento de datos eficiente en cuanto a recursos y costes.

Existen diferentes enfoques para la reducción de datos: la compresión de datos y la deduplicación. Mientras que la compresión sin pérdidas utiliza redundancias dentro de un archivo para comprimir datos, los algoritmos de deduplicación sincronizan datos entre archivos para evitar repeticiones.

Deduplicación

La deduplicación es un proceso de reducción de datos que se basa esencialmente en evitar la redundancia de datos en un sistema de almacenamiento. Puede realizarse tanto en el destino del almacenamiento como en el origen de los datos. Se utiliza un motor de deduplicación que emplea algoritmos especiales para identificar y eliminar los archivos o bloques de datos redundantes. El principal campo de aplicación de la deduplicación es la copia de seguridad de datos.

El objetivo de la reducción de datos mediante deduplicación es escribir en un soporte de datos no volátil solo la cantidad de información necesaria para poder reconstruir un archivo sin pérdidas. Cuantos más duplicados se eliminen, menor será la cantidad de datos que sea necesario almacenar o transferir.

Los duplicados pueden identificarse a nivel de archivo, como ocurre con Git o Dropbox, pero los algoritmos de deduplicación que funcionan a nivel de subarchivo son más eficientes. Para ello, los archivos se dividen primero en bloques de datos (chunks) y se les asignan checksums únicos, denominados valores hash. Una base de datos de seguimiento sirve como una instancia central de control, que contiene todos los valores de checksum.

Se puede distinguir entre dos variantes de deduplicación basada en bloques:

Longitud de bloque fija: los archivos se dividen en secciones de longitud exactamente igual, que se ajustan al tamaño del clúster del sistema de archivos o del sistema RAID (generalmente 4KB).
Longitud de bloque variable: el algoritmo divide los datos en bloques de longitudes diferentes, cuya extensión varía según el tipo de datos que se estén procesando.

La forma en que se dividen los bloques tiene un impacto significativo en la eficiencia de la deduplicación de datos. Esto es evidente cuando se modifican archivos deduplicados posteriormente: al usar tamaños de bloque fijos, al cambiar un archivo, todos los segmentos subsiguientes también se consideran nuevos debido al desplazamiento de los límites de bloque por parte del algoritmo de deduplicación. Esto aumenta la carga computacional y la utilización del ancho de banda.

Sin embargo, si un algoritmo utiliza límites de bloque variables, los cambios en un único bloque de datos no afectan a los segmentos vecinos. En su lugar, solo el bloque de datos modificado se amplía con los nuevos bytes y se guarda. Esto alivia la carga de la red. Sin embargo, la flexibilidad en términos de cambios en los archivos es más intensiva en términos de cálculos, ya que el algoritmo primero debe determinar cómo se dividen los bloques.

Backup cloud por Acronis

Protege tu infraestructura y reduce el tiempo de inactividad

Copias de seguridad automáticas y fácil recuperación
Gestión y planificación intuitiva
Protección contra las amenazas basadas en IA
Incluye crédito inicial de 250 € el primer mes

Compresión de datos

La compresión de datos consiste en convertir archivos en una representación alternativa más eficiente que la original. El objetivo de esta reducción de datos es reducir tanto el espacio de almacenamiento necesario como el tiempo de transmisión. Esta ganancia de codificación puede lograrse utilizando dos enfoques diferentes:

Compresión redundante: con la compresión de datos sin pérdidas, los datos también se pueden descomprimir al bit exacto después de la compresión. Por tanto, los datos de entrada y salida son idénticos. Esta compresión redundante solo es posible si un archivo contiene información redundante.
Compresión irrelevante: en una compresión con pérdida, se elimina información irrelevante para comprimir un archivo. Esto siempre va acompañado de una pérdida de datos. Después de una compresión de irrelevancia, los datos originales solo se pueden recuperar de manera aproximada. La clasificación de qué datos se consideran irrelevantes es subjetiva. Por ejemplo, en la compresión de audio MP3, se eliminan patrones de frecuencia que se asume que las personas apenas escuchan o ni siquiera perciben.

Mientras que la compresión a nivel de sistemas de almacenamiento es básicamente sin pérdida, la pérdida de datos en otros ámbitos como la transmisión de imágenes, vídeo y audio se acepta deliberadamente para lograr una reducción del tamaño de los archivos.

Tanto la codificación como la descodificación de un archivo requieren un esfuerzo computacional. Esto depende principalmente del método de compresión utilizado. Mientras que algunas técnicas están diseñadas para representar los datos de salida de la forma más compacta posible, otras se centran en reducir el tiempo de cálculo necesario. Por tanto, la elección del método de compresión depende siempre de los requisitos del ámbito de aplicación.

Comparación de distintas opciones de reducción de datos

Para implantar procedimientos de copia de seguridad u optimizar el almacenamiento en sistemas de archivos estándar, las empresas suelen recurrir a la deduplicación. Esto se debe principalmente a que los sistemas de deduplicación funcionan de forma extremadamente eficiente cuando se trata de almacenar archivos idénticos.

Los métodos de compresión de datos, en cambio, suelen asociarse a mayores costes de computación y, por tanto, requieren plataformas más complejas. Los sistemas de almacenamiento con una combinación de ambos procesos de reducción de datos pueden utilizarse con mayor eficacia. En primer lugar, se eliminan las redundancias de los archivos que se van a almacenar mediante deduplicación y, a continuación, se comprimen los datos restantes.

Artículos Favoritos

Compraventa de dominios: cómo ganar dinero con las direcciones web

La compraventa de dominios puede convertirse en una actividad lucrativa, siempre que se…

Nextcloud alternatives: comparativa de cinco alternativas

¿Estás buscando alternativas a Nextcloud, pero quieres saber si están a la misma altura?…

Los mejores proveedores de copias de seguridad en la nube

¡Asegura tus datos de manera fiable en la nube! Tus datos estarán en buenas manos con…

Cómo actualizar Debian 13 paso a paso

Aprende cómo actualizar Debian 13 de forma segura y sin errores, desde la preparación del…

Alternativas a InDesign de Adobe gratuitas

¿Te sale muy caro usar InDesign para la maquetación y el diseño editorial? Descubre las…

Artículos similares

agsandrewshutterstock

Load balancer: el balanceador de carga

La disponibilidad de una página web o una tienda online es clave para el éxito de un negocio. Cada vez más empresas emplean load balancers para distribuir de manera uniforme las solicitudes de los usuarios en múltiples servidores. Si se aplica bien, un load balancing no solo…

Glosario

dizainShutterstock

Las bases de datos y la importancia de sus copias de seguridad

Crear copias de seguridad es la estrategia preferida por muchos para proteger sus bases de datos. Para garantizar el correcto funcionamiento de estas, puede ser necesario el uso de hardware adicional, así como de dispositivos que proporcionen una infraestructura adecuada. ¿Cómo…

Base de Datos
PHP
MySQL

ToriaShutterstock

Crear backups del servidor con rsync

Hacer copias de seguridad del servidor es la mejor manera de guardar los datos importantes de las páginas web. Es sobre todo en los entornos de servidor donde se recomienda contar con una buena estrategia de copias de seguridad que incluya todos los terminales. Esto requiere…

Base de Datos
Linux
Windows

Wavebreakmedia Ltd UC19Shutterstock

Niveles RAID

Quien quiera agrupar discos duros en un RAID, puede elegir entre una variedad de configuraciones de estándares, conocidas como niveles RAID. Estas agrupaciones predefinidas describen la disposición de los discos individuales, así como los procedimientos que utilizan para…

Protección de Datos
Seguridad

UndreyShutterstock

Extensión de archivo .tar: cómo desempaquetar archivos .tar

Empaquetar archivos grandes con .tar tiene muchas ventajas. El formato .tar permite almacenar grandes volúmenes de datos en un espacio muy reducido y funciona en todos los sistemas operativos convencionales. A continuación, explicaremos en qué consiste el formato, cómo funciona…

Tutoriales

Reducción de datos

¿Qué es la reducción de datos?

De­du­pli­ca­ción

Co­m­pre­sión de datos

Co­m­pa­ra­ción de distintas opciones de reducción de datos

Deduplicación

Compresión de datos

Comparación de distintas opciones de reducción de datos