Para familiarizarnos con el término metadatos, veamos un ejemplo sencillo: enviamos una carta por correo. En este caso, la carta que contiene el sobre conforma los datos reales y primarios. Son datos privados y están protegidos del acceso de terceras personas por la ley: se les aplica el secreto de la correspondencia.
En el sobre se encuentran los metadatos de la carta. Se trata de datos adicionales que acompañan a los datos primarios:
- Dirección del remitente
- Sello postal
- Si es necesario, otras marcas de identificación, como los códigos de barras
Como puedes ver, estos datos son los que en primer lugar hacen posible el envío de la carta. Los metadatos de la carta fácilmente pueden ser vistos por cualquier persona ajena, por lo que no están especialmente protegidos por el secreto de la correspondencia, aunque sí se les aplica el secreto postal.
¿Qué peligro suponen los metadatos? No es un peligro que se pueda leer unos metadatos individuales. Por ejemplo, el hecho de que personas terceras tengan acceso a los datos de un sobre individual no suele ser motivo de preocupación. Sin embargo, no es el mismo caso a mayor escala, pues se trata de un almacenamiento y análisis masivo. Es entonces cuando surgen patrones que revelan mucho acerca del comportamiento de una persona: ¿quién se ha comunicado con quién y cuándo? Así consiguen identificar las redes y las cadenas de comunicación.
Hay una vaga distinción entre datos y metadatos. La distinción depende del contexto y de la perspectiva que se adopte. Veamos otro ejemplo. Un libro contiene datos primarios, como el título y contenido del libro, pero, por otra parte, cuenta con un conjunto de metadatos para su publicación:
- Autor
- Editorial
- Fecha y lugar de publicación
- Edición
- ISBN
Imaginemos que se recogen en una base de datos los metadatos de muchas publicaciones. Respecto a dicha base de datos, la información de las publicaciones serían datos primarios. Además, habría un nuevo conjunto de metadatos para cada publicación. Por ejemplo, la base de datos podría almacenar cuándo se añadió cada publicación y por qué usuario.