Information retrieval: a la búsqueda del saber

Vivimos en la sociedad de la información. Los datos, los hechos y el saber en general han adquirido una importancia mucho mayor de la que tenían hace apenas medio siglo. Simultáneamente, y gracias a Internet, cada vez hay más información disponible, información que se ha de consultar. Es aquí donde entran en juego los buscadores. Pero ¿cómo seleccionan los datos? La respuesta es la llamada information retrieval (IR), recuperación de información (RI) en español, disciplina de la informática y de las ciencias de la información, pero que también abarca la psicología cognitiva o la lingüística entre otros campos, muy relevante para los buscadores. Los motores de búsqueda se basan en complejos sistemas de recuperación de la información para reconocer las intenciones que hay detrás de ciertas consultas y encontrar los datos relevantes que las responden.

Information search and retrieval (ISR): historia de la informática

La recuperación de información tiene como objeto permitir el acceso al conocimiento y, al contrario de lo que pueda parecer, esto no nace con la era digital. Uno de los primeros teóricos que reflexiona sobre la forma en que la humanidad puede mejorar la accesibilidad al volumen de saber acumulado en su devenir, a la vista de un panorama global cada vez más complejo, es el científico estadounidense Vannevar Bush (1890-1974), quien con su artículo “As we may think” («Como podríamos pensar»), publicado en 1945, presenta sus visiones de futuro sobre la organización y la recuperación de información.

Bush parte de un problema que afecta a la labor científica: mientras que los expertos se especializan cada vez más, aumentando con ello sus necesidades de información, acceder a ella se va volviendo más difícil. Pensemos que esto ocurría en una época en que las bibliotecas aún funcionaban con fichas y grandes catálogos. La búsqueda a partir de un término relevante solo era posible si un aplicado bibliotecario se había molestado antes en indizar el catálogo manualmente. Bush vio en algunas innovaciones técnicas de su tiempo, como el microfilm, una posibilidad de mejorar la accesibilidad a estos datos. Su propia visión recibió el nombre de Memex, una máquina del tamaño de un escritorio que debía funcionar como archivo de datos e instrumento de búsqueda al mismo tiempo. Pese a que nunca se construyó, la tecnología en que se fundamenta, por la cual el usuario salta de un artículo al siguiente, puede ser considerada la precursora del hipertexto.

En los años 50 fue sobre todo el informático alemán Hans Peter Luhn quien se ocupó de desarrollar técnicas de recuperación de información que aún son relevantes a día de hoy, como el procesamiento de texto completo (full-text processing), la indización automática o la diseminación selectiva de la información (SDI). Estos métodos fueron especialmente significativos para el desarrollo de Internet, pues en la riada de información característica de la Web es inevitable aplicar sistemas de information retrieval ya que, de otro modo, jamás se obtendría las respuestas necesarias.

¿Qué es la recuperación de información?

La finalidad de la information retrieval es hacer que se puedan encontrar los datos archivados de forma mecánica. A diferencia de la minería de datos, que extrae estructuras de registros de datos, la IR tiene como objeto filtrar cierta información de una masa de datos. Su campo de aplicación más típico es un buscador de Internet.

Los sistemas de recuperación de información resuelven sobre todo dos problemas:

  1. Vaguedad: si el término de búsqueda deja espacio para la interpretación, la consulta puede ser muy imprecisa. Una búsqueda a partir de la palabra “banco” puede hacer referencia al sistema bancario en general o a la sucursal más cercana. Si el usuario mismo no sabe qué está buscando el problema se agudiza.

  2. Inseguridad: el sistema no conoce lo suficientemente bien el contenido de los datos guardados, lo que ocasiona que entregue resultados erróneos. Esto es lo que ocurre con las palabras polisémicas como “banco”: el usuario podría no estar buscando una sucursal bancaria, sino un banco para su jardín.

A esto se añade que el sistema de recuperación de información debería ser capaz de valorar la información que entrega para poder ordenarla: el primer resultado debería ser la mejor respuesta a la pregunta del usuario.

Modelos de information retrieval

Una estrategia de recuperación de información puede utilizar diversos métodos que no necesariamente se excluyen entre sí, sino que pueden combinarse. De hecho, hoy existen muchos modelos que solo se diferencian en algunos detalles. Pueden clasificarse en tres grandes categorías:

  • Basados en la teoría de conjuntos: las relaciones de semejanza se calculan con operaciones de conjuntos (modelo booleano).
  • Algebraicos: las similitudes se calculan por pares y los documentos y las consultas se representan como vectores, matrices o tuplas (modelo espacio vectorial).
  • Probabilísticos: las relaciones de semejanza se calculan al considerar los conjuntos de datos como experimentos casuales en varios pasos.

A continuación nos centramos en los modelos más arquetípicos de cada una de estas tres categorías, ya que el resto de modelos consisten en formas intermedias entre los tres tipos. El modelo booleano extendido, por ejemplo, tiene tanto características de las teorías de conjuntos como de los modelos algebraicos.

Modelo booleano

Los buscadores más conocidos se basan en la lógica booleana, que consiste en conexiones lógicas con las cuales los usuarios pueden precisar y ajustar la búsqueda. Los elementos AND, OR y NOT equivalentes a las conjunciones “Y” y “O” y a la negación “NO”, o los símbolos equivalentes ∧, ∨ y ¬, permiten especificar una consulta para que los dos términos consultados aparezcan en la solución o desestimar el contenido que contenga un cierto vocablo. Este es el principio en que se basan los operadores de Google. El inconveniente de este método es que no prevé ningún tipo de clasificación de los resultados, entregando los resultados en un orden puramente casual.

Modelo espacio vectorial

Desde un punto de vista matemático, la información también puede representarse como un conjunto de vectores. En el modelo espacio vectorial los términos (terms) constituyen los ejes de coordenadas y tanto los documentos como las consultas obtienen valores específicos en relación con ellos, de forma que pueden representarse como puntos o vectores dentro de un espacio vectorial. A continuación se comparan los vectores y aquel más cercano a la consulta corresponde al contenido que debería mostrarse en primer lugar. El inconveniente es que si no se utilizan los operadores booleanos, no se puede excluir ningún término.

Modelo probabilístico

Este modelo recurre a la teoría de la probabilidad. A cada contenido se le asigna un valor de probabilidad y los resultados se ordenan en función de la probabilidad con la que se ajustan a la intención de búsqueda. Para calcularla, el modelo utiliza el llamado feedback de relevancia, por el cual se anima a los usuarios a valorar manualmente los resultados, de tal modo que en la próxima búsqueda idéntica el modelo pueda mostrar una lista diferente de resultados, quizá mejor que la primera.

El problema de este método es que parte de dos condiciones que no siempre se dan: por un lado, da por supuesto que el usuario está dispuesto a colaborar en el sistema con su opinión; por el otro, que los usuarios consideran los resultados de forma independiente, es decir, que evalúan cada contenido como si fuera el primero que leen a propósito de la consulta, cuando en la práctica los usuarios valoran la utilidad de la información en función del contenido que ya han visto.

Métodos de recuperación de información

Sin contar en base a qué modelo, la recuperación de información utiliza diferentes métodos y técnicas de trabajo con el único objetivo de facilitarle al usuario la búsqueda de información y entregarle resultados relevantes.

Term frequency - Inverse document frequency (tf-idf)

La relevancia de un término para una consulta se calcula teniendo en cuenta tanto la frecuencia de su aparición en un texto como en una colección de documentos. El valor se acorta como tf-idf.

  • Frecuencia de aparición de un término (term frequency, tf): esta medida indica la frecuencia en que aparece un término en un documento. Sin embargo, por sí sola no es buena indicadora de la relevancia del texto, pues en un documento de cierta extensión el término puede aparecer con más frecuencia que en uno más corto. Esto quiere decir que este valor debe considerarse en relación con la longitud total del documento. Para ello, la frecuencia del término de búsqueda se divide por la frecuencia de la palabra más frecuente (como “y”):
  • Frecuencia inversa del documento para un término (inverse document frequency, idf): en este caso no se analiza un solo documento, sino un corpus de textos. Las palabras que solo se encuentran en unos pocos documentos pero de forma muy abundante tienen más relevancia que aquellas que aparecen en casi todos los textos: el término “frecuencia inversa de documento” tendría mucho más valor que “y”.

Gracias a la suma de ambos análisis los sistemas de recuperación de información pueden entregar mejores resultados que si solo se aplicara uno de ellos: si solo fuera relevante la frecuencia de ocurrencia de un término, entonces la búsqueda “La casa de la pradera” evaluaría como muy valiosos todos los documentos en que aparecen en abundancia “la” y “de”. Pero evidentemente los resultados serían poco (o nada) satisfactorios. Si se integra la técnica de frecuencia inversa del documento, “casa” y “pradera” se consideran más relevantes para la consulta y se identifican como los auténticos términos de búsqueda.

Query Modification

Un gran problema a la hora de obtener información es muchas veces el usuario mismo, pues una consulta inexacta o incompleta puede dar como resultado una información errónea o insuficiente. Con la intención de evitarlo, los científicos de la información han introducido la query modification (modificación de consulta), por la cual el sistema amplía la consulta por sí mismo empleando, por ejemplo, sinónimos, de forma que se obtengan resultados más certeros. El sistema recurre para ello a diversos diccionarios y al feedback de los usuarios, entre otras cosas. Pero para no depender demasiado de la eventual colaboración por parte de los usuarios, puede aplicarse un llamado seudofeedback: con este método el sistema extrae términos emparentados de los mejores resultados y los evalúa en función de su relevancia para la búsqueda.

Las búsquedas pueden mejorarse o ampliarse con las siguientes técnicas:

  • Eliminar palabras vacías: las palabras vacías reciben esta denominación porque no contribuyen al contenido del texto o lo hacen muy poco. Se trata de los artículos, pronombres y preposiciones que conviene descartar por no ser representativos para el contenido.
  • Identificar frases y grupos de palabras: con ello se consigue que el buscador también considere relevantes los términos que forman un grupo semántico.
  • Reducir a morfemas: la búsqueda es más efectiva si las palabras se reducen a su unidad mínima, el morfema, porque si no, no aparecería correctamente flexionada en la lista de resultados.
  • Recurrir a un tesauro (diccionario): un sistema de recuperación de información también debería considerar relevantes a los sinónimos de las palabras que aparecen en el documento. Solo así puede garantizarse que el usuario encuentra lo que está buscando.

Exhaustividad y precisión

La efectividad de un sistema de information retrieval suele calcularse con los factores de exhaustividad (recall) y precisión (precision), que se representan como cocientes.

  • Recall o exhaustividad: también llamado “recobrado” por algunos autores, este factor indica lo completo que es el resultado de la búsqueda. Para ello se contrapone el número de documentos encontrados relevantes al de los relevantes pero no encontrados. El cociente representa, entonces, lo probable que es que se encuentre un documento relevante:
  • Precisión: ¿cuál es la exactitud del resultado? Para obtener este cociente se contrapone el número de documentos relevantes y encontrados al número de los encontrados pero irrelevantes. El resultado indica la probabilidad de que un documento encontrado sea relevante:

Ambos valores se sitúan entre 0 y 1, siendo 1 la perfección. En la práctica no es posible obtener resultados perfectos en ambas ecuaciones a la vez: un aumento en la exhaustividad de los resultados va en detrimento de la precisión y a la inversa.

También puede calcularse el llamado fall-out o proposición de fallo, que refleja la proporción de documentos no relevantes que son recuperados y lo determina la relación entre los documentos irrelevantes encontrados y los irrelevantes que no se encuentran.

Tanto la exhaustividad como la precisión se pueden representar en un eje de coordenadas en el que cada uno de los valores se corresponde con un eje.

Information retrieval en la práctica

Todos los buscadores online actuales se basan en las técnicas de recuperación de información. Google, Bing y Yahoo serían, entonces, ejemplos prominentes de recuperación de información asistida por ordenador. Para mostrar cómo funciona la RI en la praxis, puede ser útil utilizar un ejemplo sencillo como el que proponemos a continuación.

Partiendo de una pequeña biblioteca infantil compuesta por cuentos en que aparecen animales, se elabora una matriz de búsqueda para encontrar aquellos libros donde aparezcan elefantes y jirafas, pero ningún cocodrilo. Una consulta según el método booleano podría ser esta: “elefante” AND “jirafa” NOT “cocodrilo”. El resultado solo puede ser 1 o 0, porque se trata de averiguar si los nombres aparecen en los textos o no.

El resultado correcto de esta búsqueda sería “Tim y Oli en el zoo” y “Daniel y el circo chiflado”. Sin embargo, aún no sabemos cuál de las dos es más relevante. ¿Cuál de ellos trata más de elefantes y jirafas? Para ello el sistema puede determinar la frecuencia del término y la frecuencia inversa del documento:

“Tim y Oli en el zoo” es probablemente un resultado más acertado para una búsqueda de un texto con jirafas y elefantes que “Daniel y el circo chiflado”, así que es el que debería aparecer en un primer puesto en los resultados. Este método solo funciona cuando los términos se han fijado (indización controlada), que es lo que ocurre en el caso de las bases de datos especializadas, cuando el usuario ha sido instruido en el uso de la máscara de búsqueda y sabe con qué palabras buscar. En este caso se podría modificar la búsqueda (query modification) para incluir, además de “elefante” otras palabras como “paquidermo”, así como diferentes variantes gramáticas que entregarían resultados positivos.

Consejo

Además de Google hay otros buscadores en la red. Estas alternativas a Google cuidan mucho más la protección de los datos, por ejemplo.