Vivimos en la sociedad de la in­fo­r­ma­ción. Los datos, los hechos y el saber en general han adquirido una im­po­r­ta­n­cia mucho mayor de la que tenían hace apenas medio siglo. Si­mu­l­tá­nea­me­n­te, y gracias a Internet, cada vez hay más in­fo­r­ma­ción di­s­po­ni­ble, in­fo­r­ma­ción que se ha de consultar. Es aquí donde entran en juego los bu­s­ca­do­res. Pero ¿cómo se­le­c­cio­nan los datos? La respuesta es la llamada in­fo­r­ma­tion retrieval (IR), re­cu­pe­ra­ción de in­fo­r­ma­ción (RI) en español, di­s­ci­pli­na de la in­fo­r­má­ti­ca y de las ciencias de la in­fo­r­ma­ción, pero que también abarca la psi­co­lo­gía cognitiva o la li­n­güí­s­ti­ca entre otros campos, muy relevante para los bu­s­ca­do­res. Los motores de búsqueda se basan en complejos sistemas de re­cu­pe­ra­ción de la in­fo­r­ma­ción para reconocer las in­te­n­cio­nes que hay detrás de ciertas consultas y encontrar los datos re­le­va­n­tes que las responden.

In­fo­r­ma­tion search and retrieval (ISR): historia de la in­fo­r­má­ti­ca

La re­cu­pe­ra­ción de in­fo­r­ma­ción tiene como objeto permitir el acceso al co­no­ci­mie­n­to y, al contrario de lo que pueda parecer, esto no nace con la era digital. Uno de los primeros teóricos que re­fle­xio­na sobre la forma en que la humanidad puede mejorar la ac­ce­si­bi­li­dad al volumen de saber acumulado en su devenir, a la vista de un panorama global cada vez más complejo, es el cie­n­tí­fi­co es­ta­dou­ni­de­n­se Vannevar Bush (1890-1974), quien con su artículo “As we may think” («Como podríamos pensar»), publicado en 1945, presenta sus visiones de futuro sobre la or­ga­ni­za­ción y la re­cu­pe­ra­ción de in­fo­r­ma­ción. Bush parte de un problema que afecta a la labor cie­n­tí­fi­ca: mientras que los expertos se es­pe­cia­li­zan cada vez más, au­me­n­ta­n­do con ello sus ne­ce­si­da­des de in­fo­r­ma­ción, acceder a ella se va volviendo más difícil. Pensemos que esto ocurría en una época en que las bi­blio­te­cas aún fu­n­cio­na­ban con fichas y grandes catálogos. La búsqueda a partir de un término relevante solo era posible si un aplicado bi­blio­te­ca­rio se había molestado antes en indizar el catálogo ma­nua­l­me­n­te. Bush vio en algunas in­no­va­cio­nes técnicas de su tiempo, como el microfilm, una po­si­bi­li­dad de mejorar la ac­ce­si­bi­li­dad a estos datos. Su propia visión recibió el nombre de Memex, una máquina del tamaño de un es­cri­to­rio que debía funcionar como archivo de datos e in­s­tru­me­n­to de búsqueda al mismo tiempo. Pese a que nunca se construyó, la te­c­no­lo­gía en que se fu­n­da­me­n­ta, por la cual el usuario salta de un artículo al siguiente, puede ser co­n­si­de­ra­da la pre­cu­r­so­ra del hi­pe­r­te­x­to. En los años 50 fue sobre todo el in­fo­r­má­ti­co alemán Hans Peter Luhn quien se ocupó de de­sa­rro­llar técnicas de re­cu­pe­ra­ción de in­fo­r­ma­ción que aún son re­le­va­n­tes a día de hoy, como el pro­ce­sa­mie­n­to de texto completo (full-text pro­ce­s­si­ng), la in­di­za­ción au­to­má­ti­ca o la di­se­mi­na­ción selectiva de la in­fo­r­ma­ción (SDI). Estos métodos fueron es­pe­cia­l­me­n­te si­g­ni­fi­ca­ti­vos para el de­sa­rro­llo de Internet, pues en la riada de in­fo­r­ma­ción ca­ra­c­te­rí­s­ti­ca de la Web es in­e­vi­ta­ble aplicar sistemas de in­fo­r­ma­tion retrieval ya que, de otro modo, jamás se obtendría las re­s­pue­s­tas ne­ce­sa­rias.

¿Qué es la re­cu­pe­ra­ción de in­fo­r­ma­ción?

La finalidad de la in­fo­r­ma­tion retrieval es hacer que se puedan encontrar los datos ar­chi­va­dos de forma mecánica. A di­fe­re­n­cia de la minería de datos, que extrae es­tru­c­tu­ras de registros de datos, la IR tiene como objeto filtrar cierta in­fo­r­ma­ción de una masa de datos. Su campo de apli­ca­ción más típico es un buscador de Internet. Los sistemas de re­cu­pe­ra­ción de in­fo­r­ma­ción resuelven sobre todo dos problemas:

  1. Vaguedad: si el término de búsqueda deja espacio para la in­te­r­pre­ta­ción, la consulta puede ser muy imprecisa. Una búsqueda a partir de la palabra “banco” puede hacer re­fe­re­n­cia al sistema bancario en general o a la sucursal más cercana. Si el usuario mismo no sabe qué está buscando el problema se agudiza.

  2. In­se­gu­ri­dad: el sistema no conoce lo su­fi­cie­n­te­me­n­te bien el contenido de los datos guardados, lo que ocasiona que entregue re­su­l­ta­dos erróneos. Esto es lo que ocurre con las palabras po­li­sé­mi­cas como “banco”: el usuario podría no estar buscando una sucursal bancaria, sino un banco para su jardín.

A esto se añade que el sistema de re­cu­pe­ra­ción de in­fo­r­ma­ción debería ser capaz de valorar la in­fo­r­ma­ción que entrega para poder ordenarla: el primer resultado debería ser la mejor respuesta a la pregunta del usuario.

Modelos de in­fo­r­ma­tion retrieval

Una es­tra­te­gia de re­cu­pe­ra­ción de in­fo­r­ma­ción puede utilizar diversos métodos que no ne­ce­sa­ria­me­n­te se excluyen entre sí, sino que pueden co­m­bi­nar­se. De hecho, hoy existen muchos modelos que solo se di­fe­re­n­cian en algunos detalles. Pueden cla­si­fi­car­se en tres grandes ca­te­go­rías:

  • Basados en la teoría de conjuntos: las re­la­cio­nes de semejanza se calculan con ope­ra­cio­nes de conjuntos (modelo booleano).
  • Al­ge­brai­cos: las si­mi­li­tu­des se calculan por pares y los do­cu­me­n­tos y las consultas se re­pre­se­n­tan como vectores, matrices o tuplas (modelo espacio vectorial).
  • Pro­ba­bi­lí­s­ti­cos: las re­la­cio­nes de semejanza se calculan al co­n­si­de­rar los conjuntos de datos como ex­pe­ri­me­n­tos casuales en varios pasos.

A co­n­ti­nua­ción nos centramos en los modelos más ar­que­tí­pi­cos de cada una de estas tres ca­te­go­rías, ya que el resto de modelos consisten en formas in­te­r­me­dias entre los tres tipos. El modelo booleano extendido, por ejemplo, tiene tanto ca­ra­c­te­rí­s­ti­cas de las teorías de conjuntos como de los modelos al­ge­brai­cos.

Modelo booleano

Los bu­s­ca­do­res más conocidos se basan en la lógica booleana, que consiste en co­ne­xio­nes lógicas con las cuales los usuarios pueden precisar y ajustar la búsqueda. Los elementos AND, OR y NOT equi­va­le­n­tes a las co­n­ju­n­cio­nes “Y” y “O” y a la negación “NO”, o los símbolos equi­va­le­n­tes ∧, ∨ y ¬, permiten es­pe­ci­fi­car una consulta para que los dos términos co­n­su­l­ta­dos aparezcan en la solución o des­es­ti­mar el contenido que contenga un cierto vocablo. Este es el principio en que se basan los ope­ra­do­res de Google. El in­co­n­ve­nie­n­te de este método es que no prevé ningún tipo de cla­si­fi­ca­ción de los re­su­l­ta­dos, en­tre­ga­n­do los re­su­l­ta­dos en un orden puramente casual.

Modelo espacio vectorial

Desde un punto de vista ma­te­má­ti­co, la in­fo­r­ma­ción también puede re­pre­se­n­tar­se como un conjunto de vectores. En el modelo espacio vectorial los términos (terms) co­n­s­ti­tu­yen los ejes de coor­de­na­das y tanto los do­cu­me­n­tos como las consultas obtienen valores es­pe­cí­fi­cos en relación con ellos, de forma que pueden re­pre­se­n­tar­se como puntos o vectores dentro de un espacio vectorial. A co­n­ti­nua­ción se comparan los vectores y aquel más cercano a la consulta co­rre­s­po­n­de al contenido que debería mostrarse en primer lugar. El in­co­n­ve­nie­n­te es que si no se utilizan los ope­ra­do­res booleanos, no se puede excluir ningún término.

Modelo pro­ba­bi­lí­s­ti­co

Este modelo recurre a la teoría de la pro­ba­bi­li­dad. A cada contenido se le asigna un valor de pro­ba­bi­li­dad y los re­su­l­ta­dos se ordenan en función de la pro­ba­bi­li­dad con la que se ajustan a la intención de búsqueda. Para ca­l­cu­lar­la, el modelo utiliza el llamado feedback de re­le­va­n­cia, por el cual se anima a los usuarios a valorar ma­nua­l­me­n­te los re­su­l­ta­dos, de tal modo que en la próxima búsqueda idéntica el modelo pueda mostrar una lista diferente de re­su­l­ta­dos, quizá mejor que la primera.

El problema de este método es que parte de dos co­n­di­cio­nes que no siempre se dan: por un lado, da por supuesto que el usuario está dispuesto a colaborar en el sistema con su opinión; por el otro, que los usuarios co­n­si­de­ran los re­su­l­ta­dos de forma in­de­pe­n­die­n­te, es decir, que evalúan cada contenido como si fuera el primero que leen a propósito de la consulta, cuando en la práctica los usuarios valoran la utilidad de la in­fo­r­ma­ción en función del contenido que ya han visto.

Métodos de re­cu­pe­ra­ción de in­fo­r­ma­ción

Sin contar en base a qué modelo, la re­cu­pe­ra­ción de in­fo­r­ma­ción utiliza di­fe­re­n­tes métodos y técnicas de trabajo con el único objetivo de fa­ci­li­tar­le al usuario la búsqueda de in­fo­r­ma­ción y en­tre­gar­le re­su­l­ta­dos re­le­va­n­tes.

Term frequency - Inverse document frequency (tf-idf)

La re­le­va­n­cia de un término para una consulta se calcula teniendo en cuenta tanto la fre­cue­n­cia de su aparición en un texto como en una colección de do­cu­me­n­tos. El valor se acorta como tf-idf.

  • Fre­cue­n­cia de aparición de un término (term frequency, tf): esta medida indica la fre­cue­n­cia en que aparece un término en un documento. Sin embargo, por sí sola no es buena in­di­ca­do­ra de la re­le­va­n­cia del texto, pues en un documento de cierta extensión el término puede aparecer con más fre­cue­n­cia que en uno más corto. Esto quiere decir que este valor debe co­n­si­de­rar­se en relación con la longitud total del documento. Para ello, la fre­cue­n­cia del término de búsqueda se divide por la fre­cue­n­cia de la palabra más frecuente (como “y”):
  • Fre­cue­n­cia inversa del documento para un término (inverse document frequency, idf): en este caso no se analiza un solo documento, sino un corpus de textos. Las palabras que solo se en­cue­n­tran en unos pocos do­cu­me­n­tos pero de forma muy abundante tienen más re­le­va­n­cia que aquellas que aparecen en casi todos los textos: el término “fre­cue­n­cia inversa de documento” tendría mucho más valor que “y”.

Gracias a la suma de ambos análisis los sistemas de re­cu­pe­ra­ción de in­fo­r­ma­ción pueden entregar mejores re­su­l­ta­dos que si solo se aplicara uno de ellos: si solo fuera relevante la fre­cue­n­cia de ocu­rre­n­cia de un término, entonces la búsqueda “La casa de la pradera” evaluaría como muy valiosos todos los do­cu­me­n­tos en que aparecen en abu­n­da­n­cia “la” y “de”. Pero evi­de­n­te­me­n­te los re­su­l­ta­dos serían poco (o nada) sa­ti­s­fa­c­to­rios. Si se integra la técnica de fre­cue­n­cia inversa del documento, “casa” y “pradera” se co­n­si­de­ran más re­le­va­n­tes para la consulta y se ide­n­ti­fi­can como los au­té­n­ti­cos términos de búsqueda.

Query Mo­di­fi­ca­tion

Un gran problema a la hora de obtener in­fo­r­ma­ción es muchas veces el usuario mismo, pues una consulta inexacta o in­co­m­ple­ta puede dar como resultado una in­fo­r­ma­ción errónea o in­su­fi­cie­n­te. Con la intención de evitarlo, los cie­n­tí­fi­cos de la in­fo­r­ma­ción han in­tro­du­ci­do la query mo­di­fi­ca­tion (mo­di­fi­ca­ción de consulta), por la cual el sistema amplía la consulta por sí mismo empleando, por ejemplo, sinónimos, de forma que se obtengan re­su­l­ta­dos más certeros. El sistema recurre para ello a diversos di­c­cio­na­rios y al feedback de los usuarios, entre otras cosas. Pero para no depender demasiado de la eventual co­la­bo­ra­ción por parte de los usuarios, puede aplicarse un llamado seu­do­fee­d­ba­ck: con este método el sistema extrae términos em­pa­re­n­ta­dos de los mejores re­su­l­ta­dos y los evalúa en función de su re­le­va­n­cia para la búsqueda.

Las búsquedas pueden mejorarse o ampliarse con las si­guie­n­tes técnicas:

  • Eliminar palabras vacías: las palabras vacías reciben esta de­no­mi­na­ción porque no co­n­tri­bu­yen al contenido del texto o lo hacen muy poco. Se trata de los artículos, pro­no­m­bres y pre­po­si­cio­nes que conviene descartar por no ser re­pre­se­n­ta­ti­vos para el contenido.
  • Ide­n­ti­fi­car frases y grupos de palabras: con ello se consigue que el buscador también considere re­le­va­n­tes los términos que forman un grupo semántico.
  • Reducir a morfemas: la búsqueda es más efectiva si las palabras se reducen a su unidad mínima, el morfema, porque si no, no apa­re­ce­ría co­rre­c­ta­me­n­te fle­xio­na­da en la lista de re­su­l­ta­dos.
  • Recurrir a un tesauro (di­c­cio­na­rio): un sistema de re­cu­pe­ra­ción de in­fo­r­ma­ción también debería co­n­si­de­rar re­le­va­n­tes a los sinónimos de las palabras que aparecen en el documento. Solo así puede ga­ra­n­ti­zar­se que el usuario encuentra lo que está buscando.

Exhau­s­ti­vi­dad y precisión

La efe­c­ti­vi­dad de un sistema de in­fo­r­ma­tion retrieval suele ca­l­cu­lar­se con los factores de exhau­s­ti­vi­dad (recall) y precisión (precision), que se re­pre­se­n­tan como cocientes.

  • Recall o exhau­s­ti­vi­dad: también llamado “recobrado” por algunos autores, este factor indica lo completo que es el resultado de la búsqueda. Para ello se co­n­tra­po­ne el número de do­cu­me­n­tos en­co­n­tra­dos re­le­va­n­tes al de los re­le­va­n­tes pero no en­co­n­tra­dos. El cociente re­pre­se­n­ta, entonces, lo probable que es que se encuentre un documento relevante:
  • Precisión: ¿cuál es la exactitud del resultado? Para obtener este cociente se co­n­tra­po­ne el número de do­cu­me­n­tos re­le­va­n­tes y en­co­n­tra­dos al número de los en­co­n­tra­dos pero irre­le­va­n­tes. El resultado indica la pro­ba­bi­li­dad de que un documento en­co­n­tra­do sea relevante:

Ambos valores se sitúan entre 0 y 1, siendo 1 la pe­r­fe­c­ción. En la práctica no es posible obtener re­su­l­ta­dos perfectos en ambas ecua­cio­nes a la vez: un aumento en la exhau­s­ti­vi­dad de los re­su­l­ta­dos va en de­tri­me­n­to de la precisión y a la inversa.

También puede ca­l­cu­lar­se el llamado fall-out o pro­po­si­ción de fallo, que refleja la pro­po­r­ción de do­cu­me­n­tos no re­le­va­n­tes que son re­cu­pe­ra­dos y lo determina la relación entre los do­cu­me­n­tos irre­le­va­n­tes en­co­n­tra­dos y los irre­le­va­n­tes que no se en­cue­n­tran.

Tanto la exhau­s­ti­vi­dad como la precisión se pueden re­pre­se­n­tar en un eje de coor­de­na­das en el que cada uno de los valores se co­rre­s­po­n­de con un eje.

In­fo­r­ma­tion retrieval en la práctica

Todos los bu­s­ca­do­res online actuales se basan en las técnicas de re­cu­pe­ra­ción de in­fo­r­ma­ción. Google, Bing y Yahoo serían, entonces, ejemplos pro­mi­ne­n­tes de re­cu­pe­ra­ción de in­fo­r­ma­ción asistida por ordenador. Para mostrar cómo funciona la RI en la praxis, puede ser útil utilizar un ejemplo sencillo como el que pro­po­ne­mos a co­n­ti­nua­ción.

Partiendo de una pequeña bi­blio­te­ca infantil compuesta por cuentos en que aparecen animales, se elabora una matriz de búsqueda para encontrar aquellos libros donde aparezcan elefantes y jirafas, pero ningún cocodrilo. Una consulta según el método booleano podría ser esta: “elefante” AND “jirafa” NOT “cocodrilo”. El resultado solo puede ser 1 o 0, porque se trata de averiguar si los nombres aparecen en los textos o no.

El resultado correcto de esta búsqueda sería “Tim y Oli en el zoo” y “Daniel y el circo chiflado”. Sin embargo, aún no sabemos cuál de las dos es más relevante. ¿Cuál de ellos trata más de elefantes y jirafas? Para ello el sistema puede de­te­r­mi­nar la fre­cue­n­cia del término y la fre­cue­n­cia inversa del documento:

“Tim y Oli en el zoo” es pro­ba­ble­me­n­te un resultado más acertado para una búsqueda de un texto con jirafas y elefantes que “Daniel y el circo chiflado”, así que es el que debería aparecer en un primer puesto en los re­su­l­ta­dos. Este método solo funciona cuando los términos se han fijado (in­di­za­ción co­n­tro­la­da), que es lo que ocurre en el caso de las bases de datos es­pe­cia­li­za­das, cuando el usuario ha sido instruido en el uso de la máscara de búsqueda y sabe con qué palabras buscar. En este caso se podría modificar la búsqueda (query mo­di­fi­ca­tion) para incluir, además de “elefante” otras palabras como “pa­qui­de­r­mo”, así como di­fe­re­n­tes variantes gra­má­ti­cas que en­tre­ga­rían re­su­l­ta­dos positivos.

Consejo

Además de Google hay otros bu­s­ca­do­res en la red. Estas al­te­r­na­ti­vas a Google cuidan mucho más la pro­te­c­ción de los datos, por ejemplo.

Ir al menú principal