Búsqueda y Recuperación de Información

La recuperación de información es el siguiente paso a la determinación de las necesidades de información. Se puede recuperar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas… Conocer y manejar estas herramientas contribuye a una recuperación de calidad.

Recuperación de información

El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se almacena la información estructurada, mediante un lenguaje de interrogación adecuado. Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental. Uno de los problemas que surgen en la búsqueda de información es si lo que recuperamos es «mucho o poco» es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental.

  • Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.
  • Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la estrategia de búsqueda se ha definido demasiado genérica.

Concepto de sistema de recuperación de información

Proceso donde se accede a una información previamente almacenada, mediante herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha información ha debido de ser estructura previamente a su almacenamiento.

Componentes esenciales

  • Documentos estructurados. Es necesario establecer un proceso donde se establezcan herramientas de indización y control terminológico.
  • Bases de datos donde estén almacenados los documentos. Definir lenguajes de interrogación y operadores que soportará la base de datos y, establecer que tipo de ecuaciones serán permitidas.

Herramientas

Bases de datos

Internet

Lenguajes de indización y control terminológico

Índices.

Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:

  • Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.
  • Índice alfabético: listado de términos alfabéticamente
  • Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.
  • Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.

Palabras clave (Keywords).

Término significativo en lenguaje natural que representa el contenido del documento.

En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores. Por ejemplo si utilizamos la palabra flor en cualquier buscador podemos estar buscando, la floristería más cercana, una imagen de flores o un estudio sobre las flores en las distintas estaciones del año.

  • Meta Keywords. La mayoría de los buscadores utilizan para localizar los recursos, las palabras clave de cada pagina web. Por esta razón es esencial que cada pagina tenga una etiqueta donde se incluyan las palabras clave que la definen, también es importante la definición exacta de cada una de ella pues es a partir de estas los buscadores localizan o no un recurso.

Tesauros

Es un listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas.

Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información

Componentes:
  • Descriptores admitidos o preferentes: son aquellos términos normalizados (donde han sufrido un proceso de expurgo denegando plurales, evitando sinónimos, etc.) que el tesauro los considera aptos para asignarlos a un documento y que posteriormente facilite la recuperación
  • Descriptores no admitidos: son aquellos que aun estando normalizados no se consideran adecuado para utilizarlos (suelen ser sinónimos, términos no utilizados en el campo de actuación, etc.)
Relaciones:
  • Jerárquicas: indican cuando un término es más específico que otro
  • Asociativas: Indican que los términos guardan alguna relación
  • Sinónimos: Indican que dos términos son sinónimos y cual de ellos se utiliza como admitido

Lenguajes de interrogación y ecuaciones de búsqueda

Lenguajes

Cada sistema de recuperación tiene su propio lenguaje de interrogación, que es el que le permite «hablar» en el mismo lenguaje que la base de datos. Este lenguaje como cualquier otro tiene sus propia sintaxis que especifica las características especiales de la búsqueda determinando en cada momento la relación que tienen los elementos de búsqueda. Las reglas gramaticales en el lenguaje de interrogación son los operadores.

Cómo plantear una estrategia de búsqueda

No existen pautas que nos indiquen como hacer con exactitud todas las búsqueda debido a que cada consulta es distinta. Por eso es conveniente definir un procedimiento básico de trabajo:

  • Planteando el tema desde distintos puntos de vista
  • Determinando que se sabe del tema
  • Formulando nuestra búsqueda mediante:
    • La selección de palabras clave que representen lo que busco (utilizar diccionarios, sinónimos, tesauros, ontologías, etc.)
    • La traducción de las palabras importantes a otros idiomas (inglés)
  • Seleccionando las herramientas de búsqueda (índices, motores, metabuscadores). Se recomienda usar distintas herramientas a la vez.
  • Aplicando las palabras clave en las herramientas de búsqueda seleccionadas

Ecuaciones simples

Ecuaciones compuestas

Operadores

  • Lógicos o Boléanos: Permiten convertir las palabras de la consulta en conjuntos matemáticos, y operar con las palabras como si fuesen conjuntos. Las operaciones básicas son la suma (OR), la resta (NOT) y el producto (AND).
    • Y lógico (AND)
    • NO lógico (NOT)
    • O lógico (OR)
  • Posicionales: Permiten especificar la posición de las palabras dentro del documento.
    • Cerca (NEAR)
    • Junto (ADJ)
    • Frases
  • Existencia: Indica cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados.
    • Presencia / Ausencia
    • Ausencia
  • Exactitud: Este tipo de operador se utiliza cuando la consulta que se pretende es menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a su raíz.
    • Proximidad
    • Por campos
  • CCL (Common Command Language).
    Permite restringir las búsquedas mediante calificadores -es decir, la búsqueda se puede llevar a cabo en campos específicos como Autor, título, etc.- es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva.

Navegación versus Recuperación de Información

Concepto

La navegación es el programa que permite consultar y obtener información mediante los sistemas hipertexto.

Diferencias

La diferencia esencial entre ambos conceptos, radica en la forma de obtener información; mientras que en la recuperación de información se obtiene de forma lineal, la navegación tiene la capacidad de obtener información a través del hipertexto. Esto quiere decir que, la adquisición de conocimiento se realiza paulatinamente y dependiendo del interés del usuario se profundiza a través de los nodos de información en una materia u otra.

Directorios versus Motores de búsqueda

 

Motores de búsqueda Vs. Directorios
La información se actualiza automáticamente por la red. La información se actualiza mediante la mano humana que se da de alta en el directorio cuando crea un lugar web.
Recogen toda la información almacenada en la página. No almacenan todos los contenidos web, solamente los campos más relevantes como son el título, las palabras clave, etc.
Almacenan la información mediante una base de datos propia. Almacenan información mediante directorios, clasificados en categorías.
La búsqueda se realiza en la base de datos mediante la ecuación de búsqueda. La búsqueda se realiza jerárquicamente según las categorías establecidas.
La presentación de los resultados se establece por orden de relevancia según unos criterios establecidos en la ecuación de búsqueda. La presentación de los resultados se lleva a cabo mediante un listado de todos los documentos correspondientes en la categoría, sin ningún criterio de presentación.
Apropiados para localizar información específica. Apropiados para localizar información general sobre un tema.

 

Metadatos

Los metadatos en la navegación y recuperación de información se utilizan para detectar información relevante de una forma rápida y eficaz. Las etiquetas describen el contenido del recurso web, que posteriormente utilizan las herramientas de búsqueda para localizar y acceder al recurso. Principalmente son las etiquetas de palabra clave y título las que dan paso a localizar el documento.

Técnicas de recuperación de información

Sistemas de recuperación de lógica difusa

Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento

Técnicas de ponderación de términos

Es común que unos criterios en la búsqueda tenga más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.

Técnica de clustering

Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.

Algoritmos utilizados para realizar la categorización (cluster):

Técnicas de retroalimentación por relevancia

Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.

Algoritmo Genético: es el que se ha utilizado para llevar a cabo este tipo de técnicas de recuperación http://www.pmsi.fr/gainits.htm

Técnicas de stemming

Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.

Algoritmos utilizados para desechar prefijos y sufijos:

Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razón, esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas.

Calidad de la recuperación

A continuación se presentan unos criterios básicos para que la recuperación llevada a cabo sea de calidad.

  • Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
  • Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
  • Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección
  • Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
  • Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados
  • Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
  • Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados
  • Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.
  • Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección

Habilidades y competencias

  • Formulación de un plan para la búsqueda de información: definiendo la materia o aspectos a buscar, utilizando un listado de palabras claves apropiadas, delimitando la búsqueda según criterios cronológicos, idiomáticos.
  • Conocimiento de las fuentes potenciales y reales de información
  • Habilidades para la localización de recursos impresos y electrónicos pertinentes en el contexto de la necesidad de información
  • Capacidad para seleccionar la herramienta de búsqueda más apropiada y formular la estrategia más adecuada.
  • Dominio de técnicas avanzadas para la recuperación de información en Internet, empleando motores, directorios de búsqueda, agentes inteligentes.
  • Habilidades para evaluar los resultados de la búsqueda, reflexionando sobre los aciertos, fallos y estrategias alternativas.
  • Determinar la ubicación y acceso a la información, respetando los principios éticos y legales.

Dossier electrónico

General

Buscadores

Operadores

Tesauros

Recuperación de información