Búsqueda y Recuperación de Información

La recuperación de información es el siguiente paso a la determinación de las necesidades de información. Se puede recuperar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas… Conocer y manejar estas herramientas contribuye a una recuperación de calidad.

Recuperación de información

El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se almacena la información estructurada, mediante un lenguaje de interrogación adecuado. Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental. Uno de los problemas que surgen en la búsqueda de información es si lo que recuperamos es «mucho o poco» es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental.

Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.
Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la estrategia de búsqueda se ha definido demasiado genérica.

Concepto de sistema de recuperación de información

Proceso donde se accede a una información previamente almacenada, mediante herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha información ha debido de ser estructura previamente a su almacenamiento.

Componentes esenciales

Documentos estructurados. Es necesario establecer un proceso donde se establezcan herramientas de indización y control terminológico.
Bases de datos donde estén almacenados los documentos. Definir lenguajes de interrogación y operadores que soportará la base de datos y, establecer que tipo de ecuaciones serán permitidas.

Herramientas

Bases de datos

Internet

Revistas electrónicas
Buscadores. Los buscadores son herramientas que permiten localizar y recuperar la información almacenada en internet. El funcionamiento es parecido a las bases de datos, almacenan las páginas con determinadas características (metadatos) y que posteriormente tras utilizar unas palabras clave emiten un listado de las más relevantes.
- Buscadores generales
  - Google (http://www.google.com)
  - Alltheweb (http://www.alltheweb.com)
  - AltaVista (http://www.altavista.com)
  - Excite (http://www.excite.com)
  - Infoseek (http://www.infoseek.com)
  - Lycos (http://www.lycos.com)
  - Webcrawler (http://webcrawler.com)
  - Hotboot (http://www.hotbot.com)
Directorios. Los directorios son listas organizadas que nos permite acceder a la información de forma estructurada y jerárquica. Se clasifican en categorías y el usuario enlaza de lo más general a lo más específico
- Recomendados para las búsquedas en las que el usuario no sabe mucho sobre el tema en concreto
  - El directorio de Google (http://directory.google.com)
  - Ozú (http://categorias.ozu.es)
  - El índice (http://www.elindice.com)
  - Yahoo (http://www.yahoo.com)
- Directorio y motores especializados
  - Humbul http://www.humbul.ac.uk
  - Librarian Index to the Internet http://lii.org
  - Internet Public Library http://www.ipl.org
  - Scirus http://www.scirus.com
  - Search4Science http://www.search4science.com
Metabuscadores.Son buscadores, con la cualidad de que no sólo buscan en una única base de datos, sino que al introducir los conceptos de búsqueda hace el barrido en distintas bases de datos, de esta forma la amplitud de resultados es mayor.
- Vivisimo (http://www.vivisimo.com)
- Dogpile (http://www.dogpile.com)
- Kartoo (http://www.kartoo.com)
- Qbsearch (http://www.qbsearch.com)
- Metacrawler: (http://www.metacrawler.com)
Buscadores selectivos. Utilizan una base de datos especializada en una materia.
- Ask (http://www.ask.com)
- Teoma (http://www.teoma.com)
- Electric Library (http://www.elibrary.com)
- Hieros Gamos http://www.hg.org/index.html
Programa para buscar
- Copernic (http://www.copernic.com)
Agentes inteligentes. Los agentes inteligentes son herramientas que permiten localizar información de forma automática, sólo necesita que se le definan un perfil de búsqueda y donde debe lanzarla (bases de datos, sitios web, etc.) y, automáticamente va presentando un informe sobre la nueva información que va surgiendo.
- BookWhere http://www.bookwhere.com
- BullsEye Pro http://www.intelliseek.com
- WebSeeker 5 http://www.bluesquirrel.com/
- WebFerret http://www.ferretsoft.com

Lenguajes de indización y control terminológico

Índices.

Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:

Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.
Índice alfabético: listado de términos alfabéticamente
Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.
Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.

Palabras clave (Keywords).

Término significativo en lenguaje natural que representa el contenido del documento.

En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores. Por ejemplo si utilizamos la palabra flor en cualquier buscador podemos estar buscando, la floristería más cercana, una imagen de flores o un estudio sobre las flores en las distintas estaciones del año.

Meta Keywords. La mayoría de los buscadores utilizan para localizar los recursos, las palabras clave de cada pagina web. Por esta razón es esencial que cada pagina tenga una etiqueta donde se incluyan las palabras clave que la definen, también es importante la definición exacta de cada una de ella pues es a partir de estas los buscadores localizan o no un recurso.

Tesauros

Es un listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas.

Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información

Componentes:

Descriptores admitidos o preferentes: son aquellos términos normalizados (donde han sufrido un proceso de expurgo denegando plurales, evitando sinónimos, etc.) que el tesauro los considera aptos para asignarlos a un documento y que posteriormente facilite la recuperación
Descriptores no admitidos: son aquellos que aun estando normalizados no se consideran adecuado para utilizarlos (suelen ser sinónimos, términos no utilizados en el campo de actuación, etc.)

Relaciones:

Jerárquicas: indican cuando un término es más específico que otro
Asociativas: Indican que los términos guardan alguna relación
Sinónimos: Indican que dos términos son sinónimos y cual de ellos se utiliza como admitido

Lenguajes de interrogación y ecuaciones de búsqueda

Lenguajes

Cada sistema de recuperación tiene su propio lenguaje de interrogación, que es el que le permite «hablar» en el mismo lenguaje que la base de datos. Este lenguaje como cualquier otro tiene sus propia sintaxis que especifica las características especiales de la búsqueda determinando en cada momento la relación que tienen los elementos de búsqueda. Las reglas gramaticales en el lenguaje de interrogación son los operadores.

Cómo plantear una estrategia de búsqueda

No existen pautas que nos indiquen como hacer con exactitud todas las búsqueda debido a que cada consulta es distinta. Por eso es conveniente definir un procedimiento básico de trabajo:

Planteando el tema desde distintos puntos de vista
Determinando que se sabe del tema
Formulando nuestra búsqueda mediante:
- La selección de palabras clave que representen lo que busco (utilizar diccionarios, sinónimos, tesauros, ontologías, etc.)
- La traducción de las palabras importantes a otros idiomas (inglés)
Seleccionando las herramientas de búsqueda (índices, motores, metabuscadores). Se recomienda usar distintas herramientas a la vez.
Aplicando las palabras clave en las herramientas de búsqueda seleccionadas

Ecuaciones simples

Ecuaciones compuestas

Operadores

Lógicos o Boléanos: Permiten convertir las palabras de la consulta en conjuntos matemáticos, y operar con las palabras como si fuesen conjuntos. Las operaciones básicas son la suma (OR), la resta (NOT) y el producto (AND).
- Y lógico (AND)
- NO lógico (NOT)
- O lógico (OR)
Posicionales: Permiten especificar la posición de las palabras dentro del documento.
- Cerca (NEAR)
- Junto (ADJ)
- Frases
Existencia: Indica cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados.
- Presencia / Ausencia
- Ausencia
Exactitud: Este tipo de operador se utiliza cuando la consulta que se pretende es menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a su raíz.
- Proximidad
- Por campos
CCL (Common Command Language).
Permite restringir las búsquedas mediante calificadores -es decir, la búsqueda se puede llevar a cabo en campos específicos como Autor, título, etc.- es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva.

Navegación versus Recuperación de Información

Concepto

La navegación es el programa que permite consultar y obtener información mediante los sistemas hipertexto.

Diferencias

La diferencia esencial entre ambos conceptos, radica en la forma de obtener información; mientras que en la recuperación de información se obtiene de forma lineal, la navegación tiene la capacidad de obtener información a través del hipertexto. Esto quiere decir que, la adquisición de conocimiento se realiza paulatinamente y dependiendo del interés del usuario se profundiza a través de los nodos de información en una materia u otra.

Directorios versus Motores de búsqueda

Motores de búsqueda Vs. Directorios
La información se actualiza automáticamente por la red.	La información se actualiza mediante la mano humana que se da de alta en el directorio cuando crea un lugar web.
Recogen toda la información almacenada en la página.	No almacenan todos los contenidos web, solamente los campos más relevantes como son el título, las palabras clave, etc.
Almacenan la información mediante una base de datos propia.	Almacenan información mediante directorios, clasificados en categorías.
La búsqueda se realiza en la base de datos mediante la ecuación de búsqueda.	La búsqueda se realiza jerárquicamente según las categorías establecidas.
La presentación de los resultados se establece por orden de relevancia según unos criterios establecidos en la ecuación de búsqueda.	La presentación de los resultados se lleva a cabo mediante un listado de todos los documentos correspondientes en la categoría, sin ningún criterio de presentación.
Apropiados para localizar información específica.	Apropiados para localizar información general sobre un tema.

Metadatos

Los metadatos en la navegación y recuperación de información se utilizan para detectar información relevante de una forma rápida y eficaz. Las etiquetas describen el contenido del recurso web, que posteriormente utilizan las herramientas de búsqueda para localizar y acceder al recurso. Principalmente son las etiquetas de palabra clave y título las que dan paso a localizar el documento.

Técnicas de recuperación de información

Sistemas de recuperación de lógica difusa

Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento

Técnicas de ponderación de términos

Es común que unos criterios en la búsqueda tenga más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.

Técnica de clustering

Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.

Algoritmos utilizados para realizar la categorización (cluster):

Técnicas de retroalimentación por relevancia

Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.

Algoritmo Genético: es el que se ha utilizado para llevar a cabo este tipo de técnicas de recuperación http://www.pmsi.fr/gainits.htm

Técnicas de stemming

Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.

Algoritmos utilizados para desechar prefijos y sufijos:

Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razón, esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas.

Calidad de la recuperación

A continuación se presentan unos criterios básicos para que la recuperación llevada a cabo sea de calidad.

Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección
Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados
Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados
Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.
Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección

Habilidades y competencias

Formulación de un plan para la búsqueda de información: definiendo la materia o aspectos a buscar, utilizando un listado de palabras claves apropiadas, delimitando la búsqueda según criterios cronológicos, idiomáticos.
Conocimiento de las fuentes potenciales y reales de información
Habilidades para la localización de recursos impresos y electrónicos pertinentes en el contexto de la necesidad de información
Capacidad para seleccionar la herramienta de búsqueda más apropiada y formular la estrategia más adecuada.
Dominio de técnicas avanzadas para la recuperación de información en Internet, empleando motores, directorios de búsqueda, agentes inteligentes.
Habilidades para evaluar los resultados de la búsqueda, reflexionando sobre los aciertos, fallos y estrategias alternativas.
Determinar la ubicación y acceso a la información, respetando los principios éticos y legales.

Dossier electrónico

Tesauros

Tesauro de redes de ordenadores http://www.um.es/~gtiweb/fjmm/tesauro/intro.htm
Tesauros del CINDOC http://thes.cindoc.csic.es/index_esp.html
Tesauro de la UNESCO http://www.ulcc.ac.uk/unesco/
Tesauro del sistema de información bibliográfica de las Naciones Unidas http://unhq-appspub-01.un.org/LIB/DHLUNBISThesaurus.nsf/$$searchs?OpenForm
UNE 50-106 directrices para el establecimiento y desarrollo de tesauros monolingües

Recuperación de información

Grupo REINA. Universidad de Salamanca. http://reina.usal.es/index.htm
Recuperación de información web http://es.geocities.com/recupdeinformacion_ontologias/recuperacioninformacion.htm#suamrio
Almacenamiento y recuperación de información http://www.bibliodgsca.unam.mx/tesis/tes7cllg/sec_27.htm
- Método clustering http://leo.ugr.es/~elvira/Meetings/Albacete2002/pedro.pdf
- Stemming http://www.comp.lancs.ac.uk/computing/research/stemming/general/
Lógica difusa http://delta.cs.cinvestav.mx/~gmorales/ldifll/ldifll.html

Búsqueda y Recuperación de Información

Recuperación de información

Concepto de sistema de recuperación de información

Componentes esenciales

Herramientas

Bases de datos

Internet

Lenguajes de indización y control terminológico

Índices.

Palabras clave (Keywords).

Tesauros

Componentes:

Relaciones:

Lenguajes de interrogación y ecuaciones de búsqueda

Lenguajes

Cómo plantear una estrategia de búsqueda

Ecuaciones simples

Ecuaciones compuestas

Operadores

Navegación versus Recuperación de Información

Concepto

Diferencias

Directorios versus Motores de búsqueda

Metadatos

Técnicas de recuperación de información

Sistemas de recuperación de lógica difusa

Técnicas de ponderación de términos

Técnica de clustering

Técnicas de retroalimentación por relevancia

Técnicas de stemming

Calidad de la recuperación

Habilidades y competencias

Dossier electrónico

General

Buscadores

Operadores

Tesauros

Recuperación de información