Escarbando en las profundidades ocultas de la Web

Share on twitter
Share on facebook
Share on linkedin
Share on email
Share on print
Share on twitter
Share on facebook
Share on linkedin
Share on whatsapp
Share on email
Duración lectura: 2m. 26s.

El verano pasado, Google alcanzó un hito: un billón de páginas (1012) registradas e indexadas en su buscador. Pero, por enorme que sea ese número, solo constituye la parte menor de la información que contiene la World Wide Web. Hay mucha más almacenada en bases de datos que resultan inaccesibles para los buscadores.

Los servicios de búsqueda rastrean la Web mediante “robots”, unos programas que recorren constantemente la red siguiendo los enlaces por los que unas páginas remiten a otras. Pero la información guardada en bases de datos públicas, disponibles en Internet, no se puede extraer de esa manera: solo aflora en respuesta a consultas de los usuarios. (No es ese el caso de Aceprensa: todos los artículos existentes en nuestra base de datos -cerca de 15.700 a fecha de hoy- están accesibles a los buscadores mediante listas con enlaces que los lectores no ven pero los robots descubren.)

Para explotar tan inmensa mina se han puesto en marcha dos proyectos de los que informa Alex Wright en International Herald Tribune (“Emerging search technologies aim for Web’s hidden depths”). Uno es de Google y el otro, de la Universidad de Utah. Ambos aplican estrategias similares, pues la clave está en dar con los términos de búsqueda más atinados para que un robot saque lo más posible de una base de datos mediante consultas automáticas.

El robot de Google intentará acertar por el contexto. Por ejemplo, si halla un formulario en una página con palabras sobre arte, empieza a disparar consultas con términos que tiene registrados como relacionados con ese tema. Cuando obtiene una respuesta, la analiza para ir formando un modelo del contenido de la base.

El método de DeepPeep, el otro proyecto, es menos automático pero saca mayor cantidad de información, más del 90%, de una base de datos una vez que acierta con la tecla. Los investigadores del proyecto elaboran un número reducido de consultas simples; a partir del análisis de los resultados, suministran a su robot una serie de términos de búsqueda para que haga consultas automáticas.

Excavar así en las bases de datos podría hacer realidad, en la medida de lo posible, la deseada “Web semántica”, donde las informaciones estarían entrelazadas por conexiones de sentido. El principal obstáculo para lograrla es el ingente trabajo humano que se necesita para incluir en la Web descripciones formalizadas del tipo y significado de las informaciones contenidas en las páginas. En las bases de datos, estos ya están catalogados y relacionados según criterios semánticos. Si se automatiza el análisis del contenido y la estructura de las bases de datos, así como la relación entre unas y otras, se puede conseguir algo similar a la “Web semántica” a un costo muy inferior.