El directorio abierto de Internet

Share on twitter
Share on facebook
Share on linkedin
Share on email
Share on print
Share on twitter
Share on facebook
Share on linkedin
Share on whatsapp
Share on email
Duración lectura: 13m. 19s.

Una guía de la World Wide Web hecha por voluntarios
En cuatro años, Google se ha convertido en el recurso más usado para localizar información en Internet. ¿Cuáles son las claves de este rotundo éxito? Una de ellas es su directorio temático, que se basa en una idea ajena: el Open Directory Project (ODP), formado por voluntarios que catalogan la World Wide Web. El Open Directory superó en número de sitios a Yahoo, el directorio comercial más importante, hace ya un par de años y es un recurso excelente para las búsquedas en Internet. Cualquier internauta puede ser voluntario del ODP y, así, contribuir a organizar la web para que los usuarios encuentren fácilmente lo interesante, sin perder tiempo revisando páginas inútiles. De este modo, el ODP influye poderosamente en la audiencia de los sitios web.

El Open Directory Project (http://dmoz.org) es una inmensa guía de Internet construida por voluntarios. Su objetivo declarado es nada menos que “producir el directorio más completo de la web” y llegar a ser “el recurso más útil de Internet”. De sus datos se nutren más de 200 buscadores, incluidos Netscape Search y Google, y -por reacción en cadena- los buscadores que incluyen en sus resultados los de Google. Además se da la curiosa circunstancia de que Yahoo (directorio de pago y principal competidor del Open Directory) lista en primer lugar los sitios catalogados por sus editores y después ofrece los resultados de Google, que en buena parte son los del ODP.

El Open Directory nació en junio de 1998 con el nombre de Newhoo y fue adquirido por Netscape en noviembre de ese mismo año. Netscape se comprometió a preservar su carácter independiente, voluntario y gratuito. Netscape fue la primera compañía en utilizar la base de datos de ODP. Ahora la utilizan también AOL (dueño de Netscape), Google, Lycos y cientos de pequeños portales. La licencia para utilizar los datos de ODP es gratuita.

Quien no aparece, no existe

Como se puede suponer, aparecer listado en el Open Directory es esencial para todo sitio que se precie. Lo bueno es que remitir sitios es absolutamente gratis. Y lo malo es que no hay garantía en cuanto al tiempo que pueden tardar los editores voluntarios de ODP en dar de alta un sitio propuesto. La comunidad de editores de ODP necesita ayuda y no se cansa de incluir el banderín de enganche “Sea un editor” en todas sus páginas. Especialmente en la sección “World/Español”, es llamativa la ausencia de editores en cientos de categorías que claman por un voluntario que les dedique tiempo.

Como Internet continúa creciendo con rapidez, los buscadores automatizados son cada vez menos capaces de entregar resultados útiles a los usuarios. Además, los pequeños grupos de editores profesionales de los directorios comerciales no pueden mantenerse al día catalogando sitios y, por tanto, la calidad y cantidad de sus índices dejan mucho que desear. Se están llenando de enlaces muertos y no logran seguir el paso rápido de Internet.

Ante el crecimiento explosivo de la red, el Open Directory proporciona los medios para que la web se organice a sí misma. Conforme se expande Internet, aumenta también el número de personas que la usan. Si muchos usuarios organizan pequeñas porciones de la web -una porción cada uno- y las presentan al resto del público, tendremos filtrado lo malo y lo inútil y conseguiremos un acceso sencillo a los mejores sitios.

Directorios frente a buscadores

Los directorios no son simples buscadores. Un directorio (como Yahoo) se distingue de un buscador (como Alta Vista) porque no se dedica a explorar la red entera en busca de páginas, sino que las va catalogando, colocando cada una en su categoría apropiada, en función del tema, de la localización geográfica o de ambas cosas. Los redactores profesionales de Yahoo revisan las páginas que propone la gente y las ponen en su lugar, si tienen un mínimo de calidad. Ahora mismo Yahoo cobra por añadir páginas en ciertas categorías (en general, las de negocios), pero sigue admitiendo gratuitamente sitios de carácter no comercial. El problema es que tiene un número muy limitado de editores, que tardan semanas o meses en revisar todo lo que les llega.

El ODP nació como competencia gratuita y voluntaria a Yahoo, y su enfoque es radicalmente distinto. Los editores son voluntarios que hacen su trabajo por amor al arte. Cualquier persona puede ser editor de alguna categoría. Tiene que ser capaz de escribir breves títulos y descripciones de los sitios. Y lo más importante: decidir si el sitio fue enviado a la categoría apropiada o por el contrario debe remitirlo a otro lugar del directorio. Ahora mismo en ODP hay 49.000 categorías. Su base de datos alcanza casi tres millones y medio de sitios web, todos ellos catalogados y revisados por editores humanos. Su lema es “los humanos lo hacen mejor”, por contraposición a los buscadores automáticos que devuelven resultados indiscriminados o con poco interés. Es una lucha entre la inteligencia humana y la tecnología pura: en ODP piensan que el factor humano es indispensable.

Como se lee en la documentación para webmasters, Google tiene suscrito un acuerdo con Yahoo y ODP. Y la mejor recomendación que da Google para salir listado y para salir en mejor posición es conseguir enlaces desde otras páginas. En virtud de los acuerdos que Google tiene con ODP y Yahoo, el enlace desde estos directorios está especialmente bien valorado por sus robots.

Cómo ser editor

“Enrolarse es fácil”, dice ODP en sus formularios. “Elige un tema del que sepas algo, y únete a nosotros. Editar categorías es muy sencillo. Podrás utilizar una amplia gama de herramientas para agregar, borrar y actualizar enlaces en segundos. A cambio de unos minutos de tu tiempo, podrás ayudar a hacer de la web un lugar mejor, y obtener reconocimiento como experto en el tema de tu elección”.

En efecto, convertirse en editor voluntario de ODP es sencillo. Hay que navegar por ODP hasta encontrar la categoría que se desea solicitar. Lógicamente, los candidatos a editores deben elegir una categoría pequeña, en la que puedan demostrar sus dotes como redactores y su conocimiento del tema. Una vez encontrada la categoría que se desea, hay que seguir el enlace “Sea un editor”, que aparece abajo a la izquierda. Ante el candidato aparece un formulario en el que ha de exponer los motivos que le llevan a solicitar esa categoría y dar la dirección de dos o tres sitios que añadiría a la misma. Hay que cuidar especialmente la ortografía y seguir unas reglas concretas de redacción, que se pueden leer en línea o imprimir antes de efectuar la solicitud.

Al cabo de unos días alguien contestará la solicitud, aceptándola o denegándola. Si la deniegan, no hay que preocuparse: siempre explican las razones que motivaron el rechazo. Se puede corregir lo que corresponda y volver a enviar la solicitud. Se tienen más oportunidades de ser editor si se solicita una categoría pequeña poco desarrollada, con menos de cien sitios.

En la sección de Español hay muchos menos editores que en la de Inglés. Por tanto, hay campo para que entren nuevos voluntarios. ODP tiene categorías muy variadas, como se puede comprobar. Los editores nuevos comienzan por categorías pequeñas y después pueden quedarse ahí o aspirar a más: lo que les permita su tiempo libre.

El ODP es una comunidad en línea. Es importante tener capacidad de trabajo en equipo con otros editores además de ojo crítico para la organización.

El objetivo de los editores es producir recursos útiles para el público. No está prohibido el acceso de editores relacionados con empresas o negocios, ya que estas personas generalmente conocen a su competencia y sus sitios mejor que nadie. Este conocimiento es ideal para hacer un gran directorio. Sin embargo, no se tolera que haya editores que solo agreguen sus propios sitios o que maliciosamente perjudiquen a los sitios de la competencia. Todos los envíos se someten al análisis de un editor. El Open Directory no es un motor de búsqueda y están orgullosos de ser muy selectivos, por lo que no admiten todos los sitios que reciben. Los editores voluntarios son el alma de ODP y deben tener un comportamiento intachable, evitando la autopromoción (marcar sitios propios como muy interesantes) o manipular el título o descripción para mejorar su posición en el buscador, manipular los listados de la competencia, etc.

El fenómeno Google

Cuando Sergey Brin y Larry Page, estudiantes de doctorado en Stanford, fundaron Google en 1998, los buscadores más usados por los internautas en aquella época daban unos resultados bastante mejorables. Ellos mismos comentan que en los cuatro grandes buscadores del momento no aparecían sus propias páginas como respuesta a una búsqueda que incluyera como único término el nombre del buscador. Ahora Google es usado diariamente por millones de personas. Ofrece resultados bastante precisos con una gran velocidad de respuesta. Google confía mucho en sí mismo; tanto, que se han permitido el lujo de añadir en su página de inicio un botón llamado “Voy a tener suerte” que lleva al usuario directamente al sitio más relevante, saltándose la tediosa página de resultados.

Ese era el objetivo de Brin y Page: presentar en las primeras posiciones información útil. Google tiene a gala que responde a cada búsqueda de una manera sencilla, honrada y objetiva: la respuesta de Google se compone casi siempre de páginas web de alta calidad con información relevante.

Cómo funciona

El secreto de Google está en el fortísimo análisis de enlaces, el método predominante para clasificarlas. Este método, detrás del cual está una teoría matemática cuya estrella es un coeficiente llamado “Page Rank”, se ha mostrado eficaz al devolver buenos sitios como respuesta a consultas muy generales, como “coches” o “viajes”. Google se basa en que los usuarios de la red han votado por los sitios buenos enlazando sus páginas a ellos.

El sistema funciona tan bien que el crecimiento de Google ha sido imparable desde que nació. Cada vez son más los portales y buscadores que se asocian con Google para dar a sus usuarios los buenos resultados de Google: entre ellos, estrellas como Yahoo y Netscape Search.

Google también ofrece otras características, como la búsqueda de imágenes y la búsqueda en los grupos de discusión de Usenet, que contienen millones de preguntas y respuestas sobre miles de temas desde hace veinte años hasta hoy. También tiene su directorio, que en este caso es una ligera adaptación del Open Directory Project.

No es fácil obtener datos concretos de audiencia por parte de los buscadores. Pero según los últimos datos aportados por las propias empresas en sus comunicados de prensa, Google está respondiendo a unos 150 millones de consultas diariamente, de modo que dobla al segundo buscador y triplica al tercero. Los datos aportados por las medidoras de audiencia Nielsen//NetRatings y Jupiter Media Metrix en junio pasado para el mercado norteamericano confirman a Google como el buscador preferido por el público.

El “PageRank”

Google utiliza varias técnicas muy ingeniosas para determinar qué sitios deben ocupar los primeros lugares como respuesta a los términos de la búsqueda (las codiciadas diez primeras posiciones). Y siempre sin aceptar dinero para alterar el baremo, defecto que otros buscadores no han podido evitar para mejorar sus desastrosas cuentas de resultados. Todo un reto.

Digamos que la solución adoptada es de tinte “democrático”. Si una página incluye un enlace a otra página, se considera que la primera da un voto a la segunda. Google supone que la mayoría no se equivoca: es decir, las páginas que cuentan con muchos enlaces hacia ellas contienen en principio información más valiosa que las páginas menos “citadas”.

Este “prestigio” de cada página -patentado con el nombre de “PageRank”- se transmite de unos sitios web a otros. Los votos que emiten las páginas mejor valoradas valen más que los votos de las páginas menos importantes. Si una página está enlazada desde la portada de Yahoo, entonces esa página automáticamente adquiere un “PageRank” elevado. De hecho, hace subir más el “PageRank” un enlace desde Yahoo o desde el Open Directory que desde muchas páginas personales sin importancia. En resumen: el sistema es democrático y con voto de calidad.

El “PageRank” es un número entre 0 y 1 que los robots de Google asignan a cada página que visitan. Este número se calcula a partir del “PageRank” de las páginas que tienen vínculos hacia ella. Es, por tanto, una fórmula recursiva. Y como tal, es costosísima de calcular cuando el número de páginas que se tiene en la base de datos es grande. Google ahora mismo cuenta con unos 2.100 millones de páginas. Para poder hacer frente a esos cálculos en un tiempo razonable utilizan una red muy distribuida de miles de pequeños ordenadores, cuyos detalles son el secreto mejor guardado por la compañía californiana.

El corazón de la tecnología de búsqueda de Google se denomina “PigeonRank”, un sistema para calificar páginas web desarrollado por los propios fundadores de la compañía. Ellos tenían la corazonada de que una red de numerosos ordenadores podría servir para calcular la importancia relativa de las páginas web más rápido que si de esa tarea se encargasen editores humanos o algoritmos simples que eludiesen el problema de la recursividad. Así, mientras en Google trabajan decenas de ingenieros tratando de mejorar el funcionamiento del buscador, el sistema “PigeonRank” continúa su exitosa marcha como núcleo de todas las herramientas de búsqueda de la compañía, y nadie altera artificialmente los resultados que ofrece “asépticamente” esa red formada por cientos de modestísimos ordenadores.

El “PageRank” no lo es todo

Evidentemente, ante una búsqueda concreta, el “PageRank” no lo es todo. Si buscamos “aceprensa”, el primer resultado es aceprensa.com, el sitio oficial de Aceprensa, independientemente de que haya otras páginas con un “PageRank” más elevado en las que aparezca ese término de búsqueda.

La fórmula de Google, desconocida en sus detalles, tiene en cuenta -además del “PageRank”- otros aspectos, como el texto de la página, diferenciando si los términos de búsqueda aparecen en el título de la página, en los meta-tags, en la URL, en las primeras posiciones del texto e incluso si aparecen en mayúsculas o con algún tipo de resalte tipográfico (negrita, cursiva, texto grande, etc). También son determinantes los “textos de anclaje” (anchor texts): las palabras sobre las que “pinchamos” para ir de una página a otra. Esos textos dan una buena medida de lo que contiene la página a la que nos dirigimos. En resumen, todos esos cálculos aseguran que las páginas más recomendadas por otras páginas, en el contexto de lo que se está buscando en concreto, obtienen una posición más alta en los resultados.

Daniel Marín