(+34) 910 42 42 93 [email protected]

Leía en el blog de la Biblioteca del Congreso de EEUU (EN) un artículo sobre las dificultades que están encontrando sus funcionarios a la hora de asegurar la persistencia del contenido publicado en su página.

El tema no es para nada baladí, y un servidor ya ha hablado de todo esto por diferentes artículos en mi web personal.

El caso es que el contenido en Internet es efímero.

Hay tantas razones por las que, de pronto, un contenido puede dejar de estar accesible, que conforme más crece el conocimiento humano vertido en la Red, más dificultades encontramos para asegurar su acceso.

Entre las razones:

  • Que el contenido se elimine.
  • Que el contenido cambie de URL.
  • Que el sistema de gestión de contenido falle.
  • Que el dominio y/o el servidor cambien o dejen de funcionar.
  • Que alguna de las tecnologías que permiten el visionado de dicha información acabe quedando obsoleta.
  • Etc, etc, etc…

Un servidor tiene en su página personal más de 4.000 publicaciones. Y te puedo asegurar que prácticamente cada semana los sistemas de alerta que tengo definidos me avisan de que algún enlace, tanto interno como externo, ha dejado de estar accesible, lo que me obliga cada semana a entrar en dichos contenidos, ver si en efecto ya no son accesibles, y actualizarlos.

Un trabajo que me roba bastante tiempo.

Pues ahora imagínate hacer esto mismo pero con una página como la de la Biblioteca del Congreso de los EEUU, que fácilmente tendrá alrededor de 60.000 de URLs internas.

O imagínate algo como la Wikipedia, con millones de páginas…

Así pues, los administradores se preguntan qué sistemas automatizados podrían usar para realizar el scrapping, y lo cierto es que no hay una solución sencilla.

¿La obvia y que todos utilizamos? Aprovechar el valor devuelto por el protocolo HTTP que arroja cada web cuando entramos.

Por si no lo sabes, estos valores son un número de tres cifras, de forma que:

  1. Valores 200: significa que la URL devuelve información correctamente.
  2. Valores 300: Que hubo algún tipo de redirección.
  3. Valores 400 y 500: Que hubo algún tipo de error.

¿Cuál es el problema de este sistema?

Pues que cuando una web te devuelve un valor 200, lo único que te dice es que la URL funciona. Pero lo mismo el contenido que hay está obsoleto, o incluso vacío.

Y con los valores 400 y 500 (como el típico error 404 que habrás visto en muchas páginas), tampoco son del todo fiables. Puede ser que justo cuando la araña pasa por esa URL en particular el servidor no puede mostrarle el contenido, y quedará marcado como página con error aunque en efecto esté funcionando.

Algo que, para colmo, pasa muy habitualmente con este tipo de sistemas de scrapping automatizados. Puedo dar fe que de 10 potenciales URLs con error que me muestra la herramienta que uso, fácilmente 3 o 4 son falsos positivos, lo que te obliga, sí o sí, a revisarlos A MANO.

En fin, que ni siquiera ellos llegan a una conclusión buena para todos: Hay que hacer una segunda revisión a mano.

Tras meses de trabajo, han llegado al corolario de que de su web, el 52% del contenido sigue siendo accesible, el 7% sigue accesible pero ha cambiado de URL, el 21% se ha perdido, y el 20% sigue online pero inaccesible de alguna manera.

Hablamos de que prácticamente la mitad del contenido ya no es, de una u otra manera, accesible. El 41%, concretamente.

Es un problema base del sistema de distribución de contenido en Internet, y aunque en efecto haya proyectos como el de Archive.org que intentan guardar copias de las webs tal y como estaban en un momento dado, está claro que aún nos falta muchísimo para crear un ecosistema que sea lo suficientemente robusto y fiable por sí mismo.

En CyberBrainers hacemos informes y análisis de mercado en temas candentes para nuestros clientes, ya sean de negocio o puramente reputacionales. Si necesitas conocer cómo le va a la competencia, a tu propia empresa, o simplemente conocer qué opina la gente sobre algún tema en particular, escríbenos y ponemos nuestras máquinas y analistas a escuchar.

Pablo F. Iglesias
Pablo F. Iglesias

Pablo F. Iglesias es Consultor de Presencia Digital y Reputación Online, director de la Consultora CyberBrainers, escritor del libro de ciencia ficción «25+1 Relatos Distópicos» y la colección de fantasía épica «Memorias de Árganon», un hacker peligroso, y un comilón nato 🙂