De la (non)pérennité du Web

Petit sujet intéressant (peut-être), qui parle de mon site préféré sur le blog : archive.org. En effet, quand on fait des recherches « archeologeek » comme moi, on se rend compte d’une chose : le web (ou Web ?) est tout sauf pérenne.

Beaucoup voient le web comme une immense bibliothèque compilant des données sur tous les sujets, mais c’est une très mauvaise analogie. Le web, c’est une immense bibliothèque avec des livres que l’on oublie de rendre, d’autres qui sont détruits, certains qui disparaissent… en permanence. Et c’est un point à prendre en compte, surtout quand — comme moi — on travaille sur des sujets considérés comme anciens.

En fait, dans la majorité de mes recherches, dès que le sujet a plus de quelques années (typiquement, dès que ça date d’avant 2005 environ), il y a de grandes chances pour que je ne trouve plus rien en ligne facilement. On a les sites qui ont modifié totalement leur design et dont les archives ne sont pas accessibles facilement (l’URL a changé), ceux qui ont été tout bonnement supprimé parce que l’hébergement n’a pas été payé ou parce que l’hébergeur a décidé de supprimer le contenu (les pages en .mac.com au hasard), les messages sur les forums qui contiennent des images placées chez des hébergeurs d’images qui n’existent plus ou tout simplement les données effacées pour diverses raisons, comme le fait qu’une version plus récente d’un logiciel est sortie.

Si Archive.org permet généralement de s’en tirer pour les pages web tant qu’on ne cherche pas un truc trop précis (genre la page d’accueil d’Apple pendant un mois précis au 20e siècle), la chasse aux miroirs pour les logiciels est courante. Vieux FTP, copie de CD ou DVD fournis avec des magazines, lecteurs qui ont des archives, tous les moyens sont bons pour essayer de trouver le truc qu’on cherche. Et parfois sans succès : dans la réalité, on peut trouver des choses qui datent des années 2000 sans trop de soucis, mais avant… c’est la galère. Archive.org remonte à 1996 environ, mais les copies sont rares, et les FTP et autres plateformes de distribution de logiciels de l’époque sont très rares.

Un des autres problèmes, ce sont les informations fausses et (ou) parcellaires, un problème très courant sur les forums et dans les listes de discussion en général, où les questions suivies d’un laconique « j’ai trouvé, merci ». Le PowerBop est un cas d’école : il est listé comme un prototype dans beaucoup de publications (notamment américaine) et sa rareté font que certaines informations disponibles sont tout simplement fausses, pour diverses raisons.

L’absence de mise à jour de la documentation est aussi un vrai problème, avec un petit exemple. Si vous voulez connecter une vieille machine à Internet, la solution la plus simple est souvent d’utiliser une connexion RTC, avec un modem. Sauf qu’en France les FAI proposant encore du RTC sont très rares, la grande majorité a disparu, et que les données fournies par les FAI encore présents (en gros, Free et Orange) sont fausses. Free référence toujours un numéro d’appel local pour l’accès 56K, alors qu’il est visiblement inaccessibles depuis plusieurs années, par exemple.

Beaucoup de choses qui semblaient couler de source il y a quelques années sont impossibles à reproduire en 2014. A l’échelle du blog, qui a à peine 4 ans, le problème se pose déjà : certaines manipulations présentées nécessitent des versions précises de logiciels ou des fichiers qui ne sont plus en lignes, et c’est un problème. A mon échelle, j’ai pris la peine depuis quelques années de sauvegarder en local une bonne partie des données que je traite : fichiers téléchargées et nécessaires pour certaines manipulations, versions bêta des logiciels, captures d’écrans, listes détaillées des manipulations à effectuer (même si ça me paraît évident), etc. Je pars du principe que tout peut disparaître du jour au lendemain et que ça peut resservir. Je ne sauve pas tout, mais dès que j’ai eu un peu de mal à trouver les informations, c’est le cas. Actuellement, mon archive fait tout de même un peu plus de 56 Go, ce qui commence à être imposant, mais je suis content de l’avoir le jour où j’ai besoin des données sauvées ou quand je peux aider un lecteur parce que j’ai eu la bonne idée de garder une copie de ce fichier disponible sur les torrents et dont il manque 1 % systématiquement… Même chose pour les pages, d’ailleurs, quand je considère le contenu comme vraiment important et éphémère, je capture toute la page avec Paparazzi!, un outil très efficace.

Du coup, si jamais vous tombez sur un lien mort sur le blog, pensez à m’envoyer un mail, j’ai (peut-être) gardé une copie.