Et le web devint archive : enjeux et défis

Par Claude Mussou, responsable du dépôt légal du Web à la direction des Collections de l’Ina

Par Claude Mussou, responsable du dépôt légal du Web à la direction des Collections de l’Ina





small

Claude Mussou coordonne les activités liées à l'archivage du Web à l'Ina depuis juillet 2008. Elle a fait l'essentiel de sa carrière à l'Ina, d'abord documentaliste à la vidéothèque actualités de la direction des Archives, chargée d'études, puis chef de projet à la direction des Études et de la Recherche, avant de rejoindre en 2004 l'Inathèque, département en charge du dépôt légal de la radio-télévision et du web média. Elle est titulaire d'une maîtrise de littérature et civilisation américaines, d'un DESS de journalisme et diplômée de l’Intd-Cnam.

________________________________

La révolution numérique a entraîné une augmentation exponentielle des contenus dématérialisés, tandis que l’Internet offrait un nouveau mode de publication et de consultation. Dans ce contexte, l’archivage du Web est très tôt apparu comme un enjeu essentiel pour la préservation de la mémoire du XXe puis du XXIe siècle. Nombre d’organismes à travers le monde ont entrepris d’archiver tout ou partie de « la Toile » , notamment des institutions patrimoniales publiques, telles la BnF et l’Ina qui assurent en partage le dépôt légal du Web français. Ce nouvel espace des savoirs et des connaissances ouvre des chantiers d’envergure pour les archivistes et les chercheurs : captation, conservation et consultation, enjeux scientifiques et épistémologiques exigent en effet une réflexion collective au-delà des approches strictement disciplinaires ou professionnelles. Fort de son expérience dans le domaine de l’audiovisuel, l’Ina tente d’y apporter son savoir-faire et d’associer les communautés académiques à la réflexion.

________________________________

De même que l’invention de l’imprimerie au XVe siècle a marqué un tournant décisif pour  la diffusion des idées et l’essor des sciences, la « révolution numérique » de la fin du XXe siècle a transformé radicalement les modalités d’accès aux savoirs et de diffusion des connaissances. Aujourd’hui, se profile une génération mutante, dont Michel Serres fit le portrait dans un discours prononcé à l’Académie française le 1er mars 20111, qui aura tôt fait de reléguer aux oubliettes le monde de l’analogique et des supports physiques de mémoire qui faisaient la richesse de nos bibliothèques et archives. 

Aux contenus numérisés stockés sur serveurs, ou dans les « nuages », se sont ajoutés les contenus « nés numériques » ainsi qu’un mode nouveau de publication et consultation par le réseau public du World Wide Web. 

C’est dans ce contexte de dématérialisation des contenus, de mutations – tant techniques, qu’économiques et sociétales —, de leurs modes de diffusion et consommation, que se posent avec une acuité croissante les questions de collecte, de sauvegarde et de préservation pour un accès pérenne à ce patrimoine inédit.

LE WEB ARCHIVÉ

Dans cette logique, l’archivage du Web est très tôt apparu comme un enjeu essentiel pour la préservation de la mémoire du XXe puis du XXIe siècle. C’est un visionnaire, humaniste militant, qui le premier en a saisi l’urgence. En 1999 Brewster Khale, ingénieur diplômé du MIT (Massachusetts Institute of Technology) et dirigeant de la société d’informatique Alexa, vend au site de commerce en ligne Amazon le moteur d’archivage qu’il a développé afin de financer l’essor de sa fondation créée en 1996. Internet Archive, à l’image de l’antique Bibliothèque d’Alexandrie, a vocation à devenir la « bibliothèque universelle du Web » et vise à conserver et rendre accessible à tous toute la mémoire du Web mondial2. Pour mieux souligner l’envergure et l’enjeu de l’entreprise, une archive miroir d’Internet Archive est aujourd’hui installée à la nouvelle Bibliothèque d’Alexandrie3. Depuis peu, le quartier général de la fondation est situé dans une ancienne église sur Funston Avenue à San Francisco, tandis que les 2 PetaBytes de l’archive du Web compressée sont stockés dans la fameuse Petabox à Santa Clara (Californie)4

L’ambition de celui qui se présente souvent comme un bibliothécaire5, a rapidement fait des émules. Afin de l’accompagner dans cette mission universelle, une poignée de bibliothèques nationales, dont la BnF, décident en 2003 de fonder un consortium entièrement tourné vers les enjeux et problématiques de collecte et préservation du Web. Aujourd’hui, au sein de l’IIPC6, une quarantaine d’institutions – pour beaucoup des bibliothèques nationales, mais aussi des bibliothèques universitaires, des archives nationales ainsi que l’Ina – travaillent ensemble à la préservation du Web mondial pour en garantir l’accès pérenne, chacune selon ses moyens et son périmètre de prédilection, souvent encadrée par des législations nationales. 

Ce partage d’une activité patrimoniale entre des institutions multiples, dans des cadres juridiques pluriels, pour un média dont les contours abolissent largement les frontières nationales semble relever du paradoxe. Pourtant, c’est assurément une approche moins absurde et plus féconde qu’il n’y paraît car les expertises conjuguées de chacun, la répartition de périmètres précisément circonscrits ne peuvent que nourrir les pratiques et finalement garantir la richesse des collections et la complémentarité des archives constituées.

POURQUOI L’INA ?

Riche des collections nationales de la radio et de la télévision, l’Ina, créé en 1974 est, depuis 1992, l’organisme dépositaire des programmes diffusés par ces medias de masse, dont on sait qu’ils ont contribué à écrire certains pans de l’histoire depuis le milieu du XXe siècle. Ce patrimoine inscrit sur des supports fragiles a profité des avancées technologiques permises par le numérique quand l’Institut a engagé à la fin des années 1990 un plan de sauvegarde et de numérisation d’envergure afin de préserver des contenus menacés de disparition. 

Parallèlement, les mutations induites par le numérique ont eu un impact fondamental dans le secteur de l’audiovisuel. L’avènement du Web 2.0 et la concurrence de  nouveaux entrants  « pure players » du Web, avec leurs cortèges d’UGC (User Generated Content, ou « contenu généré par les utilisateurs »), VàD (vidéo à la demande) et autres Smads (services de médias audiovisuels à la demande) ont réorienté les usages et pratiques de consommation de l’audiovisuel7. Aujourd’hui, la migration en ligne des contenus produits et diffusés par les opérateurs « historiques » oriente aussi leurs stratégies économiques et éditoriales vers ce nouvel horizon. 

Dans ce contexte, l’Ina, afin d’assurer la cohérence et la continuité de ses collections, a entrepris dès 2001 de développer des dispositifs de collecte et stockage des sites de médias audiovisuels, des sites qui enrichissent ou documentent les contenus de ces médias — comme les sites officiels de programmes mais aussi les blogs ou sites de fans essentiellement consacrés aux programmes de la radio ou de la télévision —,et des sites des services de médias audiovisuels à la demande, autrement désignés sous le nom de Smads8. La collecte de ces sites représente, en avril 2012, 9 254 sites, plus de 13 milliards de versions d’URL et une archive de 1.43 Petaoctets  qui dédupliquée et compressée est réduite à 129.4 To.

Inscrite dans la Loi Dadvsi (Titre IV) de 2006 et confirmée par le décret d’application du 19 décembre 2011, la responsabilité de l’Ina9 à collecter et préserver ces contenus au titre du Dépôt légal, pour les rendre accessibles à des fins de consultation dans un contexte d’étude et de recherche, élargit les champs d’investigation et d’analyse de « l’académie ».

À L’ÉPREUVE DES CHERCHEURS

Pour mieux comprendre et accompagner les pratiques des chercheurs qui fondent leurs travaux sur des sources accessibles en ligne, dans la tradition des ateliers de recherche méthodologique créés pour suivre les usages à partir des sources de la radio et télévision, l’Ina a ouvert en 2009 des ateliers axés sur les usages de recherche du Web et de son archive10
Car, en effet, si nombreux sont les projets de recherche, thèses, rapports qui témoignent de la nécessité de considérer les ressources numériques natives et celles issues du Web, il n’en demeure pas moins que des enjeux scientifiques, méthodologiques, épistémologiques, exigent une réflexion collective au-delà des approches strictement disciplinaires ou professionnelles. 

En ce sens, les réponses à une enquête en ligne, « Un web archivé pour quoi faire ? »11, menée entre le 5 et le 30 mai 2011 auprès de réseaux de chercheurs, ont permis de mieux cerner leurs attentes. Au travers des 123 questionnaires dépouillés, il apparaît clairement que les champs disciplinaires concernés par l’usage d’un Web archivé s’inscrivent dans les nombreuses disciplines des sciences humaines et sociales, leurs besoins et questionnements rejoignant néanmoins ceux des sciences et technologies de l’information et de la communication. 

Au sein de ces grands blocs disciplinaires, les domaines concernés sont variés, sciences politiques, « media » ou « cultural studies », histoire, anthropologie, ingénierie des connaissances ou linguistique…, pour la plupart engagés dans des approches transdisciplinaires telles que les définit le « Manifeste des Humanités numériques »12, né en 2010 de la conscience des bouleversements induits par le numérique pour la production et la diffusion des savoirs. 

Les orientations d’étude et de recherche sur le Web peuvent renvoyer à l’identification ou à la conservation de sources, au repérage et au suivi d’éléments d’information, à des techniques ou pratiques sociales, ou à ce qui désormais ressemble bel et bien à une culture. 
Quelle que soit leur approche, les chercheurs s’accordent en tout cas pour souligner l’instabilité du média et la volatilité des données publiées, la difficulté de traiter des dispositifs pluriels et des données hétérogènes en croissance exponentielle. Ils insistent sur la dimension exploratoire, le besoin d’outils et de techniques pour l’analyse et l’interprétation, et s’interrogent encore sur la légitimité des sources en terme de diffusion des résultats de recherche13
Si quelques uns de ces paramètres peuvent aussi constituer des obstacles pour la consultation d’un Web archivé, certains sont néanmoins levés par l’archive publique qui invente des pratiques nouvelles à la lumière de fondamentaux immuables : authenticité, intégrité et fiabilité. 

Comme le soulignait Antoine Prost : « C’est la question qui construit l’objet historique en procédant à un découpage original dans l’univers sans limite des faits et des documents possibles »14, et ce postulat qui vaut pour l’histoire s’applique à la plupart des disciplines. Il est en effet difficile de considérer l’archive en dehors d’une problématique précise ou de questionnements spécifiques, même si les modalités d’accès et d’analyse du Web archivé sont à plus d’un titre expérimentales et susceptibles d’évolution au fil des usages. 

C’est pourquoi, parallèlement à la recherche et au développement de dispositifs innovants (fouilles de données, visualisation) pour exploiter des données et contenus qui se caractérisent par leur « formidable plasticité »15, il semble pertinent de prendre en considération des méthodes et pratiques disciplinaires éprouvées pour fonder des outils d’appropriation et d’analyse critique. 

Nous ferons ici le choix d’en référer plus précisément à la position de l’historien face à l’archive ; parce que le Web est un média de « traces », son archivage ne peut que répondre aux préoccupations ontologiques de l’historien qui s’appuie sur l’ensemble des traces héritées du passé pour les constituer en documents afin de les interroger. Dans son « Apologie pour l’histoire », Marc Bloch interrogeait d’ailleurs cette distinction entre la trace et le document : «  Qu’entendons nous en effet par « documenta » sinon une trace, c’est-à-dire la marque, perceptible aux sens, qu’a laissée un phénomène lui même impossible à saisir »16
La tâche de collecte des traces éparses et volatiles déposées sur le Web à laquelle s’attachent désormais les institutions patrimoniales rejoint le fameux « contrat de vérité » qui guide l’investigation historique et lie l’historien à son lecteur, garantissant l’authenticité de ce qui fonde son discours, sources à l’appui, tandis que les indications de datation et la documentation contextuelle fournissent des éléments pour la critique externe des sources17.

REPENSER L’ARCHIVE POUR LE WEB ?

Par la dissociation entre le support et son contenu, le numérique a entraîné la disparition de la notion d’original et, in fine, celle de support qui fondait les principes et pratiques de l’archivistique. Les problématiques de l’archivage numérique liées aux enjeux de préservation et lisibilité pérennes font l’objet d’une littérature savante abondante18. Nous nous attacherons davantage ici à souligner, parmi les singularités du Web, celles qui renouvellent les paradigmes gouvernant les pratiques de l’archivage et amènent à les reconsidérer. 
Nous affirmerons, en liminaire, que l’archivage du Web par des institutions patrimoniales prolonge naturellement le rôle qu’elles jouent dans la constitution de réserves de savoirs et la restitution « neutre » et organisée des connaissances, garantissant par là même le recours à la source, fondement de toute démarche scientifique. 

Comme il a été précédemment souligné, ce sont l’instabilité du Web et la volatilité de ses contenus qui, même sans le temps long de l’histoire, fondent le recours à l’archive et en réclament une possible « lecture » en différé. Force d’ailleurs est de constater que la précarité des liens, la disparition plus ou moins rapide de certains URLs, gagnent la production scientifique et académique de plus en plus riche de références à des pages ou contenus publiés en ligne. 

Toutefois, alors qu’une archive est traditionnellement constituée de documents dont la valeur d’usage n’est plus avérée, sélectionnés, organisés dans des fonds précisément identifiés selon des critères préalablement arrêtés, l’archive web se construit « au fil de l’eau », par la collecte automatique de contenus qui n’ont, pour partie, pas perdu leur valeur d’usage et, à la différence de la radio ou de la télévision, ne proviennent pas d’un flux temporel linéaire. C’est pourquoi, coller au plus près à la fréquence de mise à jour des pages, ajuster à la taille des sites les profondeurs de collecte par les robots, assurer une veille permanente pour suivre l’apparition des contenus, leur évolution, ou même anticiper leur disparition, et travailler en relation étroite avec la communauté académique sont des priorités pour la constitution de collections qui, à défaut d’être exhaustives, s’efforcent de répondre le mieux possible aux exigences de recherche.

« Le chewing gum19 et le gravier », c’est l’image que proposait Louise Merzeau lors d’une intervention sur la construction du savoir et les nouvelles formes d’éditorialisation20, pour présenter deux des propriétés du Web que sont la granularité et l’interconnexion.
Cette inflation et massification des contenus publiés, leurs fragmentation, propagation et dématérialisation engagent d’ailleurs une rupture épistémologique à la fois pour l’archiviste et le chercheur qui considèrent désormais des « ressources » ou des « données » davantage que des documents. 

Définir une unité documentaire sur le Web est d’ailleurs loin d’être évident, là encore les « documents » ne sont pas figés, les URLs ou fichiers constituent des unités pour le stockage et, si le site peut faire l’objet d’une description documentaire, des œuvres telles que les web documentaires, les web fictions, ou encore les pages profils des utilisateurs de réseaux sociaux sont autant de ces objets d’un nouveau type qui imposent de redéfinir l’approche documentaire. 
D’ailleurs, de par les volumes collectés, la nature dynamique du média et la multiplicité des possibles unités documentaires, les pratiques ancestrales d’information catalographique, bibliographique, archivistique ou documentaire de structuration des fonds peuvent se  révéler caduques et inopérantes. 

Ce sont les métadonnées et index automatiquement constitués qui renseignent les contenus et en permettent l’accès direct. Quand elle est disponible21, l’indexation « full text » (plein texte) du Web archivé assure d’ailleurs une neutralité des réponses et, par là même, offre une garantie au chercheur en même temps qu’un contrepoids à la substitution de la mémoire collective par les monopoles industriels du Web mondial. Notoires et souvent contestées, les stratégie de « ranking »  des moteurs de recherche22 servent essentiellement des intérêts commerciaux, tandis que le classement des réponses à une requête « full text » dans l’archive ne fonctionne pas « à l’applaudimètre », ne tient pas compte de la notoriété des sites ou du nombre de liens qui pointent vers tel ou tel URL, encore moins de la navigation contextuelle des usagers, du profilage des comportements ou de ce que John Battele a désigné comme une « base de données d’intentions humaines »23. Les critères de pertinence pour la hiérarchie des réponses renvoient au nombre d’occurrences et à la place des mots dans la structure éditoriale du texte. Ces priorités, si elles peuvent être sujettes à discussion, garantissent en tous cas une relative neutralité des réponses, qui contribue à fonder un patrimoine à usage scientifique et à perpétuer un espace public des savoirs à l’heure numérique.

La participation des archives du Web à ce nouvel espace des savoirs et des connaissances ouvre des chantiers d’envergure tant pour les archivistes que les chercheurs. Les attentes portent sur deux fronts, permettre l’intelligibilité et garantir l’authenticité et la fiabilité des données conservées. Les pratiques sont encore balbutiantes et s’enrichissent du dialogue et des échanges suivis entre usagers actuels ou potentiels et archivistes du Web. 
Dans un article éclairant24, Marie-Anne Chabin invoque et retrace l’histoire d’une discipline ancienne pour proposer des pistes méthodologiques d’analyse et critique des contenus nativement numériques : la diplomatique, science auxiliaire de l’histoire, négociera-t-elle aussi le virage numérique pour accompagner les nouvelles pratiques de recherche à partir du Web et de son archive ? 

Claude Mussou, responsable du dépôt légal du Web à la direction des Collections de l’Ina

Mise en ligne : juin 2012

________________________________

1. Michel Serres, « Petite Poucette. Les nouveaux défis de l’éducation », discours prononcé au Palais de l’Institut, Paris, 1er mars 2011 (consulté le 30 mars 2012).

2. Voir le site Internet Archive : Digital Libary of Free Books, Movies, Music &Wayback Machine.

3. Voir le site Bibalex.org : International School of Information Science

4. Voir Internet Archive : Petabox

5. Voir sa biographie sur Wikipedia: Brewster Kahle, Wikipedia.org.

6. L’International Internet Preservation Consortium.


7. Selon Médiamétrie, en septembre 2011, la France comptait 28 millions de « vidéonautes », c'est-à-dire d'internautes ayant regardé au moins une vidéo sur un écran d'ordinateur. Au classement des sites Internet les plus populaires, les plateformes d'hébergement de vidéos sont suivies de près par celles des chaines de télévision. YouTube est sur la première marche du podium, devant Dailymotion et TF1 (via la plateforme WAT).

8. « Est considéré comme service de médias audiovisuels à la demande tout service de communication au public par voie électronique permettant le visionnage de programmes au moment choisi par l'utilisateur et sur sa demande, à partir d'un catalogue de programmes dont la sélection et l'organisation sont contrôlées par l'éditeur de ce service », CSA (Loi du 30 septembre 1986 modifiée par la Loi du 5 mars 2009).

9. Cf. la Loi n° 2006-961 du 1 août 2006 relative au droit d'auteur et aux droits voisins dans la société de l'information (Version consolidée au14 juin 2009, Légifrance), dont le titre IV étend le champ d’application du dépôt légal à Internet. Pour l’exercice de la mission de dépôt légal de l’Internet, le législateur a désigné deux institutions dépositaires. Tandis que la BnF assure annuellement des collectes larges du domaine français, l’Ina se concentre sur un périmètre de sites en rapport avec son activité patrimoniale et les archives depuis le 7 février 2009. Ce périmètre de sites en rapport avec le secteur des medias audiovisuels est enrichi par un travail continu de veille et d’identification de sites pertinents (9198 au 10 avril 2012).

10. Voir le site : Ateliers – Dépôt légal du Web.

11. Voir « Un Web archivé, pour quoi faire ? », enquête en ligne effectuée entre le 5 et le 30 mai 2011, Ateliers Dépôt légal du Web à l’Ina, saison 2010-2011. 

12. Voir : « Manifeste des Digital humanities », ThatCamp, Paris, 18-19 mai 2010. 

13. Pour une meilleure adéquation des activités d’archivage du Web et des besoins des chercheurs en SHS un rapport prospectif, Web Archives: The Future(s), commandé par l’IIPC a été publié en juin 2011 par des chercheurs de l’Oxford Internet Institute, qui propose plusieurs scenarii d’évolutions des pratiques et dispositifs d’archivage et des usages corrélés de l’archive. 

14. Antoine Prost, « Douze leçons pour l’histoire », Paris, Gallimard, coll. « Folio », 1975, p. 100.

15. Selon les termes de Nicolas Auray  dans son intervention de l’Atelier Dépôt légal du Web du 17 février 2012

16. Marc Bloch, « Apologie pour l’histoire ou Métier d’historien », PUF, Paris, 1949.

17. D’après les interventions d’Évelyne Cohen, Maryline Crivello, Sophie Gebeil dans les ateliers.

18. Bruno Bachimont, « Archivage audiovisuel et numérique : les enjeux de la longue durée », cours à l’Ebsi, Université de Montréal, (consulté le 2 avril 2012).

19. En référence à un texte de Dominique Boullier qui compare le Web à « un chewing gum qui n’a ni centre, ni intention mais piège celui qui se laisse absorber sans qu’il soit question d’y trouver des repères ou des prises pour s’en sortir. », in Franck Ghitalla, Dominique Boullier, Pergia Gkouskou-Giannakou, Laurence Le Dovarin, Aurélie Neau, « L'Outre-lecture : manipuler, (s') approprier, interpréter le Web », Paris, BPI-Centre Georges Pompidou, 2003.

20. Louise Merzeau, Claude Mussou, « Archives et constitution du savoir », in Séminaire
« Nouvelles formes d'éditorialisation : constitution du savoir et apprentissage »s, sous
la direction de Marcello Vitall-Rosati, Inha, décembre 2010.

21. L’archive web de l’Ina est indexée full text, ainsi les modalités d’accès à l’archive peuvent se compléter — interrogation par URL, par requêtes croisées dans les champs documentaires, par nom de site ou  par requête full text — et enrichir son appréhension.

22. Voir « Optimisation pour les moteurs de recherche », Wikipedia.org. 

23. John Battele, La Révolution Google Comment les moteurs de recherche ont réinventé notre économie et notre culture, Eyrolles, Paris 2006.

24. Marie-Anne Chabin, « Peut-on parler de diplomatique numérique ? », 2011 (consulté le 2 avril 2012). L’article paraîtra dans le n° 31 de la revue Médium.