De la culture papier à la culture numériqueSociété/Politiqueune

Une simple adaptation ? L’héritage du dépôt légal face à la mutation numérique

Print Friendly, PDF & Email

Clément Oury – Chef du service du dépôt légal numérique (BnF)

La diffusion des technologies numériques, et notamment le rôle croissant des applications et des services de l’Internet, ont radicalement changé notre façon d’accéder, de produire, de diffuser et de partager des produits culturels – modifiant ainsi notre rapport à la culture. Il s’agit d’un bouleversement fondamental, de trois points de vue. On peut tout d’abord remarquer la rapidité du phénomène : le Web a une petite vingtaine d’années, et son utilisation grand public est plus récente encore. Il faut ensuite souligner sa dimension universelle, c’est-à-dire sa capacité à toucher tous les acteurs (auteurs, éditeurs, diffuseurs, « consommateurs », analystes, chercheurs) et tous les domaines (musique, cinéma, livre, production scientifique…). Il y a enfin son caractère irrémédiable. Il n’est guère probable que nous puissions assister à un mouvement inverse ; l’utilisation du numérique ne relève pas d’un effet de mode mais bien d’un mouvement de fond.

Les institutions patrimoniales ont dû, comme leur public, s’adapter à ce nouvel environnement. Archives, bibliothèques et musées – et notamment la Bibliothèque nationale de France – s’y sont investis en numérisant leurs collections, en expérimentant de nouveaux modes d’accès, en promouvant des modes alternatifs de communication avec leurs usagers sur les réseaux sociaux. Cependant, l’objet de cet article n’est pas de passer en revue ces différentes initiatives, mais d’étudier et d’interroger les mutations de la culture papier à la culture numérique au prisme d’un exemple extrême : celui des mutations du dépôt légal à la BnF.

Le dépôt légal : de la naissance de l’imprimerie à l’invention du Web

Le dépôt légal, édicté par François Ier, est l’obligation pour chaque producteur de contenu culturel (imprimeur, éditeur) de déposer des exemplaires de ses travaux auprès de la bibliothèque royale, puis nationale. Cette disposition était elle-même une réponse à un autre bouleversement majeur dans le domaine de la culture : l’invention et le développement de l’imprimerie[1]. Face à la masse des documents, à la fois disponibles en plus grand nombre et produits de façon uniforme, il s’agissait de s’assurer que le pouvoir royal était capable de collecter et de conserver tout ce qui était produit dans le royaume, « pour avoir recours audits livres, si de fortune ils étaient cy après perdus de la mémoire des hommes » – même si on peut aussi soupçonner en cette disposition une volonté d’assurer la surveillance de l’édition, à un moment de tension politique et religieuse exacerbée par la montée du protestantisme.

Le dépôt légal s’est étonnamment bien adapté aux mutations de la culture. Il a d’abord été adopté dans un grand nombre de pays, sous différentes variantes ; il a surtout été progressivement étendu aux différents modes de production, au fur et à mesure qu’ils voyaient le jour. Ainsi, en France, il s’est automatiquement appliqué à la presse et aux journaux lorsqu’ils sont apparus dans la première moitié du xviie siècle. Quelques décennies plus tard, on a jugé que la diffusion de la culture ne passait pas seulement par le texte mais aussi par l’image, et le dépôt légal s’est donc étendu aux estampes. Insatiable, le dépôt légal s’est ensuite intéressé aux partitions et à la musique, puis à la photographie, aux disques, aux vidéos ; enfin, en 1992, aux logiciels ainsi qu’à la radio-télévision (cette dernière mission ayant été confiée non pas à la BnF mais à l’Institut National de l’Audiovisuel).

L’exemple du dépôt légal est donc intéressant à plus d’un titre : tout d’abord, il s’agit d’une institution ancienne mais qui a subi de multiples évolutions et extensions au fil du temps ; ensuite, en fonctionnant selon une logique de support, elle contraint le législateur et les dépositaires à définir précisément les documents dont ils ont la charge ; enfin, elle concerne à la fois les producteurs de contenus, chargés de s’acquitter de leurs obligations de dépôt, les institutions patrimoniales dépositaires, et les lecteurs qui utilisent leurs collections.

À la fin des années 1990, lorsque l’Internet a commencé à devenir l’un des principaux vecteurs de production et de diffusion culturelles, il est apparu nécessaire d’adapter le dépôt légal à l’univers numérique. Le problème qui s’est  posé d’emblée était celui du degré de continuité et de conformité vis-à-vis des logiques « traditionnelles » du dépôt légal sur support. Fallait-il simplement considérer l’Internet comme un média supplémentaire, auxquelles devaient s’appliquer toutes les règles préexistantes, ou bien était-on face à un nouveau paradigme, contraignant à repenser le fonctionnement, la logique, voire l’esprit du dépôt légal ? Ce problème s’est posé à la fois au législateur, chargé d’adapter la loi, et aux professionnels chargés de la mettre en œuvre.

C’est apparemment le principe de continuité qui a prévalu, tout d’abord dans l’appareil juridique ayant mis en place le dépôt légal de l’Internet. La loi (votée dans le cadre de la loi DADVSI, en août 2006) et son décret d’application (paru en décembre 2011) ont été intégrés dans le code du patrimoine, aux côtés des autres dispositions relatives au dépôt légal[2]. Prudemment, ces textes évitent de parler de l’Internet ou du Web : font l’objet d’un dépôt légal les « signes, signaux, écrits, images, sons ou messages de toute nature faisant l’objet d’une communication au public par voie électronique ». Le législateur n’a pas voulu adopter une définition technique – susceptible de devenir rapidement obsolète –, mais une approche large : tout ce qui circule en ligne et n’a pas le caractère de correspondance privée peut faire l’objet d’un dépôt. C’est en cela qu’on retrouve un autre élément fort de continuité : ce dépôt légal ne repose sur aucun jugement de qualité. Ce n’est ni au législateur, ni aux établissements dépositaires de décréter ce qui mérite d’entrer au patrimoine national – et de fait, la valeur actuelle des collections du dépôt légal sur support réside justement en ce qu’elles ont permis de conserver des documents représentatifs d’une culture populaire que les autres bibliothèques n’avaient pas jugé utile d’acquérir ou de conserver. Troisième continuité dans le choix des établissements dépositaires : c’est à l’Institut national de l’Audiovisuel et à la Bibliothèque nationale de France qu’est revenue cette mission. L’INA a eu en charge les sites relatifs à la radio et la télévision, la BnF s’est vue confier tout le reste de l’Internet « français »[3].

Une approche pragmatique de la continuité entre papier et numérique

Les professionnels de la BnF se trouvent confrontés à un champ particulièrement vaste : plusieurs millions de sites, dont le contenu est susceptible de changer en permanence. L’exhaustivité – objectif visé par le dépôt légal des documents sur support – est désormais impossible. La recherche de continuité passe donc par une logique de représentativité : à défaut de pouvoir tout collecter, tout le temps, il s’agit de constituer des collections qui soient le miroir de ce qui était disponible sur l’Internet français à un moment donné.

A cette fin, la BnF conjugue différentes sortes de collectes, toutes effectuées par des robots d’archivage automatique – nous y reviendrons. Il y a d’abord, une fois par an, une vaste opération de capture de l’ensemble des sites Internet en .fr, soit deux millions de sites environ[4]. Il s’agit de la campagne d’archivage la plus conforme à l’esprit du dépôt légal : massives et systématiques, ces collectes font entrer dans les magasins numériques de la BnF les publications en ligne des ministères comme les sites de recettes de cuisine, les blogs d’universitaires comme les forums des passionnés de musique métal – de même que les sudokus, les romans-photos et les jeux de la dernière console Sony côtoient les prix Goncourt et les publications du CNRS dans ses magasins physiques.

Mais ces vastes opérations arbitraires ne sauraient couvrir suffisamment l’ensemble de l’Internet. Les sites trop volumineux, ou qui ne peuvent se contenter d’un archivage réalisé une fois l’an, y sont mal pris en compte. C’est là que les humains viennent au renfort des robots, et que la compétence scientifique remplace l’arbitraire de la machine. Il existe, au sein de la BnF et de bibliothèques régionales partenaires[5], un réseau d’une centaine d’agents participant à la sélection de sites, dans leur domaine de compétence respectif[6]. Ceux-ci repèrent des sites de référence, et indiquent à quelle fréquence la BnF doit les collecter. C’est ainsi par exemple qu’a été constitué un échantillon de sites d’actualité que la Bibliothèque capture tous les jours  (presse nationale et régionale, portails de news Internet…) ; ou encore un ensemble de sites de reporting lancés par les grandes entreprises du CAC40. Parfois, les sites sont sélectionnés en fonction de leur rapport à un événement. On pense bien entendu à l’archivage des sites de la Net-campagne des élections présidentielle et législatives de 2012[7]. La Bibliothèque documente également des événements culturels, ou sportifs comme les Jeux Olympiques de Londres.

Cette articulation entre des captures massives et des approches plus ciblées ne représente pas une véritable rupture vis-à-vis des pratiques antérieures de l’établissement. La Bibliothèque collecte depuis le xixe siècle les matériels de campagne des candidats ; elle a recueilli les tracts de Mai 68 et même des impressions clandestines de la Résistance. Les chercheurs s’intéressant à la vie culturelle des siècles derniers peuvent aujourd’hui y consulter les programmes et affiches des salles de spectacle de Paris ou des régions. Ces documents, largement diffusés en leur temps, sont souvent aujourd’hui des pièces uniques. De même, l’impression de permanence et de stabilité qu’offre l’Internet est trompeuse[8]. La plupart des sites de salons ou de festivals ne conservent pas d’archives – même le Salon du Livre !, et font disparaître leurs programmes des années antérieures. Le phénomène est encore plus marqué dans le monde politique : on a vu fréquemment des candidats fermer leurs blogs au lendemain même d’un échec électoral. Les sites de l’État ne font pas exception à cette règle. Les sites de l’Élysée ou des ministères peuvent radicalement changer à l’issue d’une nouvelle élection ou d’un remaniement[9]. Certes, les contenus vont souvent demeurer, relégués dans les profondeurs du site, mais l’apparence éditoriale du site, c’est-à-dire la façon dont les représentants de l’État se donnent à voir, aura disparu. Consciente de la volatilité de ces contenus, la BnF se montre soucieuse de pouvoir capturer dans l’urgence des sites nés à l’occasion d’événements inattendus. Elle a ainsi archivé des sites concernant le Printemps arabe, notamment ses répercussions au sein de la société française. Ce fonds a justement été présenté au public lors de la récente exposition « La presse à la une, de la Gazette à Internet », consacrée aux collections de presse de la BnF depuis le xviie siècle[10].

Nous venons de voir que les collections du dépôt légal devaient restituer aussi bien les contenus que les formes éditoriales sous lesquelles ceux-là étaient présentés. Les interfaces d’accès aux archives permettent donc aux chercheurs de naviguer dans les sites capturés comme ils auraient pu le faire au moment où ils ont été capturés. Ainsi, on peut se promener dans l’archive comme sur le Web, en cliquant de lien en lien. Mais à cette dimension spatiale s’ajoute une dimension temporelle, puisqu’il est possible, pour un site ou une page Web donnés, d’en retrouver différentes occurrences à différentes dates – à condition, bien sûr, que l’établissement ait collecté les données en temps voulu.

Cette réflexion sur l’accès aux collections nous amène à évoquer un dernier élément de continuité – même si celui-ci est plus difficile à accepter : les restrictions posées à leur mise à disposition. En effet, la loi précise explicitement que la consultation des archives de l’Internet, comme les autres collections de dépôt légal, est réservée aux espaces « recherche » de la BnF[11]. Si cette limitation se justifie pleinement pour les collections sur support, notamment en raison des exigences de conservation, il est plus difficile de la comprendre pour une technologie, le numérique, reproductible à l’infini, et pour un vecteur, le Web, par essence ouvert et universellement disponible. En contraignant les chercheurs à venir dans ses salles de lecture, la BnF aurait-elle perdu le sens de l’Histoire ? En fait, le respect de la propriété intellectuelle, ainsi que les exigences de protection des données personnelles, expliquent suffisamment cet état de fait. Si les droits de collecter et de conserver accordés aux établissements dépositaires sont importants, ceux de diffuser n’en sont que plus restreints – mais l’usage de ces collections patrimoniales doit se penser sur la longue durée.

De la publication à la conversation, des documents aux données

La recherche de continuité est, on le voit bien, essentielle. Utiliser le dépôt légal pour organiser la conservation de la mémoire de l’Internet, ce n’est pas seulement profiter d’un cadre légal et institutionnel favorable. Cela permet d’inscrire les collections constituées dans un contexte intellectuel et historique plus vaste ; cela permet d’affirmer que les contenus produits sous forme numérique font partie de notre culture commune. Cependant, il était illusoire de croire que cette extension pourrait être une simple transposition à l’identique des pratiques du dépôt légal sur support.

Tout d’abord, la publication en ligne remet en cause un certain nombre de notions et de rôles qui structuraient l’écosystème des industries culturelles. Si le modèle de l’éditeur ne disparaît pas partout sur l’Internet, à tout le moins il n’est plus prédominant. La notion même d’auteur devient plus floue, avec les diverses formes d’écritures collaboratives et la diffusion des pratiques de récupération et de mash-ups. La conséquence la plus concrète de cet état de fait, pour les établissements dépositaires, est que ceux-ci n’ont plus d’interlocuteur évident pour souscrire à leurs obligations légales. C’est pourquoi le principe de dépôt stricto sensu a été remplacé par un système de collecte en ligne. Le travail est confié à des « robots », c’est-à-dire des logiciels qui parcourent le Web en naviguant de lien en lien, et qui copient les pages et les fichiers qui leur ont été indiqués. La logique même du Web, l’hypertextualité, est ainsi mise à profit pour récupérer de façon massive des milliards de fichiers.

L’absence de filtre éditorial a également des conséquences plus profondes sur la nature même des collections constituées. Dans la mesure où tout un chacun peut mettre en ligne ses textes, ses images ou ses vidéos, la publication en ligne ressemble souvent davantage à de la conversation – et ce phénomène est apparu dès les origines de l’Internet, bien avant la popularisation des réseaux sociaux. Bien sûr, on ne s’étonnera guère que la BnF ait à cœur de capturer les blogs d’écrivains, ou leurs journaux intimes, elle qui conserve si précieusement les correspondances et autres « papiers » des auteurs des siècles passés. Mais des contenus que l’on assimilera plus volontiers à du bavardage sans conséquence qu’à une expression publique ont-ils vocation à entrer dans les fonds d’une grande bibliothèque patrimoniale ? La question prend également un tour éthique : les internautes qui publient en ligne, si l’on s’en tient à la définition juridique de la publication, ont rarement conscience de la portée de leur acte – ce qui explique le nombre de procès en diffamation ou de licenciements dus à des propos sur un blog ou une page Facebook. Lorsque la BnF a mené une étude auprès des usagers effectifs et potentiels de ses archives de l’Internet, certains se sont montrés effrayés par l’ampleur que pourrait prendre une archive de l’ensemble de l’Internet, c’est-à-dire selon certains « une archive de l’ensemble du réel », « un projet presque borgésien »[12].

Cependant, la question est d’autant moins simple que c’est justement cette partie-là de l’Internet qui est la plus susceptible d’intéresser les chercheurs. Déjà, les études en sciences politiques s’intéressent souvent davantage à la communication des candidats et des militants sur les réseaux sociaux ou les plates-formes de diffusion, que sur les sites traditionnels. C’est pourquoi la BnF a fait de l’archivage de Facebook, Twitter ou Dailymotion une priorité. Les sciences sociales disposent elles aussi, sur le Web, d’un terrain extraordinairement riche de textes, de paroles, d’opinions, dont la captation, par exemple sous la forme d’archives orales ou d’enquêtes de terrain, aurait pris sans cela un temps beaucoup plus conséquent.

Cette facilité d’accès à des sources primaires a fait émerger, dans toutes les disciplines, le phénomène du « big data ». Plutôt que d’exploiter des documents individuellement, il s’agit de considérer le corpus constitué comme un gigantesque gisement de données auquel appliquer diverses analyses d’ordre statistique, textuel ou encore topologique[13]. Il n’est pas lieu ici de s’interroger sur les avantages, les limites et la pertinence de ce genre d’études[14]. En revanche, force est de constater que la logique de collecte automatique, qui est celle du dépôt légal, rencontre les besoins d’exploitation en masse des chercheurs – ainsi, les collections de la BnF représentent plus de seize milliards de fichiers, chacune des captures annuelles du domaine .fr en ramenant un milliard supplémentaire. Cependant, la dimension temporelle du Web, l’histoire et les évolutions des phénomènes que l’on cherche à constater, sont beaucoup plus rarement étudiées par les adeptes du big data – peut-être à cause de l’impression de permanence faussement dégagée par ce média[15].

En définitive, qu’est-ce que la mission de dépôt légal, dans la continuité de laquelle elle se situe, apporte à la BnF pour collecter et conserver les publications en ligne ? La Bibliothèque en tire d’abord un cadre juridique favorable. La présence des formes de publications qui les ont précédés permet de remettre les sites archivés dans un contexte intellectuel plus large. D’autre part, l’exigence de continuité avec l’esprit du dépôt légal fournit à l’établissement une approche compatible avec l’économie du Web. Il y a d’un côté l’ambition d’embrasser une gigantesque quantité de données. De l’autre, on trouve la volonté de mieux quadriller certains espaces, plus spécialisés, choisis sur des critères de qualité scientifique, de représentativité ou d’audience. Les technologies nouvelles lui ont à leur tour fourni les outils qui lui étaient nécessaires : robots de collecte, interfaces d’accès mais aussi instruments d’analyse à grande échelle – aujourd’hui insuffisamment développés.

Dans cette volonté d’exploiter les possibilités induites par le numérique tout en ne reniant pas le substrat scientifique et documentaire sur lequel elle s’appuie, et surtout en n’altérant ni ses objectifs ni sa mission, la démarche de la BnF (tout comme celle de l’INA) ressemble aux approches prônées par le mouvement des Digital Humanities. Leur manifeste souligne en effet que si « le tournant numérique pris par la société modifie et interroge les conditions de production et de diffusion des savoirs », les humanités numériques s’appuient « sur l’ensemble des paradigmes, savoir-faire et connaissances » des Sciences humaines et sociales, des Arts et des Lettres[16].

Cependant, l’adaptation du dépôt légal à l’Internet est plus problématique lorsqu’il s’avère qu’il ne s’agit pas seulement d’un espace de publication, mais aussi d’un lieu de vie, d’échanges et de sociabilités. Si les études de type big data fascinent tellement, c’est peut-être – au-delà de l’attirance exercée par le vertige des chiffres – car elles nous donnent l’impression de saisir à très grand angle l’essence d’une organisation vivante. On comprend dès lors les difficultés que l’on peut éprouver à constituer une archive de l’Internet, quand bien même réduite à un (vaste) échantillon de l’Internet français. Le robot d’archivage s’y promène, et copie les éléments qu’il rencontre ; mais même le plus acharné et le plus systématique des photographes ne saurait nous restituer l’atmosphère d’une ville simplement en nous confiant tous les clichés qu’il aurait pu y prendre. En captant les sites, le robot logiciel les a figés, et a privé le lecteur de toute possibilité d’interaction. Les nouvelles directions que prend le Web ne devraient qu’accélérer cette dichotomie entre l’original vivant et la copie vitrifiée. L’Internet devient un espace de plus en personnalisable, où chacun éprouve désormais une « expérience utilisateur » non reproductible, dans la mesure où elle est façonnée par le type de terminal employé, les interactions avec les autres internautes ou encore les publicités ciblées. Le robot ne pourra jamais donner mieux qu’un exemple parmi d’autres de ces navigations. Comment prétendre, comme le postule le dépôt légal, donner accès à la publication telle qu’elle était originellement diffusée, quand un internaute peut naviguer sur des dizaines de sites Web sans même quitter sa page Facebook ou Netvibes ? Les institutions patrimoniales rencontrent sans doute là leurs limites – même si les archives de l’Internet représentent probablement la forme de document qui correspond le mieux à l’ambition de Michelet d’une « résurrection de la vie intégrale[17] ».


[1] Robert Darnton considère qu’il y a eu quatre « changements fondamentaux » (« fundamental changes ») dans les technologies de l’information : l’invention de l’écriture, celle du codex, la naissance de l’imprimerie et la « communication électronique ». Robert Darnton, « The Library in the New Age », The New York Review of Books, vol. 55, n°10, 12 juin 2008, en ligne : http://www.nybooks.com/articles/archives/2008/jun/12/the-library-in-the-new-age (consulté le 22 mai 2012).

[2] Code du Patrimoine, articles L131-1 à L133-1 et R131-1 à R133-1.

[3] L’Internet français est constitué, selon l’article R132-23 du code du patrimoine, de l’ensemble des services de communication au public par voie électronique « enregistrés sous le nom de domaine. fr ou tout autre nom de domaine enregistré auprès du ou des organismes français chargés de la gestion de ces noms, enregistrés par une personne domiciliée en France ou produits sur le territoire français ».

Il faut noter que si la loi, dans sa définition très générale, concerne l’ensemble de l’Internet français, les méthodes d’archivage mises en œuvre par les établissements dépositaires permettent surtout de collecter des contenus sur le Web, la principale plate-forme applicative de l’Internet. Pour plus d’informations sur le dépôt légal de l’Internet, voir http://www.bnf.fr/fr/professionnels/depot_legal/a.dl_sites_web_mod.html (consulté le 22 mai 2012).

[4] A ce jour, la BnF s’est concentrée sur l’archivage des sites en .fr, pour des raisons juridiques (un site en .fr est nécessairement français au regard du décret) et techniques (une convention avec l’AFNIC, le registre du domaine .fr, permet de disposer de la liste exhaustive des noms de domaine dans cette extension).

[5] Pour la sélection de sites, la BnF peut s’appuyer sur le réseau des Bibliothèques de dépôt légal imprimeur (BDLI). Ces établissements, qui sont généralement les bibliothèques des municipalités chefs-lieux de région, sont en charge de recevoir la production des imprimeurs de leurs régions. Les BDLI pourraient être amenées, sous certaines conditions, à bénéficier d’un accès aux collections constituées par la BnF, assurant ainsi une meilleure couverture du territoire national de métropole et d’Outre-Mer.

[6] Ce domaine peut être un champ thématique (Philosophie, histoire, sciences physiques…) ou un média particulier (cartes, vidéos en ligne…).

[7] Sur ce sujet, voir Clément Oury, « Soixante millions de fichiers pour un scrutin. Les collections de sites politiques à la BnF », Revue de la BNF, 2012/1 (n° 40), p. 84-90, en ligne : http://www.cairn.info/resume.php?ID_ARTICLE=RBNF_040_0084 (consulté le 22 mai 2012).

[8] Exemple parmi d’autres, une étude de la bibliothèque municipale de Lyon a montré que plus de 50 % des sites identifiés entre avril et juillet 2007 pour un archivage par la BnF étaient « morts ou presque » dès novembre 2007. Bibliothèque municipale de Lyon, « La Netcampagne des législatives 2007 en Rhône-Alpes : la course au Net et après », Point d’actu, en ligne : http://www.pointsdactu.org/article.php3?id_article=863&artsuite=1#sommaire_1 (consulté le 22 mai 2012).

[9] Les différentes versions du site de l’Élysée sous la présidence Sarkozy ont été analysées à de nombreuses reprises par des journalistes et des universitaires qui cherchaient à y déceler les inflexions de la communication présidentielle. La « mise aux archives » du site à l’occasion de la passation de pouvoir de mai 2012 a également été étudiée. A titre d’exemple, on peut consulter Tefy Andriamanana, « Hollande va-t-il rayer Sarkozy du web ? », Marianne2, 18 mai 2012, en ligne : http://www.marianne2.fr/Hollande-va-t-il-rayer-Sarkozy-du-web_a218509.html (consulté le 20 mai 2012).

[10] Cette exposition s’est tenue du 11 avril 2012 au 15 juillet 2012 dans la Grande Galerie du site François-Mitterrand. Voir Philippe Mezzasalma, Benjamin Prémel, Dominique Versavel, À la Une : la presse de la Gazette à Internet, Paris : Bibliothèque nationale de France, 2012, 207 p.

[11] La notion de « Bibliothèque de recherche » ne doit pas faire penser que ces espaces sont strictement réservés aux seuls universitaires. En fait, les espaces recherche sont ouverts à toute personne pouvant justifier d’un besoin d’ordre universitaire, mais aussi professionnel ou personnel, d’accéder à des collections qui ne seraient consultables qu’à la BnF. Pour plus d’informations, voir http://www.bnf.fr/fr/la_bnf/conditions_acces_tarifs/s.conditions_acces_bib_recherche.html?first_Art=non#SHDC__Attribute_BlocArticle0BnF (consulté le 22 mai 2012).

[12] Les citations (anonymes) sont tirées de Philippe Chevallier et Gildas Illien, « Les archives de l’Internet : une étude prospective sur les représentations et les attentes des utilisateurs potentiels », bnf.fr, 2011, en ligne : http://www.bnf.fr/documents/enquete_archives_web.pdf (consulté le 20 mai 2012).

[13] Dans le cas du Web, et particulièrement de données à fort degré d’hypertextualité comme les blogs, la « fouille de liens » (« link mining ») permet de dresser des cartographies d’un ensemble plus ou moins vaste de sites.

[14] Pour une approche critique du big data, voir Danah Boyd et Kate Crawford, « Six Provocations for Big Data », A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, septembre 2011, en  ligne : http://ssrn.com/abstract=1926431 ou http://dx.doi.org/10.2139/ssrn.1926431 (consulté le 22 mai 2012). Une synthèse des débats a été faite par Hubert Guillaud, « Big Data, grande illusion ? », Internet actu, 16 mai 2012, en ligne : http://internetactu.blog.lemonde.fr/2012/05/16/big-data-grande-illusion/ (consulté le 22 mai 2012).

[15] Il faut cependant noter l’existence de travaux comme le projet européen Lawa, Longitudinal Analytics of Web Archive data, destiné à analyser des corpus Web sur des périodes données (http://www.lawa-project.eu/, consulté le 22 mai 2012).

[16] Marin Dacos, Manifeste des humanités numériques, Paris, 24 août 2010, en ligne : http://tcp.hypotheses.org/318 (consulté le 22 mai 2012).

[17] Jules Michelet, « Préface de l’Histoire de France », Œuvres complètes, Paris : Flammarion, t. IV, p. 12.

Leave a reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Next Article:

0 %