2 Po de données du web français archivés par la BNF depuis 2002

Salle de consultation à la BNF [Photo Thierry Ardouin]

La Bibliothèque nationale de France annonce avoir atteint 2 Po (Peta octets) de données du web français archivées dans le cadre de sa mission de conservation patrimoniale depuis 2002. Ces contenus sont mis à disposition des chercheurs par la bibliothèque. En 2024, les collectes ciblées porteront sur les Jeux olympiques et les élections européennes.

Deux collectes d’urgence avant la fermeture des plateformes

En 2023, la BNF a collecté 6 milliards d’URL du web français en 2023. La BNF réalise une collecte large annuelle et des collectes ciblées qui ont servi à sauvegarder 4,4 milliards d’URL, auxquelles s’ajoutent deux collectes « d’urgence » de plateformes ayant fermé à l’été 2023, ce sont les skyblogs et les pages personnelles Orange, pour un volume de 1,9 milliard d’URL.

La BNF archive les sites mis en ligne à partir de 1996 et s’applique à toutes les publications du web français

Le dépôt légal de l’internet a été amorcé par la BNF en 2002, et archive des sites mis en ligne à partir de 1996. Il s’applique à toutes les publications du web français. Cela s’inscrit dans la continuité du dépôt légal des documents déjà collectés (livres, journaux, revues, disques, vidéos et jeux vidéos…),

La BNF réalise des « moissonnages » de l’internet français à l’aide de logiciels d’archivage automatique en ligne, une fois par an et aussi à l’occasion de collectes ciblées, en lien avec les collections thématiques et spécialisées de ses départements ou en lien avec l’actualité nationale et internationale comme la guerre en Ukraine, les élections ou les Jeux olympiques.

Impossible d’archiver Twitter devenu X depuis juin 2023

La BNF poursuit l’intégration de nouveaux contenus tels que les réseaux sociaux, YouTube, Instagram, et TikTok ou les podcasts. Le passage de Twitter à X et les nouvelles modalités d’accès associées à ce réseau social ne rendent plus possible sa collecte par les robots de la BNF depuis juin 2023.

L’archivage vise à assurer la meilleure représentativité possible du web français

Cet archivage ne prétend pas à l’exhaustivité compte tenu des masses de données en jeu. Il vise à assurer la meilleure représentativité possible du web français. Le dépôt légal de l’internet garantit le respect du droit de la propriété intellectuelle. Il donne accès aux collections archivées à des fns de recherche et à des lecteurs accrédités, exclusivement dans les emprises de la BNF et celles de ses partenaires en région et en outre-mer.

L’archivage est réalisé selon les recommandations de la Cnil relatives à la protection des données personnelles. La collecte annuelle 2023 s’est déroulée du 18 octobre au 5 décembre et a porté sur 5 731 808 domaines de départ à raison de 2 200 URL collectées par domaine. 3 173 362 231 URL ont ainsi été sauvegardées.

Sauvegarde de Skyblogs, l’un des premiers réseaux sociaux


Deux collectes d’urgence en 2023 ont préservé les contenus de deux plateformes considérées comme majeures qui avaient annoncé leur fermeture en milieu d’année. Il s’agit de Skyblogs, l’un des premiers réseaux sociaux lancé en France en 2002. il mettait gratuitement à disposition de ses membres un espace numérique personnalisé. Cette collecte a duré 85 jours, du 28 août au 17 novembre, et a sauvegardé 12 607 289 blogs pour un total d’URL collectées s’élevant à 1 873 993 846 (dont 1 093 089 908 images et 729 475 996 pages web).

La collecte des pages personnelles Orange concerne l’espace qui permettait aux clients d’Orange de créer un ou plusieurs sites internet de manière assistée ou autonome. Cette collecte a eu lieu du 20 novembre au 7 décembre et a permis la sauvegarde de 298 188 sites et 26 094 982 URL.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *