L’actualité de la transformation

2 Po de données du web français archivés par la BNF depuis 2002

Salle de consultation à la BNF [Photo Thierry Ardouin]

La Bibliothèque nationale de France annonce avoir atteint 2 Po (Peta octets) de données du web français archivées dans le cadre de sa mission de conservation patrimoniale depuis 2002. Ces contenus sont mis à disposition des chercheurs par la bibliothèque. En 2024, les collectes ciblées porteront sur les Jeux olympiques et les élections européennes.

Deux collectes d’urgence avant la fermeture des plateformes

En 2023, la BNF a collecté 6 milliards d’URL du web français en 2023. La BNF réalise une collecte large annuelle et des collectes ciblées qui ont servi à sauvegarder 4,4 milliards d’URL, auxquelles s’ajoutent deux collectes « d’urgence » de plateformes ayant fermé à l’été 2023, ce sont les skyblogs et les pages personnelles Orange, pour un volume de 1,9 milliard d’URL.

La BNF archive les sites mis en ligne à partir de 1996 et s’applique à toutes les publications du web français

Le dépôt légal de l’internet a été amorcé par la BNF en 2002, et archive des sites mis en ligne à partir de 1996. Il s’applique à toutes les publications du web français. Cela s’inscrit dans la continuité du dépôt légal des documents déjà collectés (livres, journaux, revues, disques, vidéos et jeux vidéos…),

La BNF réalise des « moissonnages » de l’internet français à l’aide de logiciels d’archivage automatique en ligne, une fois par an et aussi à l’occasion de collectes ciblées, en lien avec les collections thématiques et spécialisées de ses départements ou en lien avec l’actualité nationale et internationale comme la guerre en Ukraine, les élections ou les Jeux olympiques.

Impossible d’archiver Twitter devenu X depuis juin 2023

La BNF poursuit l’intégration de nouveaux contenus tels que les réseaux sociaux, YouTube, Instagram, et TikTok ou les podcasts. Le passage de Twitter à X et les nouvelles modalités d’accès associées à ce réseau social ne rendent plus possible sa collecte par les robots de la BNF depuis juin 2023.

L’archivage vise à assurer la meilleure représentativité possible du web français

Cet archivage ne prétend pas à l’exhaustivité compte tenu des masses de données en jeu. Il vise à assurer la meilleure représentativité possible du web français. Le dépôt légal de l’internet garantit le respect du droit de la propriété intellectuelle. Il donne accès aux collections archivées à des fns de recherche et à des lecteurs accrédités, exclusivement dans les emprises de la BNF et celles de ses partenaires en région et en outre-mer.

L’archivage est réalisé selon les recommandations de la Cnil relatives à la protection des données personnelles. La collecte annuelle 2023 s’est déroulée du 18 octobre au 5 décembre et a porté sur 5 731 808 domaines de départ à raison de 2 200 URL collectées par domaine. 3 173 362 231 URL ont ainsi été sauvegardées.

Sauvegarde de Skyblogs, l’un des premiers réseaux sociaux


Deux collectes d’urgence en 2023 ont préservé les contenus de deux plateformes considérées comme majeures qui avaient annoncé leur fermeture en milieu d’année. Il s’agit de Skyblogs, l’un des premiers réseaux sociaux lancé en France en 2002. il mettait gratuitement à disposition de ses membres un espace numérique personnalisé. Cette collecte a duré 85 jours, du 28 août au 17 novembre, et a sauvegardé 12 607 289 blogs pour un total d’URL collectées s’élevant à 1 873 993 846 (dont 1 093 089 908 images et 729 475 996 pages web).

La collecte des pages personnelles Orange concerne l’espace qui permettait aux clients d’Orange de créer un ou plusieurs sites internet de manière assistée ou autonome. Cette collecte a eu lieu du 20 novembre au 7 décembre et a permis la sauvegarde de 298 188 sites et 26 094 982 URL.

Et vous, qu’en pensez-vous ?

Une idée, une réaction, une question ? Laissez-nous un mot ci-dessous.

Je réagis à cet article

Top lectures en ce moment

L’actualité de la transformation

Dossier

L'IA clé de nos besoins vitaux dans l'eau, l'électricité et le gaz

Dossier exclusif

Marchés de l’eau : l’IA générative arrive dans les réponses aux appels d’offres des collectivités

Saur, spécialiste de la distribution d’eau potable,  fait évoluer son processus de réponse aux appels d’offres des collectivités et des industriels en y injectant de l’IA géné…

Stockage de l’électricité : l’IA générative outil d’accélération clé chez Engie

Le stockage de l’électricité est un enjeu stratégique. Engie s’y attelle et mobilise pour cela l’IA générative de type RAG, c'est-à-dire basée sur le traçage des documents source. …

Nouvelle donne dans le gaz naturel : GRDF s’adapte en utilisant l’IA


GRDF, leader de la distribution du gaz naturel en France, affine sa stratégie d’IA. Il s’appuie sur des serveurs internes pour la confidentialité des données de ses clients. GRDF c…


Vous, qu’en pensez-vous ?

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter