2 mai-1 juil. 2024 Paris (France)

1. Appel général : Sujets proposés par les départements > Humanités numériques & intelligence artificielle

Les collections numériques conservées par la BnF (plus de 8 millions de documents dans Gallica, plus d'1 pétaoctet de données dans les archives du web, 2,4 millions d'auteurs dans Data.bnf.fr, etc.) sont susceptibles de faire l’objet d’analyses innovantes par les outils et les méthodes mobilisés dans le champ des humanités numériques et de l’intelligence artificielle : mise en réseau de documents, traitement automatique de la langue, fouille d’images, de textes ou de données, étude de dynamiques spatiales ou temporelles, etc., en lien avec le nouvel espace dédié du BnF DataLab sur le site François-Mitterrand. Ces méthodes n’excluent pas les approches traditionnelles de ces documents, qui se révèlent bien souvent complémentaires.

 Web littéraire, création et sociabilité en ligne en 2022

La collection « Web littéraire » présente un ensemble de 1 090 sites et pages de création littéraire francophone allant du blog amateur à la revue numérique. La collecte a eu lieu durant l'été 2022. La constitution du corpus s'est faite en collaboration avec l'équipe du laboratoire de recherche MARGE de l'Université de Lyon-3 dans le cadre du projet ANR Lifranum (littérature francophone numérique). Elle s'est appuyée sur l'utilisation expérimentale d'Hyphe, un outil d'exploration et de cartographie de corpus web, utilisé dans ce cadre pour enrichir les sélections grâce à l'exploration du réseau de liens et de citations entre écrivains.

La création littéraire en ligne a connu un véritable essor durant les années 2000 avec l'arrivée des applications et plateformes de blogging (dotclear, wordpress, etc.). Ce modèle de publication favorise l'écriture fragmentaire, ainsi que l'intégration de médias (image, son, vidéo) dans le projet littéraire. Il invite aussi à composer et à jouer avec la machine et le code informatique et brouille les frontières entre les genres (poésie, journaux personnels, art numérique et critique littéraire).

L'écriture en ligne est aussi une pratique sociale. Des communautés se font et se défont au gré des interactions entre écrivains, des projets collaboratifs mais aussi de l'évolution technique des plateformes et du web. Il s'agit en partie d'une littérature d'anonymes ou d'écrivains non-publiés, même si plusieurs auteurs et autrices (François Bon, Philippe De Jonckheere, Christine Jeanney, Pierre Ménard, Juliette Mezenc, Anne Savelli, etc.) ou sites et communautés (Poezibao, remue.net, etc.) ont acquis une forte reconnaissance.

Volumétrie et collecte : 473 Go de données, environ 3 828 500 documents, collecte réalisée entre le 4 juil. 2022 et le 1er sept. 2022.

Contacts :

Vladimir Tybin, chef de service du dépôt légal numérique

01 53 79 46 93, vladimir.tybin@bnf.fr

Référent scientifique : Alexandre Faye, chargé de collections numériques et responsable des projets de recherche

01 53 79 59 24, alexandre.faye@bnf.fr

Les données de la conservation : une masse d’informations à explorer

Les activités de conservation effectuées sur les collections de la BnF créent un ensemble de données, réparties entre les différents producteurs (ateliers internes, laboratoire, prestataires externes, chargés de conservation, etc.), qui permettent de renseigner l'histoire de chacun des 40 millions de documents conservés par l'établissement. Ces données existent sous plusieurs formes : bases de données, fichiers bureautiques de différents formats (Excel, Word, etc.), photographies, documents papiers, etc. Cette masse d'informations est suffisamment volumineuse pour pouvoir entraîner des modèles et expérimenter des méthodes de fouille de données.

A titre d'exemples, la fouille pourrait porter sur les dossiers de restauration dont le contenu n’est pas connu ou indexé (text mining), ou sur les photographies de documents conservés : pour catégoriser des contenus, ajouter des métadonnées, etc.

La BnF mène également plusieurs expérimentations afin de prédire l'état des collections à partir des données. D'autres expérimentations pourraient continuer en ce sens, mais aussi porter sur une évaluation des conditions de conservation et de magasinage dans les magasins. Par exemple :

  • reconnaissance de dégradations sur des photographies de documents ;
  • prédiction et surveillance de l'atmosphère dans les magasins vis-à-vis des prévisions météo ;
  • aide à l'implantation des collections déplacées en lots par prédiction de la place occupée.

Contact :

Célia Cabane, cheffe de projet Gestion des données utiles à la conservation, département de la Conservation

celia.cabane@bnf.fr

Personnes connectées : 1 Vie privée
Chargement...