Fantastic Futures 2025

Cette réunion a lieu chaque année depuis 2018. Elle réunit des institutions patrimoniales qui souhaitent améliorer l’accès à leurs collections numérisées et la qualité de leurs métadonnées à l’aide d’outils d’intelligence artificielle. Les projets suivants sont particulièrement pertinents dans le cadre de la mise en œuvre du plan d’action 2029 au Centre international de l’ISSN, mais aussi en termes d’acculturation nécessaire.

Le ministère français de la Culture a lancé le site web Comparia, qui compare les performances de plusieurs intelligences artificielles génératives (https://comparia.beta.gouv.fr/). Les utilisateurs peuvent soumettre une requête à deux IA sélectionnées au hasard par le site. Les IA analysent le résultat, puis fournissent une réponse adaptée. L’utilisateur évalue ensuite les réponses et obtient une estimation de la consommation énergétique des deux IA pour produire ces réponses.

Dans le cadre de leur mission de préservation de la mémoire des institutions gouvernementales, les Archives du gouvernement britannique ont développé un outil permettant de créer des métadonnées à partir de la grande quantité de documents qu’elles traitent. Selon son site web, l’outil Apache Tika™ permet de détecter et d’extraire des métadonnées et du texte à partir de plus d’un millier de types de fichiers différents, comme les fichiers PowerPoint, Excel et PDF. Ces types de fichiers peuvent tous être traités via une interface unique, ce qui rend Tika utile pour l’indexation par les moteurs de recherche, l’analyse de contenu, la traduction, etc. Cet outil pourrait être utilisé pour répondre aux demandes des éditeurs.

La Bibliothèque du Congrès a mis en place un outil d’intelligence artificielle qui génère automatiquement des métadonnées pour les monographies numériques ou numérisées. Ce service est géré par Digirati (https://digirati.com/). De même, la bibliothèque de l’université de Harvard utilise Apache Airflow pour automatiser l’ingestion de ressources grâce à l’extraction de métadonnées. Ces données sont ensuite comparées à l’indexation des ressources déjà décrites dans le catalogue de la bibliothèque via ElasticSearch. Harvard utilise également Better Binary Quantisation (BBQ) pour stocker des données sous forme vectorielle. BBQ est décrit comme suit sur son site web : « Il s’agit d’une avancée majeure pour Lucene and Elasticsearch, qui permet de réduire les dimensions flottantes de 32 bits à 1 bit, tout en conservant une qualité de classement élevée et en réduisant la mémoire d’environ 95 % ». Il surpasse les approches traditionnelles, telles que la quantification de produit, en termes de vitesse d’indexation (20 à 30 fois plus rapide), de vitesse de requête (2 à 5 fois plus rapide) et sans perte de précision.

La bibliothèque de l’université de Yale, tout comme la Bibliothèque nationale du Luxembourg, utilise l’IA pour produire des métadonnées. Ce dernier a dû traiter un arriéré d’environ 75 000 fichiers numériques déposés. ChatGPT 4.0 a d’abord été utilisé pour générer des métadonnées, mais les résultats ont été décevants en matière d’indexation des sujets. ANNIF (https://annif.org/) a donc été préféré. Les bibliothèques nationales de Suède et d’Allemagne mènent des projets similaires. La Bibliothèque nationale d’Allemagne (DNB) a mis en œuvre un projet visant à améliorer les performances de l’intelligence artificielle générative en allemand. Dix-sept millions de publications numériques ont été sélectionnées, dont treize millions de périodiques. Ces textes ont été retravaillés pour être anonymisés et modifiés de manière à ne plus être soumis au droit d’auteur. Ils ont été « tokenisés » et seront utilisés pour entraîner l’IA en allemand.

La KB, nationale bibliotheek (anciennement la Koninklijke Bibliotheek des Pays-Bas) a publié une déclaration (https://www.kb.nl/en/ai-statement) visant à limiter l’utilisation de ses collections numériques par les entreprises commerciales qui entraînent leur IA générative, notamment à partir du site de ressources numériques continues Delpher (https://www.delpher.nl).

Enfin, la bibliothèque de l’université de Stanford a présenté un projet de numérisation de fiches dactylographiées contenant des observations biologiques marines. Ces cartes ont été traitées par l’IA afin de générer des fichiers de métadonnées au format JSON. Les présentateurs ont souligné l’importance de fournir des instructions très détaillées à l’IA.

2025/11/19

Charleston Library Conference 2025

Par Gaëlle Béquet, 19 novembre 2025

La conférence de la bibliothèque de Charleston 2025 a mis en évidence plusieurs tendances majeures qui transforment actuellement les écosystèmes universitaires, documentaires et éditoriaux aux États-Unis. Les universités sont confrontées à une baisse significative du nombre d’inscriptions, tendance qui s’est accentuée avec la diminution du nombre d’étudiants internationaux. Cette contraction a un impact direct sur les bibliothèques, qui sont confrontées à une diminution de leurs budgets d’acquisition et, par conséquent, à une réduction des abonnements aux revues et aux bases de données de référence. Dans ce contexte, les accords transformatifs des éditeurs bénéficient d’un soutien moindre, notamment lorsqu’ils imposent des embargos sur la disponibilité des contenus en libre accès.

Dans le domaine de l’édition scientifique, plusieurs signes indiquent une accélération du changement. Wiley en est un exemple : alors que les chercheurs subissent une pression croissante pour publier, les bibliothèques achètent moins. Wiley poursuit également son expansion en Asie, comme en témoigne son bureau de Pékin qui compte 75 employés. Elle a récemment publié des recommandations sur l’utilisation de l’IA à destination des auteurs. De nombreux chercheurs s’opposent désormais à ce que leurs articles ou leurs livres soient utilisés pour entraîner des modèles d’IA, tandis que les éditeurs utilisent des outils de détection pour identifier automatiquement les contenus générés par l’IA dans les manuscrits qui leur sont soumis. Enfin, plusieurs intervenants ont évoqué la possibilité que les petites maisons d’édition et les sociétés savantes disparaissent, car elles sont menacées par la concentration croissante dans le secteur.

La conférence a également abordé l’évolution du rôle des bibliothécaires. Selon Lorcan Dempsey, la maîtrise de langages de programmation comme Python sera essentielle pour interagir efficacement avec les systèmes d’intelligence artificielle qui sont en passe de devenir la norme tout au long de la chaîne documentaire.

Les questions liées au libre accès ont également été au cœur des discussions. Les œuvres disponibles sur OAPEN sont largement capturées par des robots et des systèmes d’intelligence artificielle (IA) qui peuvent contourner les mécanismes d’authentification en imitant le comportement des utilisateurs humains. Cette récupération automatisée ne tient pas compte des licences Creative Commons et compromet les efforts en matière de protection des données. Les gestionnaires de sites ne peuvent plus se fier à l’identité déclarée des visiteurs. Certains envisagent donc un scénario radical dans lequel les sites web n’offriraient plus d’accès direct aux données et délégueraient plutôt l’intermédiation à l’intelligence artificielle (IA), qui présenterait les informations aux utilisateurs finaux. Dans le même temps, plusieurs participants ont constaté une baisse de l’utilisation de Google pour effectuer des recherches d’informations, les utilisateurs se tournant de plus en plus vers des outils d’intelligence artificielle conversationnelle.

La question de l’intégrité scientifique a également été abordée. Cabells répertorie désormais près de 19 000 revues douteuses dans sa base de données. Le terme « grimpact » a été proposé pour décrire les effets négatifs que peuvent avoir des recherches biaisées, fondées sur des données déformées ou des pratiques contraires à l’éthique.

Concernant les infrastructures et les outils, des présentations ont été faites sur les avancées réalisées dans le cadre du projet Collaborative Collection Lifecycle Project, notamment grâce au prototype CYCLOPS développé par Indexdata et basé sur une pratique recommandée actuellement soumise à consultation publique par NISO.

Enfin, la conférence a permis de découvrir de nouveaux outils à destination des bibliothèques. Il s’agit notamment de solutions de numérisation et de reconnaissance optique de caractères adaptées aux langues non latines, comme l’outil Spacy.io. Il a également été question d’une collaboration inspirante entre l’université Lehigh et Elsevier, qui vise à créer un outil d’analyse de la littérature chimique permettant de faire gagner un temps précieux aux enseignants lorsqu’ils explorent la littérature existante avant de mener des expériences.

2025/10/20

Ouverture du centre ISSN des Émirats Arabes Unis le 21 octobre 2025

Le Centre international de l’ISSN a le plaisir d’annoncer l’ouverture d’un centre ISSN aux Émirats Arabes Unis le 21 octobre 2025. Ce nouveau centre sera le point de contact national pour les publications en série et autres ressources continues publiées aux Émirats Arabes Unis. Il permettra aux éditeurs, aux bibliothèques ainsi qu’aux institutions culturelles de bénéficier d’un service national d’identification via l’ISSN et de fourniture de métadonnées bibliographiques de grande qualité.

Cet ajout renforcera le réseau ISSN au niveau international et améliorera la visibilité des périodiques publiés aux Émirats Arabes Unis —imprimés et numériques — dans les catalogues de bibliothèques, les services d’indexation et les chaînes de distribution.

Lire le communiqué de presse (en anglais)