Cette réunion a lieu chaque année depuis 2018. Elle réunit des institutions patrimoniales qui souhaitent améliorer l’accès à leurs collections numérisées et la qualité de leurs métadonnées à l’aide d’outils d’intelligence artificielle. Les projets suivants sont particulièrement pertinents dans le cadre de la mise en œuvre du plan d’action 2029 au Centre international de l’ISSN, mais aussi en termes d’acculturation nécessaire.
Le ministère français de la Culture a lancé le site web Comparia, qui compare les performances de plusieurs intelligences artificielles génératives (https://comparia.beta.gouv.fr/). Les utilisateurs peuvent soumettre une requête à deux IA sélectionnées au hasard par le site. Les IA analysent le résultat, puis fournissent une réponse adaptée. L’utilisateur évalue ensuite les réponses et obtient une estimation de la consommation énergétique des deux IA pour produire ces réponses.
Dans le cadre de leur mission de préservation de la mémoire des institutions gouvernementales, les Archives du gouvernement britannique ont développé un outil permettant de créer des métadonnées à partir de la grande quantité de documents qu’elles traitent. Selon son site web, l’outil Apache Tika™ permet de détecter et d’extraire des métadonnées et du texte à partir de plus d’un millier de types de fichiers différents, comme les fichiers PowerPoint, Excel et PDF. Ces types de fichiers peuvent tous être traités via une interface unique, ce qui rend Tika utile pour l’indexation par les moteurs de recherche, l’analyse de contenu, la traduction, etc. Cet outil pourrait être utilisé pour répondre aux demandes des éditeurs.
La Bibliothèque du Congrès a mis en place un outil d’intelligence artificielle qui génère automatiquement des métadonnées pour les monographies numériques ou numérisées. Ce service est géré par Digirati (https://digirati.com/). De même, la bibliothèque de l’université de Harvard utilise Apache Airflow pour automatiser l’ingestion de ressources grâce à l’extraction de métadonnées. Ces données sont ensuite comparées à l’indexation des ressources déjà décrites dans le catalogue de la bibliothèque via ElasticSearch. Harvard utilise également Better Binary Quantisation (BBQ) pour stocker des données sous forme vectorielle. BBQ est décrit comme suit sur son site web : « Il s’agit d’une avancée majeure pour Lucene and Elasticsearch, qui permet de réduire les dimensions flottantes de 32 bits à 1 bit, tout en conservant une qualité de classement élevée et en réduisant la mémoire d’environ 95 % ». Il surpasse les approches traditionnelles, telles que la quantification de produit, en termes de vitesse d’indexation (20 à 30 fois plus rapide), de vitesse de requête (2 à 5 fois plus rapide) et sans perte de précision.
La bibliothèque de l’université de Yale, tout comme la Bibliothèque nationale du Luxembourg, utilise l’IA pour produire des métadonnées. Ce dernier a dû traiter un arriéré d’environ 75 000 fichiers numériques déposés. ChatGPT 4.0 a d’abord été utilisé pour générer des métadonnées, mais les résultats ont été décevants en matière d’indexation des sujets. ANNIF (https://annif.org/) a donc été préféré. Les bibliothèques nationales de Suède et d’Allemagne mènent des projets similaires. La Bibliothèque nationale d’Allemagne (DNB) a mis en œuvre un projet visant à améliorer les performances de l’intelligence artificielle générative en allemand. Dix-sept millions de publications numériques ont été sélectionnées, dont treize millions de périodiques. Ces textes ont été retravaillés pour être anonymisés et modifiés de manière à ne plus être soumis au droit d’auteur. Ils ont été « tokenisés » et seront utilisés pour entraîner l’IA en allemand.
La KB, nationale bibliotheek (anciennement la Koninklijke Bibliotheek des Pays-Bas) a publié une déclaration (https://www.kb.nl/en/ai-statement) visant à limiter l’utilisation de ses collections numériques par les entreprises commerciales qui entraînent leur IA générative, notamment à partir du site de ressources numériques continues Delpher (https://www.delpher.nl).
Enfin, la bibliothèque de l’université de Stanford a présenté un projet de numérisation de fiches dactylographiées contenant des observations biologiques marines. Ces cartes ont été traitées par l’IA afin de générer des fichiers de métadonnées au format JSON. Les présentateurs ont souligné l’importance de fournir des instructions très détaillées à l’IA.