Prenez le train de la Transition bibliographique
Des données à FRBRiser : destinations et correspondances
Intervention conjointe lors de la journée Systèmes & Données du 06 novembre 2018
Etienne Cavalié (BnF)
François Pichenot (Médiathèque et archives de Roubaix)
Marianne Giloux (Abes)
Prenez le train de la Transition bibliographique - Journée Systèmes & Données du 06/11/2018
1. Prenez le train de la
Transition bibliographique
Des données à FRBRiser :
destinations et correspondances
Etienne Cavalié (BnF)
Marianne Giloux (Abes)
François Pichenot (Médiathèque et archives de Roubaix)
Journée Systèmes & Données - 06/11/2018
2. Plan
• Introduction
• FRBRiser des données :
o outils et méthodes (Abes & BnF)
o modalités d’affichage et de récupération
o conséquences : la qualité des données
• Mise en place d’une stratégie d’alignement :
l'exemple de la Médiathèque de Roubaix
3. Outils & méthodes (BnF)
• Un corpus de départ de 320.000 notices d’autorité Titre
• Un ensemble d’algorithmes testés dans le cadre du
projet data.bnf.fr
• Une équipe dédiée à la reprise de l’existant
• 2016 : RobotDonnées, plate-forme de traitement par
corpus
• 2017-2018 :
o validation d’une méthode de traitement
o corpus : les auteurs français de textes du XXe siècle
o 380.000 auteurs
o > 1 million d’oeuvres générées
7. Outils & méthodes (BnF)
• Début 2019 : chargement d’oeuvres par lots dans
data.bnf.fr
• Refonte de l’interface de data.bnf.fr
• data.bnf.fr comme espace d’expérimentation
• Des notices d’autorité élémentaires dans
data.bnf.fr !
• 2e semestre 2019 : chargement d’oeuvres par lots
dans le catalogue BnF
8. Outils & méthodes (Abes)
Deux contextes, trois approches différentes
Les thèses de doctorat
• Une production frbrisée (STAR – TEF) - 2006
• Une interface publique frbrisée (Theses.fr)- 2011
Sudoc
• Une expérimentation - 2012
• Une production automatisée
• Pas d’interface publique
9. Outils & méthodes (Abes)
Les thèses de doctorat
Le contexte
•Apparition des premières thèses électroniques, besoin de signalement,
de diffusion, d’archivage pérenne…
•2006 : Recommandation TEF jeu de métadonnées - modélisation de
ces métadonnées s’appuyant sur le modèle FRBR et format XML
•2007 : ouverture de l’application STAR s’appuyant sur la
recommandation TEF
L’Objectif
•Mettre en place un portail des thèses soutenues en France (theses.fr)
quelque soit la source de signalement (STAR/STEP/Sudoc) et le type de
document : thèses imprimées, microfichées, électroniques, éditions
commerciales…
15. Outils & méthodes (Abes)
Theses.fr
Oui, les données sont organisées selon le modèle FRBR
• Processus de chargement avec une finalité de regroupement des
“n” notices du Sudoc décrivant la thèse
• La granularité de theses.fr est l’oeuvre
• L’utilisateur peut retrouver tous les documents relatifs à une thèse
Non, les données ne sont pas organisées selon le
modèle FRBR
• Regroupement sur une même oeuvre de la thèse version de
soutenance et de la thèse remaniée pour simplifier la recherche et
l’affichage à l’utilisateur
17. Outils & méthodes (Abes)
L’expérimentation Sudoc
Le contexte (2012-2014)
• Fin de vie annoncée du système informatique (CBS) hébergeant le
Sudoc
• Exploiter les algorithmes de regroupements de données développés
dans le CBS par OCLC (service existant)
• Pas de développements informatiques effectués en interne
• Pas d’interface de recherche publique
• Travailler sur les seules consignes de catalogage
L’objectif
• Expérimenter afin de commencer à anticiper ce que pourrait être le
futur système
18. Outils & méthodes (Abes)
L’expérimentation Sudoc
• adaptant le service aux spécificités du Sudoc
⇒ en étant le + conforme possible au modèle FRBR
⇒ en s’appuyant sur les évolutions d’Unimarc
• regroupant les notices bibliographiques selon des calculs de
comparaison basés sur des clés titre-auteur
⇒ pour obtenir un corpus de d’œuvres + des liens de type Manifestation
→ Œuvre (enrichissant les données existantes)
• menée dans l’environnement de production sur la totalité des
données du catalogue
⇒ dans la limite de pertinence des résultats (évalués sur échantillons)
19. Outils & méthodes (Abes)
L’expérimentation Sudoc
Réalisations
• Mise en production le 23 octobre 2017
• Au 22 octobre 2018 :
→ ~1,5 M de “pré-notices d’œuvre” (dites notices de regroupement)
créées
→ ~4,4 M liens créés entre notices bibliographiques et notices de
regroupement (pour 16,5 M notices bibliographiques)
• Fonctionnement en base de production (en mode “vitrine”)
• Enrichissement quotidien par calculs sur toutes les mises à jour du
catalogue (300 à 600 notices de regroupement mises à jour)
20. Outils & méthodes (Abes)
L’expérimentation Sudoc
Des limites sur les données
• Traitement impossible des agrégats sans titre d’ensemble
• Traitement trop peu pertinent des ressources continues
• Pas de notice de regroupement générée pour une notice
bibliographique seule à représenter une oeuvre
Des limites sur le modèle
• pas de réelles notices d’oeuvre, notices de “pré-oeuvre”
• Le niveau de l’expression n’est pas traité
• Il n’y a pas de mécanisme d’héritage :
o les accès “créateur de l’oeuvre”, les accès sujets, les résumés
restent présents dans les notices bibliographiques
o Ces données sont dupliquées dans les notices de
regroupement
26. Modalités d’affichage et
de récupération (BnF)
• La refonte de data.bnf.fr : phase 1
o une mise en page plus aérée
o les oeuvres au coeur du dispositif
• Oeuvres calculées
et notices d’autorité élémentaires :
les reconnaître, les retrouver
• Chargements dans le catalogue par lots
• Questionner le taux de complétude
• Quel processus d’actualisation ?
34. Quelles données pour
quelle FRBRisation (BnF)
• Impact sur l’évaluation de la qualité du catalogue
o les infos de date : contenu et cohérence
o les infos de titre : contenu et structuration
o les infos auteur : homonymes et codes fonction
o les infos de langue…
• Autres explorations à venir :
o les oeuvres autres que textuelles
o les oeuvres étrangères
o les oeuvres avant 1900
o les expressions
35. Modalités d’affichage et
de récupération (Abes)
• theses.fr
o Interface de consultation
o Export RDF
o une API permettant de récupérer les résultats d’une requête
• 3 formats disponibles : XML, JSON et ATOM.
39. Modalités d’affichage et
de récupération (Abes)
• TEF (STAR)
o Réservoir OAI-PMH - 2 formats : DC et TEF
o TEF est converti en Unimarc pour chargement dans le Sudoc
• Expérimentation Sudoc
o pas d’exposition publique, affichage dans l’outil de catalogage
seulement (WiniBW)
o Pas de modifications possible
o Pas de récupération dans les SIGB
40. Vers la qualité des
données (Abes)
Les thèses de doctorat
• Les statistiques d’utilisation de theses.fr
• Les demandes à l’assistance AbesStp
o Réclamations quand il manque des manifestations (reproductions sur
d’autres supports, édition imprimées…)
• 2015 : Mise à disposition d’AlgoSudoc
41. Vers la qualité des
données (Abes)
Expérimentation Sudoc
• Pour évaluer : ouverture d’un fichier collaboratif +
AbesStp : +/- 250 retours
A permis de détecter :
• Ce que l’algo pourrait faire de mieux
o Ajout de données dans les notices Tr (NNT, PPNs qui
ont permis la création de la notice...)
o Amélioration de la clé titre-auteur (de 22 à 32
caractères)
• si nécessaire intégration d’une table de mots
vides
o Contextualiser les codes de fonction
o Limiter aux seules notices localisées
42. Vers la qualité des
données (Abes)
Expérimentation Sudoc
A permis de détecter :
• Des limites sur les données (au regard des
descriptions et recommandations actuelles)
⇒ Mise à jour de nouvelles consignes de catalogage
• Des erreurs de catalogage
⇒ Correction des notices et recalcul automatique la nuit
suivante
⇒ nouveau regroupement visible dès le lendemain
43. Vers la qualité des
données (Abes)
Expérimentation Sudoc
• Réflexions :
o Exclure de l’algorithme certaines notices ?
(aberrations de certains regroupements pour des titres en latin
ou en grec par exemple)
o Intégration des agrégats (?)
o Ouverture à la validation des notices par les
catalogueurs (?)
44. Mise en place d’une stratégie
d’alignement :
l'exemple de la Médiathèque
de Roubaix
45. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Problématique :
Les agences nationales effectuent un travail de
FRBRisation de leurs données.
Comment bénéficier de ce travail lorsqu’on est
une bibliothèque publique de taille moyenne, sans
ressources humaines et techniques importantes à
déployer sur le sujet ?
46. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Exemple de la Médiathèque de Roubaix :
Mise en place d’une stratégie d’alignement et de
récupération des métadonnées provenant d’une
agence nationale (BnF)
47. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Etape 1 : début de la décennie 2010, le temps du
questionnement
48. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Trois enjeux :
• limiter au maximum le temps consacré au catalogage
• disposer des données de la meilleure qualité possible
• être en mesure de se raccrocher au train de la transition
bibliographique
49. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Etape 2 : à partir de 2015, premières mises en oeuvre
50. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
2015 : mise en place d’un outil d’alignement et de
récupération de données de la BnF (vendangeur)
• un outil qui permet à la fois d’aligner...
• … et de récupérer et maintenir les métadonnées
51. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
LDR 02199cam1 2200481 i 450
001 302808
003 http://www.mediathequederoubaix.fr/ark:/20179/KH302808
...
010 $a978-2-35925-108-1$bbr.$d23 EUR
073 0$a9782359251081
...
200 1$aFace à Gaïa$bTexte imprimé$ehuit conférences sur le nouveau régime climatique$fBruno
Latour...
330 $aLe philosophe propose ici une réflexion sur l'interaction de l'humain avec la nature et ses
éléments (l'air, les océans, les glaciers, le climat, le sol). Il étudie l'entrée de l'humanité dans une
géohistoire où la nature, rendue instable, représente désormais un être dont il est difficile de prévoir les
manifestations, figurée ici sous les traits de Gaïa, la déesse mère de la mythologie grecque. Electre
2018
...
700 1$312012722$61263037$79401116748$aLatour$bBruno$f1947-....$4070
801 3$aFR$bElectre$c20180619$gAFNOR
52. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
LDR 02199cam1 2200481 i 450
001 304069
003 http://www.mediathequederoubaix.fr/ark:/20179/KH304069
010 $a978-2-35925-108-1$bbr.$d23 EUR
033 $ahttp://catalogue.bnf.fr/ark:/12148/cb44456612v
035 $aFRBNF444566120000001
073 0$a9782359251081
...
200 1$aFace à Gaïa$bTexte imprimé$ehuit conférences sur le nouveau régime climatique$fBruno
Latour
...
330 $aLe philosophe propose ici une réflexion sur l'interaction de l'humain avec la nature et ses
éléments (l'air, les océans, les glaciers, le climat, le sol). Il étudie l'entrée de l'humanité dans une
géohistoire où la nature, rendue instable, représente désormais un être dont il est difficile de prévoir les
manifestations, figurée ici sous les traits de Gaïa, la déesse mère de la mythologie grecque. Electre
2018
...
700 $312012722$933063$oISNI0000000121472849$aLatour$bBruno$f1947-....$4070
801 0$aFR$bFR-751131015$c20151123$gAFNOR$hFRBNF444566120000001$2intermrc
53. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
LDR 02265cx a2200301 4500
001 33063
010 $a0000000121472849
033 $ahttp://catalogue.bnf.fr/ark:/12148/cb12012722c
035 $aFRBNF12012722
...
200 $7ba0yba0y$8fre$aLatour$bBruno$f1947-....
...
801 $aFR$bFR-751131015$c20120110
...
999 $a12012722
54. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
La mise en place du vendangeur implique une bonne
connaissance des ses données, notamment :
• pour décider si l’ensemble des notices locales
doivent être remplacées (par exemple : à Roubaix,
choix de ne pas toucher aux notices liées à des
documents patrimoniaux)
• pour protéger certains champs (par exemple :
résumés, indexation, …)
55. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
LDR 01652cam a2200361 4500
001 214822
003 http://www.mediathequederoubaix.fr/ark:/20179/KH214822
010 $a978-2-914216-83-8$bCart.$d14.00 EUR
033 $ahttp://catalogue.bnf.fr/ark:/12148/cb414756389
035 $aFRBNF414756380000005
073 0$a9782914216838
...
200 1$aCrapauds sur le pot$bTexte imprimé$fJean-Michel Zurletti
...
330 $aUn album pour apprendre aux plus petits la propreté. Les illustrations sont faites de collages.
339 $aa
609 0$aLivres de bébé
609 0$aEnfants$xEducation à la propreté$2rameau
686 $a809$2Cadre de classement de la Bibliographie nationale française
700 $313759593$969986$aZurletti$bJean-Michel$f1960-....$4070
801 0$aFR$bFR-751131015$c20090505$gAFNOR$hFRBNF414756380000005$2intermrc
56. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Bilan de la mise en place du vendangeur :
• Des taux d’alignement très disparates :
57. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Bilan de la mise en place du vendangeur (suite) :
• Des problèmes de génération de doublons parmi
les autorités
58. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Etape 3 : l’arrivée du sauveur ? (2018)
59. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Tests menés sur BiblioStratus en 2018, avec l’espoir :
• d’améliorer les taux d’alignements, en particulier
sur l’audiovisuel et les enregistrements sonores
• de résoudre les problèmes liées aux doublons
d’autorités
67. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
Premiers bilans vis-à-vis de BiblioStratus :
• des corpus sur lesquels le taux d’alignement a
significativement augmenté
• échec sur les enregistrements sonores et
l’audiovisuel (mais évolutions du service SRU de la
BnF laisse entrevoir des améliorations)
• de gros progrès sur les autorités
68. Mise en place d’une stratégie
d’alignement : exemple de Roubaix
La suite ? comment faire bénéficier les utilisateurs de
ces nouvelles données ?