Les moteurs de recherche et notices enrichies vont ils tuer les autorités ?

 

Psychose/Alfred HitchockLes fonctions d’aide basées sur l’orthographe ou la grammaire des moteurs de recherche et l’enrichissement de notices peuvent laisser croire que l’on peut faire l'économie d’un véritable référentiel d’autorités. Ces nouvelles fonctionnalités sont une avancée certaine mais elles ne remplacent pas les notices autorités et doivent être plutôt vues comme un complément. Cette illusion arrange un peu tout le monde lorsque l’on connaît la difficulté de construire une base d’autorités en l’absence de mécanismes pertinents permettant de récupérer automatiquement des notices autres que bibliographiques auprès des réservoirs de référence et en premier lieu la BNF. Comme le montre le projet Opencat avec data.bnf.fr, les réservoirs de données utilisant les outils du web des données permettront demain de mettre en cohérence référentiel d’autorités et enrichissement sous réserve d’une synchronisation des catalogues avec celui de la BNF

Fonctions des moteurs de recherche // formes rejetées.

La plupart des moteurs de recherche peuvent vous proposer des termes au fur et à mesure de votre frappe (autocomplétion) ou des formes orthographiquement proches. Plus rares sont ceux capables de prendre en compte le genre d’un terme (masculin/féminin) ou les conjugaisons d’un verbe. Ces fonctionnalités sont très utiles pour aider l’utilisateur dans la saisie de sa requête mais elles ne remplissent pas la même fonction qu’une forme rejetée qui va vous proposer des termes équivalents. Par exemple dans le répertoire Rameau, « favelas », « constructions spontanées» ou « agglomération de baraques» renvoient sur la forme retenue « bidonvilles ». Les deux mécanismes sont complémentaires et il faut les combiner les pour trouver le concept bidonvilles à partir de « favaila » ou « agglomérations baraque ». Notons cependant que certaines formes rejetées de Rameau sont devenues inutiles comme par exemple pour les formes rejetées "habitat spontané" "habitats spontanés" de cette même notice « bidonvilles » quand on dispose d'une recherche singulier/pluriel.

Quand elles portent sur des noms propres, les formes rejetées trouvent toute leur utilité avec les sigles (BNF pour Bibliothèque Nationale de France), les changements de nom  ou les pseudonymes (Bison Ravi, Vernon Sullivan pour Boris Vian).

 

Un enrichissement à minima pour les notices d’autorité.

Biographie récupérée dans WikiPediaL’enrichissement de catalogue notices consiste à compléter les notices avec des données en provenance de sources externes : résumé, couverture du document, critiques, extraits musicaux, commentaires, critiques ou encore biographie et portrait d’auteurs. L’information n’est généralement pas stockée localement, le portail la récupère au moment où elle doit être affichée ou utilisée. L'avantage de ce mode de fonctionnement est qu'il ne nécessite pas de retraitement de la base bibliographique ou de stockage des données, sous réserve de disposer d’un identifiant pour récupérer la bonne information sur le serveur externe. Pour les notices bibliographiques, le numéro international d’article  ou le numéro d’éditeur  (345$b et 073$a en Unimarc) permettent de télécharger de récupérer  sur de multiples sources comme par exemple: Amazon, Fnac, Decitre, LastFm, GAM, Babelthèque  ou Libfly. Il peut y avoir ça et là quelques erreurs, souvent pour des rééditions ou des erreurs d'ISBN, mais cela reste acceptable.
Il n’existe pas d’identifiant équivalent pour  les autorités d’autorité : le seul disponible est le numéro de notice présent dans le sous-champ $3 des champs de lien (bloc4XX, 5XX, 6XX, 7XX en Unimarc), mais cet identifiant est à usage interne et n’est pas valable dans des bases externes.

A défaut de cet identifiant, on peut se baser sur la forme retenue de l'autorité. L'adresse des articles de Wikipedia pour les personnes physiques est constituée à partir des prénoms et nom de famille séparés par le caractère souligné « _ ».  Cela suffit généralement pour récupérer une page mais le procédé suppose que la forme retenue de la notice autorité soit la même que celle de la source externe. Par exemple, l’identifiant du marquis de Sade est  Marquis_de_sade dans Wikipedia alors que la forme retenue à la BNF est : $aSade$bDonatien Alphonse François de$f1740-1814. Les choses se compliquent avec les homonymes : Wikipedia distingue l’écrivain britannique Robin Cook de son homonyme américain par un qualificatif : Robin_Cook_(écrivain_britannique) et Robin_Cook_ (écrivain_ américain) alors que pour la BNF la différenciation se fait à partir des dates biographiques respectivement 1940— et 1931-1994. Appliqué aux noms communs, un tel mode d’enrichissement devient rapidement très compliqué et aléatoire.

Simulation d'insertion de l'autorité Zola

Le problème de l'identifiant ne se pose pas si les bibliothèques ont fait le choix de la récupération à la BNF et ont associé, à chaque notice, le numéro BNF. Il permettra de constituer un identifiant ARK pour insérer, dans un contenu bibliographique ou autorité, tout ou partie de la page correspondante dans le catalogue général ou dans data.bnf.fr..

Dans les deux  cas, l’information récupérée, en langage HTML, ne peut servir qu’à de l’affichage. Seul un format structuré permettrait de retraiter l’information. Par exemple, on ne peut pas isoler les formes rejetées, les termes spécifiques, génériques, associés des autres champs de notices à partir d'une notice en mode texte alors que la même donnée en ISO2709 ou en XML/Marc le permet. Le permalien que propose la BNF sur le catalogue général renvoie du format texte (Public, Intermarc et Unimarc) alors qu'une récupération en ISO2709 permettrait de traiter convenablement les notices. J'espère encore que ce sera le cas un jour.

Enrichir avec le web des données.

Cartographie du web de donnéesWikipedia avec DBPedia et la BNF avec data.bnf.fr permettent de récupérer leurs données au format RDF. A la base du web des données, ce format est une suite de relations de type  sujet, verbe, complément (en RDF, sujet, prédicat, objet). Par exemple  Emile Zola a écrit L'Assommoir, Emile Zola a pour date de naissance le 2 avril 1940.Dans ce système, le sujet est toujours un identifiant de ressource unique sur l'ensemble d'internet- une URI pour Uniform Ressource Identifier -  alors que l'objet peut être une autre URI ou un littéral (chaîne de caractères). Ce graphique montre les triplets RDF vers le titre, une image et 2 œuvres pour la ressource Emile Zola dans data.bnf.fr et vous pouvez voir l'ensemble des triplets dans une forme lisible dans DBpedia ou  au format RDF dans data.bnf.fr

Une fiche RDF de data.bnf.fr fournit un ensemble de liens qu'il suffit de parcourir pour récupérer les informations d'enrichissement d'une notice autorité ou bibliographique. Le seul moyen d'y accéder est de connaître son URI, déductible du numéro de notice dans BN Opale+. On en déduira aisément que pour bénéficier de la richesse de data.bnf.fr, il faut récupérer les notices à la BNF.

Ceci explique que le projet OpenCat ne pouvait ce faire qu'avec une bibliothèque ayant synchronisé son catalogue avec celui de la BNF et avec la première d'entre elles : la bibliothèque municipale de Fresnes. Ma modeste contribution à ce projet a été de retraiter son catalogue pour remonter le numéro BNF dans un champ marc.

Si la récupération de notices BNF est une condition nécessaire, ce n'est malheureusement pas une condition suffisante, j'évoquerai dans un prochain article un autre mécanisme indispensable pour utiliser le réservoir data.bnf.fr.