Plan

notions de base

Catalogue

Le catalogue est un outil de description, d'identification et de localisation des collections d'un établissement.

Le catalogue est une base de données dont les enregistrements ou notices sont de 3 types : notices bibliographiques, données locales et autorités.

Il existe entre les notices des relations logiques sous forme de triplets :

(Emile Zola, à écrit, Germinal)

(Germinal, est écrit par, Emile Zola.

(Germinal de Emile Zola, est publié par , Gallimard)

(Anuśāsanaparva, fait partie de, Mahābhārata.)

La rédaction des notices fait l'objet de normes dont le respect garantit le partage.

Notices bibliographiques.

Les notices bibliographiques permettent la description d'un document et la notice exemplaire décrit l'objet physique. Il peut y avoir plusieurs exemplaires physiques pour un même titre.

Les données bibliographiques peuvent être rédigées à partir du document lui même. Elles doivent permettre d'identifier sans ambiguïté un titre et un seul.

Le document étant un objet fabriqué en série, les données bibliographiques sont les mêmes dans tous les établissements.

Données locales.

Ce sont les données qui sont propres à une bibliothèque et correspondent aux usages et modes de travail de chaque établissement.

Elles peuvent être saisies "« soit dans les champs de données locales (essentiellement l'indexation simple ou multiples en relation avec le plan de développement des collections), soit dans les données d'exemplaire (n° d'inventaire, cote, etc.) »" (Thierry Giappiconi).

Les données locales doivent pouvoir être ajoutées dès qu'elles sont disponibles : cotes validées, cotes magasin, secteur documentaire, rayon.

Les deux parties de la notice (données bibliographiques et données locales) doivent être indépendantes l'une de l'autre : elles doivent pouvoir être mises à jour séparément.

Notices de gestion

C'est une notice temporaire qui a vocation a être remplacée par une notice de référence dès qu'elle est disponible.

Elle contient les informations minimales pour permettre l'identification d'un titre.

Notices autorités

Une notice d'autorité permet le contrôle des accès à une notice bibliographique.

Elle est composé d'une forme retenue, de formes rejetées (renvoi voir) et de termes associés (génériques, spécifiques, associés).

Elle contient en outre des informations complémentaires sur le point d'accès (dates biographiques, notes, sources de la saisie).

Les points d'accès disponibles à la BNF sont :

  • Collectivité

  • Marque

  • Personne

  • Titre uniforme textuel ou conventionnel

  • Titre uniforme musical

  • Rameau

Exemples de notices autorités BNF

Mahābhārata. Anuśāsanaparva

Bidonvilles.

Vian, Boris

Formats de saisie, de stockage, d'échanges et d'affichage

Un format est une représentation formelle des données.

Des mêmes données peuvent être structurées de manière différente selon l'utilisation  : saisie, stockage dans la base de données sous formes de tables (Marc, XML), échange et affichage (ISBD, affichage public).

Il est important que les données ne soit pas altérées par les changements de formats.

Formats Marc

Les formats Marc (Machine automatically Readable Code) ont été conçus dans les années 60 pour permettre une exploitation des notices par des machines.

Dans un format Marc, les données sont structurées sous forme de champs identifiés par 3 chiffres.

Chaque champ peut-être redivisé en sous-champs identifiés par le caractère "$" suivi d'un caractère alphabétique ou numérique.

Les sous-champs sont précédés de plusieurs caractères (généralement 2) précisant le contenu du champ appelés indicateurs.

A chaque zone Marc (champ ou sous-champ) sont associés des propriétés :

  • Obligatoire : Si un champ est obligatoire, il doit être présent au moins une fois dans la notice. Si un sous-champ est obligatoire, il ne peut y avoir de champ sans au moins une occurrence de ce champ.

  • Répétable : Un champ non répétable ne peut apparaître qu'une fois dans une notice, et un sous-champ une fois par champ.

Il existe plusieurs formats MARC : Unimarc, Intermarc, Marc21, Catmarc, DanMarc,......

Un format Marc est la définition des champs et sous-champs utilisés et de leurs propriétés.

Exemple :

L'assommoir en Unimarc et en Intermarc.

ISO2709

Cette norme définit la structure physique d'un fichier contenant une suite de notices.

Chaque notice se termine par un caractère spécifique (code ASCII 29).

Chaque notice est divisé en 3 parties.

  1. Le label  donne des informations générales sur la notice : longueur, type, structure du répértoire etc.

  2. Le répertoire donne pour chaque champ son étiquette, sa longueur et l'adresse de début dans les données.

  3. Les données sont structurées en champs toujours terminés par un caractère spécifique (code ASCII 30).

01510nam1 22003612i 450 0010011000000050017000110100038000281000041000661010008001071020007001151050 1800122200009300140205001200233210002200245211001300267215005500280225004000 3353300298003753330017006733450018006904100052007086060030007606100084007906 7600140087467600130088870000410090180100330094290100830097590200170105890300 2801075903003501103947001001138-2008401207-20081010000000.0- ­a978-2-7460-4644-3­bBr.­d27.14 EUR- ­a20081010d2008 m |0fre|01 ||||ba-0 ­afre- ­aFR- ­aa 0||y|-1 ­aXML par la pratique­ebases indispensables, concepts et cas pratiques­fSÂebastien Lecomte- ­a2e Âed.- ­aNantes­cENI­ d2008- ­a20081208- ­a353 p.­cillustrations en noir et blanc­d22 x 18 cm-2 ­aRessources informatiques­x1627-8224- ­aPrÂesentation des concepts fondamentaux de XML au travers de cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre comment concevoir des documents et des grammaires XML simples, comment lier des documents XML entre eux, et comment mettre en forme des documents XML.- ­aTous niveaux- ­b9782746046443- 0­34237610000­tRessources informatiques­x1627-8224- ­aXML (langage de balisage)-0 ­aInternet­alangage de programmation­astructure de donnÂees ­adocument multimÂedia- ­a005.3­v99- ­a004­v99a- 1­32003090210­aLecomte­bSÂebastien­ 4070- 3­aFR­bElectre­c20081010­gAFNOR- ­39800003724­aExtendible markup language­ 39800003724­aExtensible markup language- ­aTous niveaux- ­aTechniques Informatique- ­ aLivres pratiques Autoformation- ­c27.14-

XML

XML (eXtended Mark Langage) représente l'information sous-forme d'une arborescence.

Chaque noeud de l'arbre est identifié par une balise (chaînes de caractères encadrées par des chevrons "<Balise>") qui encadre les données. La balise fermante débute toujours par une barre de rapport "</balise>".

Une balise peut-être complétée par des attributs permettant de préciser son type et son contenu.

Exemple :

<DonneesXML>Données

<Noeud1 contenu="des données">Données de noeud1</Noeud1>

<Noeud2>

<SousNoeud2>Données de sousNoeud</SousNoeud2>

</Noeud2>

</DonnéesXML>

Une DTD ou un schéma permet de décrire un format XML : balises et attributs, structure de l'arbre, etc....

Pour les catalogues, les schémas les plus utilisés sont MarcXchange, Dublin-Core, Mods, EAD, TEI, ...

Schema XML

Notice bibliographique en MarcXchange

<?xml version "1.0" encoding="UTF-8" ?>

<collection xmlns="info:lc/xmlns/marcxchange-v-1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"[...]>

<record format="UNIMARC" type="Bibliographic">

<leader>01510nam1 22003612i 450</leader>

[...]

<datafield tag="200" ind1="1" ind2=" ">

<subfield code="a">XML par la pratique</subfield>

<subfield code="e">bases indispensables, concepts et cas pratiques</subfield>

<subfield code="f">SÂebastien Lecomte</subfield>

</datafield>

[...]

</record>

</collection>

La récupération de notices

La seule manière d'éviter le travail de catalogage est de de récupérer les notices catalographiques auprès de prestataires extérieurs.

L'offre en matière de notices

Notices de gestion

Il existe de nombreux fournisseurs, généralistes ou spécialisés dans une thématique ou un type de document.

Paramètres à prendre en compte pour le choix :

  • La fournitures de la notice est-elle liée à la fourniture du document ?

  • Taux de couverture par rapport aux besoins.

  • Moment de la disponibilité de la notice.

  • Mode de récupération.

  • Format d'échange

Principaux fournisseurs

Electre

  • Disponibilité avant parution.

  • Résumés, premières de couverture, table des matières,....

  • Liens possibles avec bon de commande.

  • Payant

  • Possibilité de récupération via des web services.

  • Unimarc

Amazon

  • Interface grand public (suggestions d'achats du public).

  • Disponibilité dès la commercialisation.

  • Multimédia.

  • Possibilité de récupération via des web services.

  • Gratuit

  • Pas de format Marc

Zébris

  • Notices en provenance de la Librairie Decitre et notices BNF.

  • Unimarc

  • Accès via z39.50

  • Payant

Moccam en ligne

  • Notices en provenance d'Amazon et notices BNF

  • Unimarc

  • Gratuit

  • Récupération des notices à partir d'une commande.

  • Unimarc.

Récupération de notices à partir d'une commande .

Autres.

Dépouillements de périodiques : CDRAP, Indexpresse

Produits et services bibliographiques de la BNF

La BNF est le seul fournisseur d'un ensemble cohérent de notices bibliographiques et d'autorités.

  • Bibliographie Nationale Française : notices des documents édités ou diffusés en France, et reçus par la BNF au titre du dépôt légal : livres, publications en série, audiovisuels, musique imprimée, cartographie.

  • Fichiers d'autorités : Rameau, Auteurs personnes physiques et collectivités, Titres Uniformes et conventionnels, Marque,

  • Format des données : UNIMARC ISO 2709 ou INTERMARC ISO 2709

3 modes de récupération :

Service gratuit pour les bibliothèques et services publiques.

Cinématique de la constitution du catalogue

Mode de travail et récupération dans le circuit du livre

Avant de de passer un bon de commande, le professionnel doit   :

  • S'informer des parutions à venir en consultant les sites de fournisseurs ou d'actualités ou par la lecture de revues professionnels.

  • Prendre en compte les demandes du public sur des cahiers ou le portail.

  • Vérifier la cohérence de l'achat en fonction de la politique documentaire, en consultant les tableaux de bord (taux de rotation, de disponibilité, etc.) pour analyser les collections.

Une fois la décision prise d'achat prise, il faut  :

  • Passer la commande chez le fournisseur, commande en ligne ou papier.

  • Créer la commande dans le SIGB.

Si tout le processus est informatisé, la notice de gestion doit être présente dès la suggestion de commande .

Récupération manuelle / automatique des notices de gestion

Récupération manuelle :

Le processus nécessite des allers et retours entre des sites extérieurs et le SIGB.

  • Extérieur :

    Interrogation de sites de fournisseurs de notices (BNF, Cercle de la librairie, Moccam, Zebris, .... ) et constitution de paniers.

    Récupération du panier en local (courriel, FTP)

  • SIGB :

    Intégration du panier dès réception.

    Création manuelle si pas trouvée.

Récupération automatique :

Tout est piloté à partir du SIGB qui doit permettre une interrogation simultanée des sites extérieurs et du catalogue.

La notice est dérivée à partir du résultat de cette interrogation.

Si aucune notice n'est trouvée, elle devra également être créée manuellement.

Récupération manuelle / automatique des notices définitives.

Récupération manuelle :

La aussi, il y a aussi des allers et retours.

  • Extérieur :

    Interrogation régulière du site de référence (BNF, MOccam) pour vérifier la disponibilité de la notice validée.

    Recherche des notices autorités.

  • SIGB :

    Récupération du panier en local (courriel, FTP)

Récupération automatique :

Le SIGB utilise la notice de gestion pour interroger régulièrement le serveur de référence et intègre les notices validées dans le catalogue.

Dans un deuxième temps, le SIGB va chercher les notices liées aux notices récupérées : autorités, associées, analytiques, termes génériques, spécifiques, etc.

Fonctionnement de la récupération à la bibliothèque de Fresnes

La bibliothèque de Fresnes à été pionnière en matière d'automatisation du catalogage. Le temps de travail interne consacré au catalogue est descendu à 1,3 % du temps de travail interne. Cet article montre le catalogage d'un document en une minute 43 secondes.

Constitution du catalogue à la bibliothèque de Fresnes
Temps de travail pour le développement des collections

Automatisation de la récupération

FondamentalFonctionnalités nécessaires pour l'automatisation
  • Etendre la recherche à d'autres serveurs : moteur de recherche fédérée (metamoteur).

  • Automatiser la récupération auprès du serveur de référence : protocole normalisé.

  • Dédoublonnage : s'assurer que la notice récupérée correspond au document recherché.

  • Intégration des notices : filtres de reformatage (format d'origine->format cible), fusion avec les données locales.

  • Traçabilité des notices : origine, correspondance avec la base locale, historique des récupérations.

Metamoteur

Il permet d'effectuer des recherches fédérées sur plusieurs bases avec des protocoles différents à partir d'une même équation de recherche.

A chaque protocole est associé un connecteur qui

  • traduit la requête de la syntaxe d'origine à celle du protocole

  • récupère la liste des résultats.

  • traduit les résultats du format d'origine en un format commun.

Le metamoteur doit être intégré dans la partie professionnelle du SIGB.

Le système doit permettre l'importation de notices sélectionnées dans le catalogue.

Protocoles normalisés

ISO 23950 (Z 3950)

Norme Ansi de 1984 normalisée ISO en 1998.

Elle est basée sur 5 services principaux : search, present, sort, scan, explain

  • Avantages.

    Permet le transfert des notices en ISO2709.

    Ancienneté et solidité du protocole.

  • Inconvénient

    Lourd (ASN.1) et techniquement dépassé : proto-internet

SRU/SRW

Evolution de la norme Z3950 vers une technologie de service Web (HTTP, XML).

Reconnu par le W3C

Reprend la philosophie de Z3950 (services, format Marc).

  • Inconvénients

    Jeune et peu répandu.

    Migration du parc existant

Protocoles propriétaires

  • Essentiellement sous forme de services Web (API).

  • Implique un connecteur spécifique pour chaque serveur (Amazon, Cercle de la Librairie, ...) : interrogation , format des notices.

  • Peu d'implémentation dans les parties professionnelles des SIGB.

Quel protocole avec la BNF ?

En l'état actuel de l'offre BNF, seul Z3950 est disponible en format Unimarc ou Intermarc.

A la BNF, seule la partie bibliographique de Opale+ est accessible via ce protocole.

Pour obtenir les notices autorités, deux solutions sont possibles :

  • intégrer localement toutes les notices autorités de la BNF (solution BM Fresnes).

  • trouver un serveur d'autorités BNF alternatif : solution Opsys.

Automate de récupération

L'automate prend en charge la récupération des notices validées auprès du serveur de référence.

la procédure de récupération est la suivante :

  1. Sélection des notices de gestion à récupérer.

  2. Construction d'une requête à partir des éléments existants dans le catalogue.

  3. Interrogation du serveur et récupération des notices résultats.

  4. Sélection de la notice correspondant à la requête : dédoublonnage.

  5. Intégration de la notice dans le catalogue.

  6. Sélection des notices liées non validées pour récupération.

Requête

La requête doit éviter deux écueils : le bruit et le silence.

  • Bruit :

    Privilégier les critères les plus discriminants comme les numéros d'identification (ISBN, Numéros commerciaux, etc...) plutôt que date d'édition.

    Eviter les recherches monocritère ou les recherches par mot avec une seule valeur.

  • Silence  :

    Privilégier les critères normalisés (zones numériques par exemple).

    Eviter les caractères non significatifs (ponctuation, apostrophes, etc...).

    Majusculiser les critères et supprimer les diacritiques.

    Dans une recherche par mot, supprimer les mots vides (Par exemple, en recherche éditeur, faire une recherche sur "Seuil", plutôt que Editions du seuil).

Dédoublonnage

La notice validée doit remplacer une notice de gestion existante dans le catalogue : le dédoublonnage permet de s'assurer que les deux notices correspondent bien au même document.

Ce n'est pas une science exacte : les règles (critères, comportement) doivent pouvoir être modifiées pour arriver au bon réglage.

Il n'est possible que par une parfaite connaissance des pratiques de catalogage du serveur de référence et des serveurs de notices de gestion : attention à la multiplication des sources.

L'écrasement doit être réversible : possibilité de revenir à la notice dans sa version précédente.

L'écrasement ne doit concerner que les données fournies par le serveur de référence : préservation des données locales et enrichissement de la notice.

La meilleure clé de dédoublonnage c'est l'identifiant de la notice.

Cet identifiant sera utilisée dès que possible, et en particulier pour aller chercher les notices liées (bibliographiques ou autorités).

Tout autre identifiant, même normalisé (ISBN, Numéro dans la marque, ean, etc...) ne garantissent pas l'accès à une notice et une seule :

Exemple :

ISBN : 2-262-00025-5, 2-8270-0457-7, 2-05-100133-2

Une requête correspondant à un titre du catalogue aboutit le plus souvent à plusieurs réponses. Le dédoublonnage doit permettre de fixer des règles de pertinence pour trouver la meilleure.

On privilégiera les critères correspondant à des formes normalisées : identifiant, ean, etc.).

On privilégiera les mécanismes permettant d'éviter les différences de saisie : majusculisation, mots vides, clés acronymes.

Reformatage

Aucun système n'exploite ses notices en conservant la forme originale : Iso2709. Les notices doivent donc être adaptées au modèle conceptuel de données du SIGB et aux structures de la base de données.

A chaque reformatage, il y a risque de dégradation de l'information (principe du téléphone arabe). Le reformatage devra dont être minimum : à la BNF, sauf à travailler en Intermarc, il y a déjà un premier reformatage pour passer en Unimarc.

Le SIGB doit offrir une gestion des formats marc le plus proche possible de celui de la BNF pour la partie bibliographique et autorités. Par exemple, si le système ne respecte pas la séparation vedettes affranchies et non affranchies, la récupération n'est pas possible

les règles de reformatage doivent pouvoir être adaptées facilement.

Les formats Marc locaux doivent pouvoir suivre les évolutions des formats et des pratiques de la BNF.

Traçabilité

La traçabilité doit permettre un historique des états de la notice : fournisseur, correspondance ente les identifiants serveurs et les identifiants locaux, date d'intégration, etc....

L'automate doit-être accompagné d'un outil de suivi de la récupération : notices récupérées, requêtes non abouties, temps moyen de réception des notices validées, .....

La traçabilité repose sur un système de numéros d'identification pérenne (permalien ou ARK).

Exemple d'accès au catalogue de la BNF pour une notice :

Notice n° : FRBNF30336012

http://catalogue.bnf.fr/ark:/12148/cb30336012z/ISBD

De la récupération à la synchronisation

Fondamental

Un catalogue, même celui de la BNF, n'est jamais figé.

Toute notice est susceptible d'être corrigée, modifiée ou supprimée.

Synchroniser son catalogue sur celui de la BNF, c'est avoir localement l'image la plus fidèle possible du catalogue de la BNF correspondant à son fonds.

Mises à jour

La BNF met mensuellement à disposition des fichiers ISO2709 contenant les notices créées, modifiées, ou supprimées de la BNF.

Ces fichiers doivent être régulièrement intégrés pour mettre à jour les notices recopiées localement. L'opération reste manuelle et souvent inutile : traitement de l'ensemble des modifications alors qu'aucune modification ne correspond au fonds local.

Cette opération n'est pertinente que pour les modifications : comment traiter une notice supprimée (fusion de notices, changement de gestion d'autorité), quand elle correspond à un document physiquement présent.

Les nouvelles notices seront requêtées au fur et à mesure des besoins (sauf récupération globale des autorités).

Automatisation des mises à jour

OAI/PMH est le seul protocole existant qui pourrait permettre une automatisation des mises à jour :

OAI n'est pas un outil de recherche, il permet de récupérer la totalité d'un ensemble de notices (moissonneur OAI).

Possibilité de limiter la moisson aux notices créées ou modifiées depuis une date donnée.

Le serveur OAI de la BNF permettrait de récupérer les notices bibliographiques.

Les notices sont retournées en Dublin core.

Le paramètre from de la commande ListRecords permettrait de retourner les notices modifiées dans le catalogue depuis une date donnée.

Autorités : récupération globale ou au coup par coup ?
  • Récupération au coup par coup

A chaque récupération d'une notice bibliographique ou autorité, on va chercher celles qui lui sont liées.

Avantages : le fichier d'autorités correspond exactement au besoin du catalogue.

Inconvénients : le parcours des notices liées peut entraîner la récupération de beaucoup de notices : termes génériques, spécifiques associés d'une vedette Rameau (par exemple Histoire universelle)

  • Récupération globale

Les fichiers d'autorités de la BNF sont recopiés intégralement sur le système local.

Avantages

- Les notices autorités sont disponibles immédiatement : système de requête inutile.

- Elles peuvent être utilisées pour les notices de gestion.

- Utilisation possible du référentiel indépendamment du catalogue local.

Inconvénients

- Taux d'utilisation souvent très faible pour certaines autorités : personne physique, collectivités,....

La solution est probablement dans un mélange des deux systèmes : récupération globale pour Rameau et titre uniforme, récupération au coup par coup pour le reste.

L'offre des SIGB.

Les SIGB maîtrisent la plupart des technologies nécessaires à l'automatisation de la constitution du catalogue :

Importation ISO2709

Tous les SIGB proposent un système d'importation en ISO2709/Unimarc, mais plus rare sont ceux qui proposent des outils de reformatage pour d'autres formats (Marc21, Intermarc, ..

Gestion des autorités

Les logiciels pour moyennes et grandes bibliothèques proposent de véritables systèmes d'autorités au format MARC, mais peu proposent l'importation des notices autorités.

Souvent la gestion des autorités est limitée à certains types.

Très rares sont les systèmes capables de gérer le répertoire RAMEAU avec son système de combinaisons d'autorités dans un même champ.

Protocoles d'interrogation

L'adoption des normes Z39.50, SRU/SRW, OAI fait doucement son chemin. Il faut cependant distinguer le client, qui permet l'interrogation, du serveur qui rend possible l'interrogation d'une base.

Pour la récupération, seule la partie client est intéressante.

Les implémentations concerne généralement l'Opac et pas le module de gestion du catalogue permettant de dériver une notice après interrogation.

Mais, la règle reste le catalogage manuel, l'utilisation des catalogues extérieurs n'est vue que comme un outil complémentaire.

Pour arriver à une synchronisation, il faut inverser la logique :

Le SIGB ne sert pas à cataloguer mais à constituer un catalogue, le catalogage manuel n'est qu'une solution de dernier recours. On pourrait imaginer un SIGB sans module de catalogage.