Fonctionnement des moteurs de recherche

Moteur de recherche internet

  • permet de retrouver des ressources à partir des mots contenus dans les pages web (html).

  • repose sur une base d'indexation constituée automatiquement à partir du contenu des pages, alors qu'un annuaire est un catalogue de sites constitué par des être humains.

  • moteur de recherche est composé de :

    -un robot qui parcourt la toile pour en explorer le contenu.

    -une base d'indexation qui associe les mots extraits du contenu et des parties significatives aux pages dans une base de données.

    -un moteur d'interrogation qui exécute les recherches et en présente le résultat.

Robot (crawler ou spider)

  • parcourt les liens hypertextes pour trouver d'autres pages en partant d'un annuaire

  • analyse le contenu des pages HTML et de tous documents de type texte (PDF, documents bureautiques (Office open ou non) pour les indexer.

  • prend en compte les informations contenues dans le fichier robots.txt

  • revisite régulièrement les pages référencées : le délai entre deux passages est très variable et peut prendre plusieurs jours.

web invisible

On appelle web invisible, toutes les données auxquelles les robots ne peuvent pas accéder parce que :

  • les données sont volontairement exclues : robots.txt, durée de vie limitée.

  • Il n'y a pas de page connue du robot avec un lien vers la page.

  • le lien hypertexte est généré dynamiquement à partir d'un formulaire.

  • Le lien renvoie à un contenu que le robot ne peut pas analyser : Javascript, Ajax, Flash, exécutables, images fixes ou animées, ISO2709, formats propriétaires.

  • une authentification est nécessaire pour accéder à la page.

  • le lien vers la donnée est en fin d'arborescence ou perdu au milieu d'une page de liens trop importante : web profond

On estime que le web invisible représente 90% des données de l'Internet.

URL et permaliens

Pour être vue sur Internet, une page de données doit être accessible directement via une adresse de type URL.

Ce permalien doit être indépendant du contexte (identifiant de session, cookie).

C'est l'objectif du système d'identifiants ARK (Archival Resource Key) adopté entre autre par la BNF. Exemple : http://catalogue.bnf.fr/ark:/12148/cb412122157

Quid de votre catalogue ? du SUDOC ?

AccueilPourquoi vos documents n'apparaissent pas dans les moteurs de recherche > Fonctionnement des moteurs de recherche< PrécédentSuivant >