permet de retrouver des ressources à partir des mots contenus dans les pages web (html).
repose sur une base d'indexation constituée automatiquement à partir du contenu des pages, alors qu'un annuaire est un catalogue de sites constitué par des être humains.
moteur de recherche est composé de :
-un robot qui parcourt la toile pour en explorer le contenu.
-une base d'indexation qui associe les mots extraits du contenu et des parties significatives aux pages dans une base de données.
-un moteur d'interrogation qui exécute les recherches et en présente le résultat.
parcourt les liens hypertextes pour trouver d'autres pages en partant d'un annuaire
analyse le contenu des pages HTML et de tous documents de type texte (PDF, documents bureautiques (Office open ou non) pour les indexer.
prend en compte les informations contenues dans le fichier robots.txt
revisite régulièrement les pages référencées : le délai entre deux passages est très variable et peut prendre plusieurs jours.
On appelle web invisible, toutes les données auxquelles les robots ne peuvent pas accéder parce que :
les données sont volontairement exclues : robots.txt, durée de vie limitée.
Il n'y a pas de page connue du robot avec un lien vers la page.
le lien hypertexte est généré dynamiquement à partir d'un formulaire.
Le lien renvoie à un contenu que le robot ne peut pas analyser : Javascript, Ajax, Flash, exécutables, images fixes ou animées, ISO2709, formats propriétaires.
une authentification est nécessaire pour accéder à la page.
le lien vers la donnée est en fin d'arborescence ou perdu au milieu d'une page de liens trop importante : web profond
On estime que le web invisible représente 90% des données de l'Internet.
Pour être vue sur Internet, une page de données doit être accessible directement via une adresse de type URL.
Ce permalien doit être indépendant du contexte (identifiant de session, cookie).
C'est l'objectif du système d'identifiants ARK (Archival Resource Key) adopté entre autre par la BNF. Exemple : http://catalogue.bnf.fr/ark:/12148/cb412122157
Quid de votre catalogue ? du SUDOC ?