Professional Documents
Culture Documents
Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques.
Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on
appelle alors moteur de recherche le site lui-même .
Outil de recherche sur le Web constitué de « robots », encore appelés bots, spiders, agents
qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention
humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils
suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur
chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données,
accessible ensuite par les internautes à partir de mots-clés.
Aspirateur
Un aspirateur donc est un programme qui cherche des pages en passant de site en site et le
plus rapidement possible. Cette opération nécessite un logiciel et un ordinateur très
performants ainsi qu'une connexion Internet ultra rapide. Les aspirateurs actuels visualisent
dans les 100 pages par seconde pour les meilleurs. Il faudra donc disposer de plusieurs
aspirateur pour être performant (ou se contenter d'une remise à jour de l'index tous les
trimestres, ce qui est beaucoup trop lent vu l'évolution du Web actuel).
Mais les aspirateurs ne visualisent pas toute la page, comme nous la voyons. Seul des
balises comme le titre, ou encore la description et les mots clefs sont prises en compte, si
elles existent, ainsi que le début du texte de la page généralement.
Il ne faut pas oublier à ça l'URL de la page, qui doit être enregistrée, ainsi que les liens se
trouvant sur cette page, permettant d'arriver à d'autres pages et de les aspirer à leur tour.
Bien sur, lorsqu'il passe par une page déjà visitée il y a peu de temps, celle-ci est ignorée.
Dans le cas contraire, elle est placée dans la file d'attente des pages restant à visiter.
Toutes ces informations ont étés prisent à la volé, et ne figurent pas encore dans la base de
donnée du moteur de recherche. Il faut d'abord traiter ces pages (par exemple déterminer sa
langue, repérer les mots importants qui seront décisifs lors d'une recherche), l'aspirateur
cède alors sa place à l'indexeur. L'indexation des ressources récupérées consiste à extraire
les mots considérés comme significatifs du corpus à explorer. Les mots extraits sont
enregistrés dans une base de données organisée comme un gigantesque dictionnaire
inverse ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet de
retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné.
Les termes non significatifs s'appellent des mots vides. Les termes significatifs sont associés
à une valeur de poids. Ce poids correspond à une probabilité d'apparition du mot dans un
document. Cette probabilité est indiquée sous la forme d'une "fréquence de terme", ou
"inverse de fréquence de terme" et est souvent calculée par la formule TF-IDF.
Indexeur
Le but premier de l'indexeur est d'analyser les pages envoyées continuellement par
l'aspirateur. La première étape consiste à identifier la langue du document. Pour cela,
l'indexeur, qui est un programme rappelons le, ne peut pas faire autrement que d'utiliser une
méthode statistique, en recherchant les mots ou les lettres qui reviennent souvent dans une
langue. Essayer de comprendre le sens de chaque mot nécessiterait beaucoup plus de
temps et s'avèrerait très complexe.
Dans le même contexte, l'indexeur peut choisir d'ignorer certaines pages inopportunes, à
caractère pornographique ou raciste par exemple, en se basant sur une liste de mots
interdits.
Une fois cette lourde tache effectuée, il faut préparer les informations contenues dans les
pages pour êtres stockées dans une base de donnée. La première chose à faire, dans un
soucie de performance, est d'éliminer tout ce qui est inutile dans la page, comme les mots
courts (les articles par exemple), ainsi que les signes de ponctuation (seul les points sont
conservés).
L'opération suivante est de classer les mots de la page par ordre d'importance. Ainsi un mot
étant répété souvent ou précocement (dans le titre par exemple) dans la page sera
considéré comme important.
Pour un exemple pratique de ce à quoi peut ressembler cette opération pour un moteur, je
vous suggère de tester la page "Analyse des balises méta", qui se charge de noter les mots
importants de la page, avec un certain poids pour chacun.
Un autre critère important pris en compte est la popularité des pages. Plus elles sont
populaires (cités par d'autres pages), mieux elles seront classées.
Cela pose évidemment un autre problème à l'indexeur, qui ne doit pas se faire duper par les
webmasters. Plusieurs techniques sont mises en oeuvre pour limiter cette tricherie.
Une autre forme d'arnaque consiste à augmenter la popularité d'une page "artificiellement",
en créant des pages bidons, optimisées chacune pour certains mots clefs, qui redirigent
automatiquement l'internaute et le robot vers celle-ci. On parle alors de pages "Fantômes".
Dans ce cas, l'indexeur n'hésitera pas à supprimer simplement la page citée abusivement
par des pages fantômes.
Enfin, les pages ainsi traités peuvent être enregistrées dans la base de données du moteur
de recherche
B- Comment rechercher ?
La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un
algorithme est appliqué pour identifier dans le corpus documentaire (en utilisant l'index), les
documents qui correspondent le mieux aux mots contenus dans la requête, afin de présenter
les résultats des recherches par ordre de pertinence supposée. Les algorithmes de
recherche font l'objet de très nombreuses investigations scientifiques. Les moteurs de
recherche les plus simples se contentent de requêtes booléennes pour comparer les mots
d'une requête avec ceux des documents. Mais cette méthode atteint vite ses limites sur des
corpus volumineux. Les moteurs plus évoluées utilisent la formule TF-IDF pour mettre en
perspective le poids des mots dans une requête avec ceux contenus dans les documents.
Cette formule est utilisée pour construire des vecteurs de mots, comparés dans un espaces
vectoriel, par une mesure de Cosinus (la similarité Cosine). Pour améliorer encore les
performances d'un moteur, il existe de nombreuses techniques, la plus connue étant celle du
PageRank de Google qui permet de pondérer une mesure de cosinus en utilisant un indice
de notoriété de pages. Les recherches les plus récentes utilisent la méthode dîtes d'analyse
sémantique latente qui tente d'introduire l'idée de co-occurrences dans la recherche de
résultats (le terme "voiture" est automatiquement associé à ses mots proches tels que
"garage" ou un nom de marque dans le critère de recherche).
Opérateur OR
Par défaut, Google tient compte de l'ensemble des termes de recherche. Si vous souhaitez
lancer la recherche sur l'un ou l'autre des termes spécifiés, vous pouvez utiliser l'opérateur
OR (saisissez-le TOUT EN MAJUSCULES). Par exemple, la requête [ Girondins de
Bordeaux 2004 OR 2005 ] renvoie des résultats concernant l'une de ces années. En
revanche, lorsque vous saisissez [ Girondins de Bordeaux 2004 2005 ] (sans l'opérateur
OR), vous obtenez des pages faisant référence aux deux années. Vous pouvez remplacer
l'opérateur OR par le symbole |. Pour information, dans la mesure où l'opérateur AND est
utilisé par défaut, il n'est pas nécessaire de l'ajouter.