You are on page 1of 4

Un moteur de recherche est une application permettant de retrouver des ressources (pages

Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques.
Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on
appelle alors moteur de recherche le site lui-même .

1 – Aspiration des données du web

Outil de recherche sur le Web constitué de « robots », encore appelés bots, spiders, agents
qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention
humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils
suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur
chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données,
accessible ensuite par les internautes à partir de mots-clés.

Aspirateur

Un moteur de recherche, contrairement à un annuaire, fonctionne avec des robots, dont le


but est de rechercher le plus de pages possibles, en suivant les liens d'un site à l'autre. Mais
il est impensable de faire cette opération qui nécessiterait des semaines pour chaque
requête d'un internaute. C'est pourquoi les résultats sont au préalables stockés dans une
immense base de donnée constamment mise à jour par des robots. Plus la vitesse de
rafraîchissement de cette base est importante, plus vous obtiendrez une représentation
fidèle du Web. Cette tache de recherche est confiée à des robots, spider (araignées). Nous
dirons plutôt, pour une meilleur compréhension qu'il s'agit d'aspirateurs.

Un aspirateur donc est un programme qui cherche des pages en passant de site en site et le
plus rapidement possible. Cette opération nécessite un logiciel et un ordinateur très
performants ainsi qu'une connexion Internet ultra rapide. Les aspirateurs actuels visualisent
dans les 100 pages par seconde pour les meilleurs. Il faudra donc disposer de plusieurs
aspirateur pour être performant (ou se contenter d'une remise à jour de l'index tous les
trimestres, ce qui est beaucoup trop lent vu l'évolution du Web actuel).

Mais les aspirateurs ne visualisent pas toute la page, comme nous la voyons. Seul des
balises comme le titre, ou encore la description et les mots clefs sont prises en compte, si
elles existent, ainsi que le début du texte de la page généralement.
Il ne faut pas oublier à ça l'URL de la page, qui doit être enregistrée, ainsi que les liens se
trouvant sur cette page, permettant d'arriver à d'autres pages et de les aspirer à leur tour.

Bien sur, lorsqu'il passe par une page déjà visitée il y a peu de temps, celle-ci est ignorée.
Dans le cas contraire, elle est placée dans la file d'attente des pages restant à visiter.

2 – Indexation des données

Toutes ces informations ont étés prisent à la volé, et ne figurent pas encore dans la base de
donnée du moteur de recherche. Il faut d'abord traiter ces pages (par exemple déterminer sa
langue, repérer les mots importants qui seront décisifs lors d'une recherche), l'aspirateur
cède alors sa place à l'indexeur. L'indexation des ressources récupérées consiste à extraire
les mots considérés comme significatifs du corpus à explorer. Les mots extraits sont
enregistrés dans une base de données organisée comme un gigantesque dictionnaire
inverse ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet de
retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné.
Les termes non significatifs s'appellent des mots vides. Les termes significatifs sont associés
à une valeur de poids. Ce poids correspond à une probabilité d'apparition du mot dans un
document. Cette probabilité est indiquée sous la forme d'une "fréquence de terme", ou
"inverse de fréquence de terme" et est souvent calculée par la formule TF-IDF.

Indexeur

Le but premier de l'indexeur est d'analyser les pages envoyées continuellement par
l'aspirateur. La première étape consiste à identifier la langue du document. Pour cela,
l'indexeur, qui est un programme rappelons le, ne peut pas faire autrement que d'utiliser une
méthode statistique, en recherchant les mots ou les lettres qui reviennent souvent dans une
langue. Essayer de comprendre le sens de chaque mot nécessiterait beaucoup plus de
temps et s'avèrerait très complexe.

Dans le même contexte, l'indexeur peut choisir d'ignorer certaines pages inopportunes, à
caractère pornographique ou raciste par exemple, en se basant sur une liste de mots
interdits.

Une fois cette lourde tache effectuée, il faut préparer les informations contenues dans les
pages pour êtres stockées dans une base de donnée. La première chose à faire, dans un
soucie de performance, est d'éliminer tout ce qui est inutile dans la page, comme les mots
courts (les articles par exemple), ainsi que les signes de ponctuation (seul les points sont
conservés).

L'opération suivante est de classer les mots de la page par ordre d'importance. Ainsi un mot
étant répété souvent ou précocement (dans le titre par exemple) dans la page sera
considéré comme important.
Pour un exemple pratique de ce à quoi peut ressembler cette opération pour un moteur, je
vous suggère de tester la page "Analyse des balises méta", qui se charge de noter les mots
importants de la page, avec un certain poids pour chacun.
Un autre critère important pris en compte est la popularité des pages. Plus elles sont
populaires (cités par d'autres pages), mieux elles seront classées.

Ce système pose néanmoins un problème de taille : quelqu'un souhaitant voir sa page en


première position dans un moteur de recherche pour le mot "mp3" n'hésitera pas à le répéter
dans la page pour lui donner plus d'importance. Cette technique s'appelle le spam indexing.
Une des méthodes employées par les webmasters consiste à répéter dans mots dans la
page en leur donnant la même couleur que l'arrière plan de celle-ci, et ainsi les camoufler
aux yeux des internautes. A noter que cette vieille technique est déjà contrée par tous les
robots.

Cela pose évidemment un autre problème à l'indexeur, qui ne doit pas se faire duper par les
webmasters. Plusieurs techniques sont mises en oeuvre pour limiter cette tricherie.
Une autre forme d'arnaque consiste à augmenter la popularité d'une page "artificiellement",
en créant des pages bidons, optimisées chacune pour certains mots clefs, qui redirigent
automatiquement l'internaute et le robot vers celle-ci. On parle alors de pages "Fantômes".
Dans ce cas, l'indexeur n'hésitera pas à supprimer simplement la page citée abusivement
par des pages fantômes.

Enfin, les pages ainsi traités peuvent être enregistrées dans la base de données du moteur
de recherche

B- Comment rechercher ?
La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un
algorithme est appliqué pour identifier dans le corpus documentaire (en utilisant l'index), les
documents qui correspondent le mieux aux mots contenus dans la requête, afin de présenter
les résultats des recherches par ordre de pertinence supposée. Les algorithmes de
recherche font l'objet de très nombreuses investigations scientifiques. Les moteurs de
recherche les plus simples se contentent de requêtes booléennes pour comparer les mots
d'une requête avec ceux des documents. Mais cette méthode atteint vite ses limites sur des
corpus volumineux. Les moteurs plus évoluées utilisent la formule TF-IDF pour mettre en
perspective le poids des mots dans une requête avec ceux contenus dans les documents.
Cette formule est utilisée pour construire des vecteurs de mots, comparés dans un espaces
vectoriel, par une mesure de Cosinus (la similarité Cosine). Pour améliorer encore les
performances d'un moteur, il existe de nombreuses techniques, la plus connue étant celle du
PageRank de Google qui permet de pondérer une mesure de cosinus en utilisant un indice
de notoriété de pages. Les recherches les plus récentes utilisent la méthode dîtes d'analyse
sémantique latente qui tente d'introduire l'idée de co-occurrences dans la recherche de
résultats (le terme "voiture" est automatiquement associé à ses mots proches tels que
"garage" ou un nom de marque dans le critère de recherche).

1- Trouver les mots les plus pertinents

Recherche d'une expression ("")


Vous pouvez placer plusieurs termes entre guillemets pour que Google recherche ces mots
exacts, dans cet ordre, sans apporter aucune modification. Les guillemets sont généralement
superflus, car Google accorde déjà une grande importance à l'ordre dans lequel vous
saisissez les termes et au fait qu'ils soient regroupés. Nous ne nous transgressons jamais
cette règle sans raison valable. Par ailleurs, sachez qu'en privilégiant les recherches
d'expression, vous risquez de passer à côté de résultats pertinents. Par exemple, si vous
lancez une recherche sur [ "Alexander Bell" ] (avec des guillemets), les pages faisant
référence à Alexander G. Bell ne vous seront pas proposées.

Recherche au sein d'un site Web spécifique (site:)


Vous pouvez demander à Google de renvoyer des résultats de recherche provenant d'un site
Web particulier. Par exemple, la requête [ irak site:lemonde.fr ] renvoie des pages sur l'Irak,
mais celles-ci proviennent uniquement du site lemonde.fr. Les requêtes simplifiées [ irak
lemonde.fr ] ou [ irak Le Monde ] vous permettent généralement d'obtenir les mêmes
résultats. Cependant, ces derniers peuvent provenir d'autres sites faisant référence au
journal Le Monde. Vous pouvez également définir une catégorie de sites. Par exemple, avec
la requête [ irak site:.gov ], Google renvoie uniquement les résultats issus d'un domaine .gov.
La requête [ irak site:.iq ] vous dirige exclusivement vers des sites irakiens.

Termes à exclure (-)


En ajoutant un signe moins (-) juste devant un terme, vous indiquez à Google de ne pas
renvoyer les pages contenant ce mot. Le signe moins doit être placé immédiatement devant
le terme et doit être précédé d'une espace. Prenons l'exemple de la requête [ casse-tête ].Ici,
le signe moins correspond à un trait d'union. Il n'est donc pas interprété comme un symbole
d'exclusion. En revanche, si vous saisissez [ casse-tête -chinois ], Google lance une
recherche sur les termes "casse-tête", en excluant les références au jeu chinois. Vous
pouvez exclure autant de mots que vous le souhaitez, en les faisant précéder du signe
moins (-). Exemple : [ jaguar -voitures -mac ]. Le signe - n'est pas uniquement réservé aux
mots. Vous pouvez, par exemple, placer un trait d'union juste devant l'opérateur "site:" (sans
espace) afin d'exclure un site des résultats de recherche.

Compléter une requête (*)


Le signe *, également appelé caractère générique, est une fonctionnalité peu connue qui
peut s'avérer très utile. Lorsque vous l'insérez dans une requête, Google le considère
comme un espace réservé à un ou plusieurs termes inconnus et renvoie ensuite les
meilleures correspondances. Par exemple, la recherche [ Google * ] renvoie des résultats
concernant de nombreux produits Google. Vous pouvez passer d'une page à l'autre afin
d'explorer nos différents produits. La requête [ le projet de loi * a été adopté le * ] renvoie
différents projets adoptés à différentes dates. À noter que l'opérateur * remplace uniquement
des termes entiers, et non des mots partiels.

Recherche exacte (+)


Google utilise automatiquement des synonymes. Par exemple, la requête [ deux points ]
(avec une espace) renvoie des pages mentionnant le signe "deux-points", et la recherche [
histoire R-U ]affiche des pages sur l'histoire du Royaume-Uni. Mais il arrive parfois que
Google vous aide un peu trop et renvoie des résultats basés sur un synonyme que vous ne
souhaitiez pas vraiment utiliser. Dans ce cas, vous pouvez placer un signe plus (+)
immédiatement devant un terme (sans espace après le signe +) pour que Google lance la
recherche sur ce mot, exactement comme vous l'avez saisi. Vous obtiendrez le même
résultat en plaçant le terme entre guillemets.

Opérateur OR
Par défaut, Google tient compte de l'ensemble des termes de recherche. Si vous souhaitez
lancer la recherche sur l'un ou l'autre des termes spécifiés, vous pouvez utiliser l'opérateur
OR (saisissez-le TOUT EN MAJUSCULES). Par exemple, la requête [ Girondins de
Bordeaux 2004 OR 2005 ] renvoie des résultats concernant l'une de ces années. En
revanche, lorsque vous saisissez [ Girondins de Bordeaux 2004 2005 ] (sans l'opérateur
OR), vous obtenez des pages faisant référence aux deux années. Vous pouvez remplacer
l'opérateur OR par le symbole |. Pour information, dans la mesure où l'opérateur AND est
utilisé par défaut, il n'est pas nécessaire de l'ajouter.

2-Les mots de liaisons

You might also like