Temps de lecture : 6 minutes

Savez-vous ce que le moteur de recherche que vous utilisez au quotidien a « dans le ventre » ?

Avant d’y référencer votre site, savez-vous ce que le moteur de recherche que vous utilisez au quotidien a « dans le ventre » ?

La réponse à cette question n’est pas si évidente.
En effet, bien que les moteurs tels que Google, Yahoo! ou encore Bing semblent très simples leur fonctionnement « sous le capot » est en réalité très complexe et élaboré. Nous vous proposons dans ce chapitre une analyse globale du fŒ1ctionnernent des moteurs de recherche, ainsi que des processus qui sont mis en œuvre pour traiter les documents, stocker les informations les concernant et restituer des résultats suite aux requêtes des utilisateurs.

Le fait bien maîtriser le fonctionnement outil de recherche vous permettra de mieux appréhender le référencement et l’optimisation de votre site.

Ce que vous aller apprendre

Qu’est-ce qu’un moteur de recherche ?

  • L’objectif d’un moteur de recherche
  • Des conseils concrets sur le fonctionnement des outils de recherche pour réussir son référencement web

Qu’est-ce qu’un moteur de recherche ?

Un moteur de recherche est un ensemble de logiciels parcourant le

Web, puis indexant automatiquement les pages visitées. Quatre étapes sont indispensables à son fonctionnement.

1.La collecte d’informations (crawl) grâce à des robots (aussi appelés spiders ou crawlers).

2.L’indexation des données collectées et la constitution base de données de documents nommée (index).

3.Le traitement des requêtes, avec tout particulièrement un système d’interrogation de l’index et de classement des résultats en fonction de critères pertinence suite à la saisie de ,mots-clés par l’utilisateur.

4.La restitution des résultats identifiés, dans ce qu’on appelle communément des SERP ou pages résultats, le plus souvent présentées sous la forme d’une liste de dix liens affichés les uns en dessous des autres

L’objectif d’un moteur de recherche

L’objectif d’un moteur de recherche est de mettre en relation l’internaute avec ce qu’il recherche.

COMMENT FONCTIONNENT LES OUTILS DE RECHERCHE ?

Les conseils concrets sur le fonctionnement des outils de recherche pour réussir son référencement web

Les crawlers ou spiders

Les spiders (également appelés agents, crawlers, robots ou encore bots) sont des programmes navigation visitant en permanence les pages web et leurs liens en vue d’indexer leurs contenus.

De la « Google Dance » à l’indexation en quasi temps réel

Il y a quelques années de cela, les mises à jour des index des moteurs étaient mensuelles.

Chaque mois, le moteur mettait à jour ses en supprimant un ancien index pour le remplacer par un nouveau, maintenu pendant les 30 derniers jours par ses robots, scrutant le Web à la de nouveaux documents ou de versions plus récentes pages dé à en sa possession.

Cette période avait notamment été appelée la « Google Dance » par certains webmasters. Pour l’anecdote, elle fut d’ailleurs pendant quelque temps indexée (c’est le cas de le dire) sur les phases de pleine lune. On savait, à cette époque, lorsque la pleine lune approchait, un nouvel index était en préparation chez Google. Nous verrons plus loin que « Google Dance » désigne désormais tout autre chose.

Ce système de mise à jour mensuelle des index n’a plus cours aujourd’hui. Pour la plupart, les moteurs gèrent le crawl de manière continue. Ils visitent plus fréquemment les pages à fort taux de renouvellement des contenus (très souvent mises à jour) et se rendent moins souvent sur les pages « statiques Ainsi, une page qui est mise à jour quotidiennement (par exemple, sur un site d’actualités) sera visitée chaque jour — voire plusieurs fois par jour — par le robot, tandis qu’une page rarement modifiée sera « crawlée » moins souvent.

De plus, la mise à jour du document dans l’index du moteur est quasi immédiate. Ainsi, une page souvent mise à jour sera le plus souvent disponible à la recherche sur le moteur quelques heures, voire quelques minutes plus tard. Ces pages récemment crawlées sont par
exemple identifiables sur Google qui affiche la date et l’heure d’indexation

Le résultat proposé à la figure 2-4 montre bien que la page proposée a été « crawlée » (sauvegardée par les spiders) quelques heures auparavant et qu’elle a été immédiatement traitée et disponible dans les résultats de recherche.

Le Minty Fresh Indexing
À la rni-2007, Google a accéléré son processus de prise en compte de documents, certaines se retrouvant dans l’index du moteur quelques minutes seulement après leur création/modification. Ce phénomène est appelé Minty Fresh Indexing par le moteur de
recherche

COMMENT FONCTIONNENT LES OUTILS DE RECHERCHE ?

Le moteur d’indexation

Une fois les pages du Web crawlées, le spider envoie au moteur d’indexation les informations collectées. Historiquement, plusieurs systèmes d’indexation des données été utilisés.

L’indexation en texte intégral : tous les mots d’une page, et plus globalement son code HTML, sont alors pris en compte.

Les systèmes d’indexation se chargent d’identifier en « plein texte » l’ensemble des mots des textes contenus dans les pages ainsi leur position.

Certains moteurs peuvent cependant limiter leur capacité d’indexation. Ainsi, pendant de longues années, Google s’est limité aux 101 premiers kilo-octets des pages (ce qui représentait cependant une taille assez conséquente). Cette limite n’est plus aujourd’hui d’actualité, mais elle a laissé dans les esprits l’idée qu’il ne faut pas proposer plus de 100 liens par page

En effet, au début de Google, il n’était pas intéressant dépasser la centaine de liens sortant d’une page puisque le moteur ne lisait pas tout le code. Mais cette époque est révolue bien longtemps et si vous proposez 500 liens dans une page, Google les lira sans problème ! Mais certaines légendes urbaines ont encore et toujours la vie dure. D’autres moteurs peuvent effectuer une sélection en fonction des formats de document (tableur Excel, présentation PowerPoint, fichier PDF, etc.).

Enfin, sachez que, comme pour les logiciels documentaires et les bases de données, une liste de mots « vides » (par exemple, « le », « la », « les », « et appelés stop words en anglais, est le plus souvent automatiquement exclue (pour économiser de l’espace de stockage) ou alors ces mots sont systématiquement éliminés à l’occasion requête (pour améliorer la rapidité des recherches).

Le traitement des stop words par les moteurs de recherche

On a souvent tendance à dire que les moteurs de recherche ignorent les stop words tels que « le », « la », « un », «de », «et », etc…

Ceci est exact, comme mentionné dans l’explication de Google dans son aide en ligne (http://www.google.fr/htlffr/help/basts.htnf) : « Google ignore les chaînes de caractères dont le poids sémantique est très faible (également désignés « mots vides » ou « bruit ») : le, la, les, du, vous, etc., mais aussi des mots spécialisés tels que « http et « com » et les lettres/chiffres d’un seul caractère, qui jouent rarement un rôle intéressant dans les recherches et risquent de ralentir notablement le processus. »

On pourrait donc logiquement s’attendre à ce qu’une sur les expressions « moteur de recherche et « moteur recherche donnent les mêmes résultats. Mais ça n’est pas le cas S’il existe ln certain recouvrement entre les deux pages de résultats, elles ne sont pas identiques.

Alors, cette différence ?
Cela semble venir du fait que Google tient compte de la proximité des mots entre eux dans son algorithme de pertinence.
L’index inversé

Au fur et à mesure de l’indexation et de l’analyse du contenu des pages web, un index des mots rencontrés est automatiquement enrichi. Cet index est constitué :

•d’un index principal ou maître, contenant I’ ensemble du corpus de données capturé par le spider (URL et/ou document) ;

• fichiers inverses ou index inversés, créés autour de I ‘index principal et contenant tous les termes d’accès (mots-clés) associés aux URL exactes des documents ces termes sur le Web.

L’objectif des fichiers inverses est simple.

Il s’agit d’espaces où sont répertoriés les différents termes rencontrés, chaque terme étant associé à toutes les pages où il figure. La recherche des documents dans lesquels ils sont présents s’en trouve ainsi fortement accélérée.

Les syntagmes, prochaine étape des index du futur ?

De nouvelles méthodes d’indexation se mettent en place, autour de la prise en compte des syntagmes ou groupes de mots (contrairement aux mots isolés analysés jusqu’à maintenant), ce qui pourrait profondément changer le paysage du référencement dans les années à venir.

Cela signifie que pour améliorer la qualité du moteur de recherche, par exemple dans la phrase « Le chien du voisin a aboyé toute la nuit on pourra isoler les trois syntagmes suivants : « Le chien du voisin », « a aboyé » et « toute la nuit ». Le moteur devra alors être capable
d’identifier que certains groupes de mots sont effectivement liés entre eux, alors que d’autres ne le sont pas.

Un tel moteur sera capable de reconnaître que la phrase « certains quartiers avec des architectures modernes ont vu le jour à côté de la vieille ville ne parle pas de l’architecture moderne de la vieille ville n mais bien des quartiers qui disposent de ce type d’architecture.

On le voit, le défi est énorme et la difficulté non négligeable. Il semble donc intéressant de passer à un système capable d’indexer des groupes de mots (syntagmes) au lieu de simples mots-clés isolés. Pendant très longtemps, les méthodes d’indexation de syntagmes ont buté sur ln écueil considérable : lorsqu’on indexe des groupes de mots, au lieu de mots isolés, la taille de l’index explose littéralement,

La mémoire nécessaire pour identifier les combinaisons de trois, quatre, cinq mots est également un obstacle.

Mais il est clair que la taille de l’index n’est pas un critère déterminant dans la pertinence d’un moteur. Encore faut-il avoir les « bonnes » pages et un algorithme tri efficace pour en extraire la substantifique moelle

COMMENT FONCTIONNENT LES OUTILS DE RECHERCHE ?

Le système de ranking

Le ranking est un processus qui consiste, pour le moteur, à classer automatiquement les données de l’index de façon à ce que, suite à une interrogation, les pages les plus pertinentes apparaissent en premier dans la liste de résultats. Le but du classement est d’afficher dans les 10 premières réponses les documents répondant le mieux à la recherche.

Pour cela, les moteurs élaborent en permanence de nouveaux algorithmes (des formules mathématiques utilisées pour classer les documents), qui représentent un véritable facteur différenciant.

Ces algorithmes ne sont donc que très rarement rendus publics. Ils sont dans la plupart des cas protégés par des brevets et font parfois l’objet de « secrets défense » voire de mythes
comparables à celui du 7X (principal composant du Coca-Cola).

Il existe plusieurs grandes méthodes de ranking des résultats et les moteurs utilisent pour la plupart un mélange ces différentes techniques.

  • Le tri par pertinence
  • Le tri par popularité (indice de popularité)
  • Le tri par mesure d’audience (indice de clic, SERP Bounce ou Pogosticking)
  • Le tri par catégorie ou clustering

Le logiciel de recherche/moteur d’interrogation

Le moteur d’interrogation (searcher) est l’interface frontale (formulaire de recherche) proposée aux utilisateurs. Plusieurs niveaux de requête (interface de recherche simple ou
avancée) sont généralement offerts. À chaque question, une requête est créée dans l’index et une page web dynamique restitue les résultats, souvent sous forme de listes ou cartes de
résultats.

La recherche avancée de Yahoo! (http://fr.search.yahoo.com/web/advanced) propose de nombreuses et puissantes fonctionnalités de recherche.

L’essentiel à retenir

Arrivés à la fin ce chapitre, vous devez avoir une bonne vision du fonctionnement des moteurs. Suffisante, en tout cas, pour bien appréhender leur organisation et la façon dont ils récupèrent, analysent et classent les données glanées sur le Web. Il est donc temps de mettre en place une stratégie référencement efficace et bien organisée, ce que nous allons voir au chapitre suivant.

Pin It on Pinterest

Share This