Projet Théorique
Par: FelixAube et BenoitMontminy
Page mise à jour le 4 avril 2007
Les moteurs de recherche: pour ceux qui ne connaissent rien à la mécanique
, etc.
Introduction
Il est étonnant de constater avec quelle facilité on arrive à trouver des informations sur la météo, l'actualité, les plus récents résultats sportifs et autres données essentielles à notre vie quotidienne sur Internet. Quelques mots-clés insérés dans l'espace approprié, un petit coup sur «enter», et voilà, que quelques milliers de pages relatives à votre requête apparaissent. De toute évidence, il est impossible de retenir par coeur toutes les pages que vous consultez et un annuaire comprenant toutes les pages Web existantes, en plus de peser une tonne, devrait être remis à jour toutes les cinq minutes. Une solution facile: les moteurs de recherche. Il sont devenus au fil des ans un outil d'usage courant, voire quotidien, comme en témoigne cette statistique: 130 millions de requêtes sont faites chaque jour sur Google seulement. Cependant, plusieurs questions demeurent. D'où ca vient? Comment ça fonctionne? Y-a-t-il des enjeux qui nous échappent? Tout comme il n'est pas nécessaire de connaître le fonctionnement d'un moteur à injection pour rouler en voiture, on peut tout ignorer des moteurs de recherche et s'en servir. Cette page est destinée à ceux qui préfèrent savoir à quoi ils ont affaire.
Historique
Le moteur de recherche que vous utilisez, quel qu’il soit, descend d’un même ancêtre :«Archie». Il s’agit d’un logiciel créé en 1990 par quatre étudiants de l’université McGill, Peter Deutsch, Alan Emtage, Bill Heelan et Mike Parker, dans le but de rechercher des documents sur Internet. «Archie» contenait des archives (d’où son nom) de FTP (File Transfer Protocol) stockées dans une base de donnée. Celle-ci était remise à jour tous les mois et permettait d’effectuer des recherches par mots-clés, à l’image des moteurs de recherche subséquents. Avec l’avènement du Web et son expansion, l’ancêtre «Archie» a fait des petits, parmi lesquels Wanderer, Lycos, Altavista, etc. Ces nouveaux venus ont tous développé des traits qui leur sont propres, notamment dans la façon d’effectuer la recherche. Certains, comme Altavista, sont devenus des «Superstar» pendant un certain temps, jusqu’à ce que Google les détrônent. À l’heure actuelle, environ 50% des recherches, tous moteurs confondus, sont faites à partir de Google, ce qui laisse les principaux concurrents loin derrière. Récemment, Microsoft est entré dans la compétition avec son moteur Windows Live Search et de toute évidence les enjeux, économiques en particulier, sont énormes. À titre d'illustration, le coût de l'offensive de Microsoft pour tenter de se tailler une place dans ce marché est estimée à 100 millions de dollars jusqu'à maintenant et ce n'est qu'un début. Ces questions seront traitées plus en profondeur dans la section «Promesses, limites et enjeux»
Pour un historique plus complet des principaux descendants d’Archie, vous pouvez consulter le site suivant : http://www.neximedia.com/actualites--news-du-net/moteurs-de-recherche-web--plus-de-15-ans-dhistoire.html
Définition
Fonctionnement
Un moteur de recherche est un logiciel permettant de retracer des ressources de toutes sortes (images, vidéos, textes, etc.) sur Internet. Pour ce faire, les moteurs de recherche ont recours à des «robots» qui parcourent systématiquement le Web à la recherche de nouvelles adresses pouvant être référencées. Les pages ainsi identifiées sont indexées dans une base de données mise à la disposition des internautes qui peuvent effectuer des requêtes à partir de mots-clés. Le fonctionnement d’un moteur de recherche se résume donc essentiellement à trois étapes : l’EXPLORATION du Web, l’INDEXATION des ressources et la RECHERCHE faite par l’internaute. Certains sites Web, tel Google, offrent comme principale fonctionnalité un moteur de recherche, de sorte que l’on nomme ces sites «moteurs de recherche». D’autres outils de recherche créent un annuaire de sites Web grâce à l’œuvre de ressources humaines; Yahoo en est un exemple. D’autres encore, lancent des recherches simultanées sur différents moteurs. On les appelle métamoteurs. Ces deux types d’outils de recherche ne sont pas, à proprement parler, des moteurs de recherche. En conséquence, il n’en sera pas question dans la suite de cette page.
Financement
Les moteurs de recherche agissent comme des plaques tournantes de l'information sur le web. Leur usage est omniprésent, voire incontournable, dans la recherche sur internet. Pas étonnant que leur activité soit devenue, au fil des années, très lucrative. Leur financement relève, dans un premier temps, de la publicité ciblée et stratégique. Ainsi, les auteurs de sites web achètent des mots-clé pour voir apparaître des publicités en lien avec ces mots. Par exemple, une agence de rencontre pourra acheter les mots «rencontre», «amour», etc. L'autre moyen de rendre lucrative l'activité des moteurs de recherche réside dans la vente de la technologie, c'est-à-dire dans l'offre de services à des entreprises. Par exemple, plusieurs compagnies possèdent une quantité énorme d'informations sur leur intranet. Dans le but d'éviter que ces informations ne se retrouvent sur le web, ceux-ci achètent un moteur de recherche personnalisé pour gérer l'information de l'entreprise, sans que celle-ci soit accessible au reste de la population.
Comment les moteurs de recherche arrivent à trouver l'information dont j'ai besoin ?
L'ordre d'apparition des articles d'un moteur de recherche relève d'un processus précis. Les sites apparaissent généralement par ordre décroissant de popularité. Ainsi, lorsqu'une recherche est effectuée à l'aide du mot «voyage», les sites ayant été le plus souvent consultés apparaissent en premier. Les moteurs de recherche font la classification par thème des mots recherchés. Lorsque la recherche comporte plusieurs mots, le moteur utilise chacun des mots pour rechercher selon la procédure illustrée par le dessin suivant:
http://www.univ-orleans.fr/SCIENCES/LIFO/Members/cleuziou/publis/cleuziou_cap02.pdf
Ce site pourra par ailleurs intéresser ceux qui voudraient approfondir les mathématiques fort complexes que suppose le fonctionnement d'un moteur de recherche. À ce sujet, il est intéressant de noter que, malgré des similarités évidentes quant au processus de recherche, l'algorithme qui définit l'ordre d'apparition des résultats d'une requête est jalousement préservé par les créateurs des différents moteurs de recherche. C'est ce qui les rend uniques, plus ou moins performants au goût des utilisateurs, etc.
Un point intéressant que nous n'avons pas abordé dans ce projet est l'étude des similarités entre la structuration des données et leur utilisation sur le web et les processus neuronaux du cerveau humain. Voici en lien, un site qui y fait allusion: http://jacquespaillard.apinc.org/pdf/197-dialogues-sensori-moteurs-90.pdf
Concepts liés
Les éditeurs de siteweb utilisent aussi des méta-tags. Ceux-ci agissent en tant qu'outils de référencement pour les moteurs de recherche. On appelle »méta-name», les mots situés dans l'en-tête du document html et «méta HTTP-EQUIV», les informations supplémentaires dont dispose le navigateur pour l'aider à classer les sites. Ces derniers ne sont toutefois pas visibles pour l'utilisateur. Certains webmestres incluent d'ailleurs les mots mal orthographiés dans les «méta HTTP-EQUIV», pour permettre de faire le lien entre un site web au nom subtil et la recherche mal orthographiée d'un internaute. D'autres concepts, dont il a été question précédemment, sont liés (et même confondus) aux moteurs de recherche. C'est le cas des méta-moteurs et des annuaires. (voir section «Définition»)
Promesses, limites et enjeux
Les moteurs de recherche sont déjà extrêmement utiles. Les développements qu'ils ont connus depuis leur apparition sont spectaculaires et l'entrée dans le marché de joueurs majeurs laisse anticiper que les progrès continueront de se succéder à un rythme soutenu. L'interface se simplifie, la qualité des résultats obtenus s'accroît, etc. Il ne faut pas pour autant laisser de côté les enjeux, économiques en particulier, posés par les moteurs de recherche. Le marché des moteurs de recherche est concentré dans les mains de trois grands acteurs: Microsoft, Google et Yahoo (un annuaire en fait). Cela rend possible des dérives, notamment la « manipulation de l'information à des fins mercantiles, le détournement des algorithmes de classement (Google bombing, par exemple), etc.1» Nous nous contenterons d'esquisser ici le genre d'enjeu en question à l'aide d'un exemple particulièrement intéressant. Un article du journal le Devoir faisait récemment état de pratiques fort douteuses mises de l'avant par Microsoft dans ses efforts pour concurrencer Google. Il s'agit d'inciter (comprendre payer $$$ ) des entreprises à utiliser son propre moteur en les rétribuant en fonction du nombre de recherches effectuées. Des entreprises, soucieuses de maximiser l'entrée d'argent que permet cette entente, ont bloqué l'accès à Google pour leurs employés.
Voir l'article du Devoir: http://www.ledevoir.com/2007/03/19/135590.html
1 http://linuxfr.org/2004/05/18/16260.html
Bien sûr, devant ce caractère économique des enjeux, des acteurs cherchent de nouvelles avenues. Ainsi, des logiciels libres ont été créés, par exemple Mozdex. C'est peut-être là l'une des promesses les plus intéressantes en ce qui a trait aux moteurs de recherche.
L'utilisation des moteurs de recherche dans l'enseignement
Les moteurs de recherche sont particulièrement utiles en éducation, du simple fait que la quasi totalité des recherches réalisées par les élèves sur le web s'effectuent par leur intermédiaire. L'apprentissage de leur fonctionnement s'avère donc pertinent dans le but d'améliorer la compréhension du concept et l'efficacité des recherches entreprises par l'élève. Il peut aussi s'avérer pertinent de sensibiliser les élèves à l'importance d'exercer un jugement critique par rapport à l'information qui se trouve sur le web. Par exemple, le fait que Google place un site en tête à la suite d'une requête ne constitue en rien une assurance quant à la qualité du contenu. Au contraire, comme il a été mentionné précédemment, cela signifie seulement que le site est largement consulté par les internautes. Cela peut sembler évident pour un adulte, mais peut l'être moins pour un jeune adolescent.
Pistes d'approfondissement sur les moteurs de recherche
http://www.iro.umontreal.ca/~nie/IFT6255/Introduction.html
http://fr.wikipedia.org/wiki/Moteur_de_recherche
http://jacquespaillard.apinc.org/pdf/197-dialogues-sensori-moteurs-90.pdf
http://www.commentcamarche.net/html/htmlmeta.php3
http://www.univ-orleans.fr/SCIENCES/LIFO/Members/cleuziou/publis/cleuziou_cap02.pdf
http://www.journaldunet.com/0407/040702msn.shtml
http://www.journaldunet.com/solutions/0604/060407-referencement-fonctionnement-moteur.shtml