Google,
Altavista et les autres …
Peut-on vraiment faire confiance aux moteurs de recherches qui dominent
le monde Internet ? Est-ce que certains de ces outils peuvent se retourner
contre les Internautes. Découverte de l'autre facette des moteurs
de recherche.
![]()
Traque
sur Internet
Depuis maintenant un an nous nous intéressons aux moteurs de
recherches et plus exactement aux algorithmes de classification. Pour
comprendre le fonctionnement d'un moteur, il faut expliquer le processus
pour arriver à afficher les premiers résultats : d'abord
constituer une base de sites, puis les sonder en les classant dans des
thèmes généralistes (Informatique, Jeux, Sport,
Nature…) en fonctions de paramètres.
| Pour
en savoir plus Les secrets des moteurs de recherche http://www.Linterweb.com A
Standard for Robot Exclusion", Martijn Koster The
Web Robots Database |
Ainsi lorsqu'un
utilisateur effectue une requête, le moteur commence
par déterminer le thème auquel se rapporte le vocabulaire
de la recherche, puis
classe par pertinence les documents. Du coup la qualité d'un
moteur par rapport à un autre se situe dans le nombre de sites
qu'il contient. Pour mesurer la taille de cet index nous avons donc
cherché 40 000 mots français et examiné les 100
premiers résultats, voici ce qui en ressort : All the web : 259
636 sites, Lycos : 240 962 sites, Google : 219 973 sites, Hotbot : 144
945 sites, Altavista : 59 414 sites. Un site, dans notre cas représente
un nom de domaine, ou un sous nom de domaine (cf : www.nic.fr).
Il est à noter que seul Altavista propose une recherche "Française"
tandis que les autres, ciblent les "Francophones" ce qui englobent
le Québec, la Belgique,…
Etranges résultats
Ensuite nous avons étudié les résultats de Google,
et nous sommes tombés sur quelques interrogations : Premièrement
ces recherches étant effectuées par un mot clé
il ressort qu'il faut absolument l'avoir dans l'adresse de son site
: ex "allo".
Google nous renvoie sur des liens tels que allocine.fr , allocine.com,
alloprof.qc.ca, allo.ch, … Il en va pour tout les mots sauf certains
comme "cinéma"
: où l'on obtient : allocine.fr, allocine.com, cinema.lu , fcm.fr,
cine6.fr, … Vous aurez remarqué le lien fcm qui n'a rien
à voir avec le cinéma. Autre question, pourquoi sur 40
000 mots cela se vérifie dans 99 % des cas ? Notre Hypothèse
est que Google modifie ces algorithmes en fonction de l'importance du
mot clé cherché.
|
Référencement
de la mort Chaque
bot possède lui aussi une identité, tout comme vous
et moi. Peu importe le lieu de connexion, il va laisser une empreinte,
par exemple : crawler12.googlebot.com pour un des bots (spider
dans le jargon d'un référenceur, ndlr) de Google.
En lisant un peu les RFC du protocole HTTP et en sachant coder
un minimum, on devine que l'on peut récupérer cette
empreinte de moteur de recherche avant de présenter le
contenu de la page appelée. Ce qui veut dire que l'on pourra
lui présenter un contenu |
Autre interrogation, pourquoi le premier site personnel que l'on trouve sur Google est aux alentours de la 50ème place ? Notre Hypothèse est que Google, affecte plus de pertinence à un site professionnelle qu'à un site personnel. Il est tout de même surprenant, dans notre recherche cinéma, de classer le site d'une agence de communication qui de plus est une animation flash, donc sans contenu textuel avant un site personnel dédié uniquement au cinéma.
Deuxièmement,
Google annonce qui balaye l'ensemble de son index au bout de quatre
semaines. Pourquoi alors sur le mot "goret".
Le site *.un.goret.org est référencé depuis maintenant
un an ?
Notre Hypothèse est que Google respecte certainement ce délai
mais uniquement pour certains sites. En effet un site comme tf1.fr ou
comme allocine.com, qui ont un contenu suivant l'actualité, doivent
donc être sondé par Google à des intervalles beaucoup
plus petit. Troisièmement et dernière interrogation, le
taux de sites personnels par rapport au site professionnels, est de
1 pour 1. Pourquoi y-a-t-il si peux de sites personnels (multimania,
free, ou autres) de référencés ? Notre Hypothèse
est qu'Internet regorge de sites personnels puisque c'est la base de
ce réseau, mais comme Google accorde beaucoup d'importance au
type de sites, les pages personnelles ne sont pas mises en valeur. Du
coup il faut vraiment que la recherche ne soit pas trop généraliste
pour que votre site perso ait la chance d'apparaître.
a>
Costa-Gavras, Rachid Bouchareb ou encore Gérard Jugnot font parti des réalisateurs à voter pour le projet de loi création et Internet.
Pas de changement depuis le dernier classement pour les deux premières places, avec Trojan.clicker.CM et Trojan.Downloader.WMA.Wimad.N. Le trojan Trojan.FakeAlert.PP gagne du terrain.
Sybase iAnywhere Offre de nouvelles fonctionnalités de sécurité mobile pour répondre aux problèmes accrus liès aux malware, pirates et virus informatiques.
Mobilegov, éditeur de solutions de sécurité basées sur la technologie brevetée de l'ADN du Numérique annonce le démarrage de projets pilotes avec deux organismes bancaires majeurs en Europe.
L'administration en charge du numéro de Sécurité Sociale diffuse les données sensibles de 20.000 américains qu'elle croyait décédés.
Un groupe de pirates a réussi a rediriger une page Internet appartenant au site du Centre National de la Recherche Scientifique.
Un robot va patrouiller dans les bureaux d'une firme japonaise afin de contrôler les employés couche tard !
Une start-up américaine met au point un casque de contrôle mental de jeux vidéo. La police est déjà intéressée par le matos !
Exclu - Étrange lien de redirection vidéo sur le site officiel du Ministère de la Défense Française.
Force Commerciale : recrutement de commerciaux et actualité de la vente.
Pour répondre à une demande forte du marché, Westcon Security France élargit son catalogue avec une formation sur les fondamentaux de la sécurité des systèmes d’information (SSI).
Ça vous dit de rouler dans la voiture du Président du Front National ? Pour 41.000 euros, vous avez les vitres blindées en plus.
Le jeu vidéo Battlefield 2 permettrait à des groupuscules néo nazis de recruter de nouveaux membres dans les rangs des jeunes joueurs.
Enquête interne chez Microsoft. Qui a diffusé une vidéo marketing à destination des vendeurs de Windows Vista Entreprise ?
Lespagesjuniors.com regroupe plus de 5.000 sites Internet sélectionnés pour les plus jeunes pour leur assurer une navigation sans risque.
Attention arme efficace et à tête chercheuse. Les services secrets isréaliens viennent de lancer un blog. Quatre agents racontent leurs journées.
Pas de changement depuis le dernier classement pour les deux premières places, avec Trojan.clicker.CM et Trojan.Downloader.WMA.Wimad.N. Le trojan Trojan.FakeAlert.PP gagne du terrain.
Sybase iAnywhere Offre de nouvelles fonctionnalités de sécurité mobile pour répondre aux problèmes accrus liès aux malware, pirates et virus informatiques.
Mobilegov, éditeur de solutions de sécurité basées sur la technologie brevetée de l'ADN du Numérique annonce le démarrage de projets pilotes avec deux organismes bancaires majeurs en Europe.
Lancement d'un site Web francophone entièrement dédié au monde du renseignement : www.lerenseignement.com
Qui a dit que le film à succès de Dany Boon, Bienvenue chez les Ch’tis, était une machine à fric ? Après les paillassons, les boites à “hinnn!”, le jeu vidéo, … va débarquer dans les boutiques le DVD. Le DVD original qui sera commercialisé entre 19 et 20 euros. Chez Carrefour, il est même [...]
Durant quelques heures, les 14 chansons du nouvel album de Carla Bruni auraient été diffusés sur le réseau des réseaux. Une promotion ou acte de piratage ? Personne n’est capable de le dire. Personne ne possède encore cet album baptisé Comme si de rien n’était. Il ne sera remis aux boutiques, comme aux sites de [...]
Petite coquille d’été pour un article du 3 juillet tiré du site du Figaro. Cet papier numérique propose de revenir sur une popularité en - baise - du président de la république française. Il fallait bien évidement comprendre et traduire l’erreur par “Flash actu : Popularité en baisse pour Sarkozy” et non pas “Flash actu : Popularité [...]
La tennis Woman française, Amélie Mauresmo, a fêté ses 29 ans, hier samedi. Un pirate informatique tunisien a souhaité lui faire un cadeau d’anniversaire. L’internaute, qui a signé Scarface Team, a été modifier le site web officiel de l’ancienne numéro 1 du tennis mondial, ameliemauresmo.fr. Le pirate a laissé plusieurs messages dont : “Une Faille [...]