Reportage

 

Google, Altavista et les autres …

Publié le 22-02-2004 dans le thème Tous thèmes

Pays : Europe - Auteur : Damien Bancal


Pub : CA Anti-Spyware 2007 - Les logiciels espions sont notre cible avant que vous ne deveniez la leur!

Note des lecteurs: 1.8/5

Google, Altavista et les autres …
Peut-on vraiment faire confiance aux moteurs de recherches qui dominent le monde Internet ? Est-ce que certains de ces outils peuvent se retourner contre les Internautes. Découverte de l'autre facette des moteurs de recherche.

Traque sur Internet
Depuis maintenant un an nous nous intéressons aux moteurs de recherches et plus exactement aux algorithmes de classification. Pour comprendre le fonctionnement d'un moteur, il faut expliquer le processus pour arriver à afficher les premiers résultats : d'abord constituer une base de sites, puis les sonder en les classant dans des thèmes généralistes (Informatique, Jeux, Sport, Nature…) en fonctions de paramètres.

Pour en savoir plus
Les secrets des moteurs de recherche

http://www.Linterweb.com

A Standard for Robot Exclusion", Martijn Koster
http://info.webcrawler.com/mak/projects/robots/norobots.html

The Web Robots Database
http://www.robotstxt.org/wc/active.html
http://www.robotstxt.org/wc/active/html/type.html

Ainsi lorsqu'un utilisateur effectue une requête, le moteur commence par déterminer le thème auquel se rapporte le vocabulaire de la recherche, puis classe par pertinence les documents. Du coup la qualité d'un moteur par rapport à un autre se situe dans le nombre de sites qu'il contient. Pour mesurer la taille de cet index nous avons donc cherché 40 000 mots français et examiné les 100 premiers résultats, voici ce qui en ressort : All the web : 259 636 sites, Lycos : 240 962 sites, Google : 219 973 sites, Hotbot : 144 945 sites, Altavista : 59 414 sites. Un site, dans notre cas représente un nom de domaine, ou un sous nom de domaine (cf : www.nic.fr). Il est à noter que seul Altavista propose une recherche "Française" tandis que les autres, ciblent les "Francophones" ce qui englobent le Québec, la Belgique,…

Etranges résultats
Ensuite nous avons étudié les résultats de Google, et nous sommes tombés sur quelques interrogations : Premièrement ces recherches étant effectuées par un mot clé il ressort qu'il faut absolument l'avoir dans l'adresse de son site : ex "allo". Google nous renvoie sur des liens tels que allocine.fr , allocine.com, alloprof.qc.ca, allo.ch, … Il en va pour tout les mots sauf certains comme "cinéma" : où l'on obtient : allocine.fr, allocine.com, cinema.lu , fcm.fr, cine6.fr, … Vous aurez remarqué le lien fcm qui n'a rien à voir avec le cinéma. Autre question, pourquoi sur 40 000 mots cela se vérifie dans 99 % des cas ? Notre Hypothèse est que Google modifie ces algorithmes en fonction de l'importance du mot clé cherché.

Référencement de la mort
Voici une méthode pour bien référencer son site. Prenons le cas d'un site en flash, qui se retrouve comme par miracle dans les 10 premiers du moteur de Recherche Google. On veut bien que beaucoup de site pointent vers lui, mais bon il faut tout de même un minimum de contenu. Les concepteurs de ce site en flash vont faire appel à la méthode qui tuera toute concurrence, le référencement Caméléon ! En quoi consiste cette méthode ? Elle est assez simple si on connaît un peu ses protocoles et bien sûr un minimum les algorithmes des moteurs (Ce qui d'ailleurs représente le plus de travail en terme de veille technologique, ndlr). Chaque moteur de recherche possède un ou plusieurs bots qui parcourent le web, pour aspirer les pages, afin de les classifier dans de superbes bases de données, qui peuvent s'étendre sur des centaines de serveurs.

Chaque bot possède lui aussi une identité, tout comme vous et moi. Peu importe le lieu de connexion, il va laisser une empreinte, par exemple : crawler12.googlebot.com pour un des bots (spider dans le jargon d'un référenceur, ndlr) de Google. En lisant un peu les RFC du protocole HTTP et en sachant coder un minimum, on devine que l'on peut récupérer cette empreinte de moteur de recherche avant de présenter le contenu de la page appelée. Ce qui veut dire que l'on pourra lui présenter un contenu
Sur mesure. Une belle base de donnée des empreintes de la plupart des moteurs, une base de donnée de page " caméléon " optimisée pour le référencement dédié au moteur de son choix, et notre site en flash laisse apercevoir une frame cachée pour le moteur avec plein de mots clés à l'intérieur… ou carrément laissé apparaître un autre site, mais heureusement l'option de cache de Google dévoilerait le pot au rose rapidement. Mais Google n'est pas l'unique (mais combien merveilleux, ndlr) moteur de recherche.

Autre interrogation, pourquoi le premier site personnel que l'on trouve sur Google est aux alentours de la 50ème place ? Notre Hypothèse est que Google, affecte plus de pertinence à un site professionnelle qu'à un site personnel. Il est tout de même surprenant, dans notre recherche cinéma, de classer le site d'une agence de communication qui de plus est une animation flash, donc sans contenu textuel avant un site personnel dédié uniquement au cinéma.

Deuxièmement, Google annonce qui balaye l'ensemble de son index au bout de quatre semaines. Pourquoi alors sur le mot "goret". Le site *.un.goret.org est référencé depuis maintenant un an ?
Notre Hypothèse est que Google respecte certainement ce délai mais uniquement pour certains sites. En effet un site comme tf1.fr ou comme allocine.com, qui ont un contenu suivant l'actualité, doivent donc être sondé par Google à des intervalles beaucoup plus petit. Troisièmement et dernière interrogation, le taux de sites personnels par rapport au site professionnels, est de 1 pour 1. Pourquoi y-a-t-il si peux de sites personnels (multimania, free, ou autres) de référencés ? Notre Hypothèse est qu'Internet regorge de sites personnels puisque c'est la base de ce réseau, mais comme Google accorde beaucoup d'importance au type de sites, les pages personnelles ne sont pas mises en valeur. Du coup il faut vraiment que la recherche ne soit pas trop généraliste pour que votre site perso ait la chance d'apparaître.

 

Conseiller cet article Réagir RSS ZATAZ Partager cet article sur Wikio Partager cet article sur Scoopeo Digger cet article ! Partager cet article avec mes amis sur Facebook ! Partager cet article sur Fuzz Partager cet article sur del.icio.us Envoyer cet article sur Blogmarks

Derniers contenus

31 réalisateurs en accord avec la loi création et Internet

Costa-Gavras, Rachid Bouchareb ou encore Gérard Jugnot font parti des réalisateurs à voter pour le projet de loi création et Internet.

Le Top 10 des menaces de juin 2008 selon BitDefender

Pas de changement depuis le dernier classement pour les deux premières places, avec Trojan.clicker.CM et Trojan.Downloader.WMA.Wimad.N. Le trojan Trojan.FakeAlert.PP gagne du terrain.

Sécurité dédiée aux terminaux mobiles

Sybase iAnywhere Offre de nouvelles fonctionnalités de sécurité mobile pour répondre aux problèmes accrus liès aux malware, pirates et virus informatiques.

Authentification forte

Mobilegov, éditeur de solutions de sécurité basées sur la technologie brevetée de l'ADN du Numérique annonce le démarrage de projets pilotes avec deux organismes bancaires majeurs en Europe.

Boulette informatique de la mort qui tue !

L'administration en charge du numéro de Sécurité Sociale diffuse les données sensibles de 20.000 américains qu'elle croyait décédés.

Une page du CNRS redirigée par un pirate

Un groupe de pirates a réussi a rediriger une page Internet appartenant au site du Centre National de la Recherche Scientifique.

Un robot policier pour traquer les heures'supps !

Un robot va patrouiller dans les bureaux d'une firme japonaise afin de contrôler les employés couche tard !

Votre ordinateur contrôlé par la pensée !

Une start-up américaine met au point un casque de contrôle mental de jeux vidéo. La police est déjà intéressée par le matos !

Sur le même thème : Tous thèmes

L'armée française a infiltré FREE

Exclu - Étrange lien de redirection vidéo sur le site officiel du Ministère de la Défense Française.

Force Commerciale

Force Commerciale : recrutement de commerciaux et actualité de la vente.

WESTCON SECURITY lance une nouvelle formation

Pour répondre à une demande forte du marché, Westcon Security France élargit son catalogue avec une formation sur les fondamentaux de la sécurité des systèmes d’information (SSI).

Le Pen vend son auto sur eBay

Ça vous dit de rouler dans la voiture du Président du Front National ? Pour 41.000 euros, vous avez les vitres blindées en plus.

Des néo nazis recrutent sur Battlefield 2

Le jeu vidéo Battlefield 2 permettrait à des groupuscules néo nazis de recruter de nouveaux membres dans les rangs des jeunes joueurs.

Vidéogate chez Microsoft: Le clip vidéo qui tue !

Enquête interne chez Microsoft. Qui a diffusé une vidéo marketing à destination des vendeurs de Windows Vista Entreprise ?

Lespagesjuniors.com, le portail des jeunes internautes

Lespagesjuniors.com regroupe plus de 5.000 sites Internet sélectionnés pour les plus jeunes pour leur assurer une navigation sans risque.

Des blogeurs chez les espions du Shin Bet

Attention arme efficace et à tête chercheuse. Les services secrets isréaliens viennent de lancer un blog. Quatre agents racontent leurs journées.

Vos réactions ( 0 )

Réagissez à ce contenu

Réagir

Vous devez vous identifier pour ajouter un commentaire.

Cliquer ici pour vous inscrire.

Derniers communiqués de presse

Le Top 10 des menaces de juin 2008 selon BitDefender

Pas de changement depuis le dernier classement pour les deux premières places, avec Trojan.clicker.CM et Trojan.Downloader.WMA.Wimad.N. Le trojan Trojan.FakeAlert.PP gagne du terrain.

Sécurité dédiée aux terminaux mobiles

Sybase iAnywhere Offre de nouvelles fonctionnalités de sécurité mobile pour répondre aux problèmes accrus liès aux malware, pirates et virus informatiques.

Authentification forte

Mobilegov, éditeur de solutions de sécurité basées sur la technologie brevetée de l'ADN du Numérique annonce le démarrage de projets pilotes avec deux organismes bancaires majeurs en Europe.

Lerenseignement.com

Lancement d'un site Web francophone entièrement dédié au monde du renseignement : www.lerenseignement.com

Stars-buzz.com

Reserver le DVD de Bienvenue chez les Ch?tis et vous repartirez avec un gilet jaune

Qui a dit que le film à succès de Dany Boon, Bienvenue chez les Ch’tis, était une machine à fric ? Après les paillassons, les boites à “hinnn!”, le jeu vidéo, … va débarquer dans les boutiques le DVD. Le DVD original qui sera commercialisé entre 19 et 20 euros. Chez Carrefour, il est même [...]

Le disque de Carla Bruni sur Internet ?

Durant quelques heures, les 14 chansons du nouvel album de Carla Bruni auraient été diffusés sur le réseau des réseaux. Une promotion ou acte de piratage ? Personne n’est capable de le dire. Personne ne possède encore cet album baptisé Comme si de rien n’était. Il ne sera remis aux boutiques, comme aux sites de [...]

Une petite baise avec Sarkozy ?

Petite coquille d’été pour un article du 3 juillet tiré du site du Figaro. Cet papier numérique propose de revenir sur une popularité en - baise - du président de la république française. Il fallait bien évidement comprendre et traduire l’erreur par “Flash actu : Popularité en baisse pour Sarkozy” et non pas “Flash actu : Popularité [...]

Un pirate souhaite l?anniversaire d?Amelie Mauresmo à sa façon

La tennis Woman française, Amélie Mauresmo, a fêté ses 29 ans, hier samedi. Un pirate informatique tunisien a souhaité lui faire un cadeau d’anniversaire. L’internaute, qui a signé Scarface Team, a été modifier le site web officiel de l’ancienne numéro 1 du tennis mondial, ameliemauresmo.fr. Le pirate a laissé plusieurs messages dont : “Une Faille [...]

Syndication RSS

nabaztag

  • http://www.wikio.fr
  • netvibes
  • NewsGator Online
  • Rojo
  • Bloglines
  • Google

ZATAZ mobile et PDA