Reportage

 

Google, Altavista et les autres …

Publié le 22-02-2004 dans le thème Tous thèmes

Pays : Europe - Auteur : Damien Bancal


Pub : Tous les logiciels antispyware gratuits disponibles sur Internet

Note des lecteurs: 1.9/5

Google, Altavista et les autres …
Peut-on vraiment faire confiance aux moteurs de recherches qui dominent le monde Internet ? Est-ce que certains de ces outils peuvent se retourner contre les Internautes. Découverte de l'autre facette des moteurs de recherche.

Traque sur Internet
Depuis maintenant un an nous nous intéressons aux moteurs de recherches et plus exactement aux algorithmes de classification. Pour comprendre le fonctionnement d'un moteur, il faut expliquer le processus pour arriver à afficher les premiers résultats : d'abord constituer une base de sites, puis les sonder en les classant dans des thèmes généralistes (Informatique, Jeux, Sport, Nature…) en fonctions de paramètres.

Pour en savoir plus
Les secrets des moteurs de recherche

http://www.Linterweb.com

A Standard for Robot Exclusion", Martijn Koster
http://info.webcrawler.com/mak/projects/robots/norobots.html

The Web Robots Database
http://www.robotstxt.org/wc/active.html
http://www.robotstxt.org/wc/active/html/type.html

Ainsi lorsqu'un utilisateur effectue une requête, le moteur commence par déterminer le thème auquel se rapporte le vocabulaire de la recherche, puis classe par pertinence les documents. Du coup la qualité d'un moteur par rapport à un autre se situe dans le nombre de sites qu'il contient. Pour mesurer la taille de cet index nous avons donc cherché 40 000 mots français et examiné les 100 premiers résultats, voici ce qui en ressort : All the web : 259 636 sites, Lycos : 240 962 sites, Google : 219 973 sites, Hotbot : 144 945 sites, Altavista : 59 414 sites. Un site, dans notre cas représente un nom de domaine, ou un sous nom de domaine (cf : www.nic.fr). Il est à noter que seul Altavista propose une recherche "Française" tandis que les autres, ciblent les "Francophones" ce qui englobent le Québec, la Belgique,…

Etranges résultats
Ensuite nous avons étudié les résultats de Google, et nous sommes tombés sur quelques interrogations : Premièrement ces recherches étant effectuées par un mot clé il ressort qu'il faut absolument l'avoir dans l'adresse de son site : ex "allo". Google nous renvoie sur des liens tels que allocine.fr , allocine.com, alloprof.qc.ca, allo.ch, … Il en va pour tout les mots sauf certains comme "cinéma" : où l'on obtient : allocine.fr, allocine.com, cinema.lu , fcm.fr, cine6.fr, … Vous aurez remarqué le lien fcm qui n'a rien à voir avec le cinéma. Autre question, pourquoi sur 40 000 mots cela se vérifie dans 99 % des cas ? Notre Hypothèse est que Google modifie ces algorithmes en fonction de l'importance du mot clé cherché.

Référencement de la mort
Voici une méthode pour bien référencer son site. Prenons le cas d'un site en flash, qui se retrouve comme par miracle dans les 10 premiers du moteur de Recherche Google. On veut bien que beaucoup de site pointent vers lui, mais bon il faut tout de même un minimum de contenu. Les concepteurs de ce site en flash vont faire appel à la méthode qui tuera toute concurrence, le référencement Caméléon ! En quoi consiste cette méthode ? Elle est assez simple si on connaît un peu ses protocoles et bien sûr un minimum les algorithmes des moteurs (Ce qui d'ailleurs représente le plus de travail en terme de veille technologique, ndlr). Chaque moteur de recherche possède un ou plusieurs bots qui parcourent le web, pour aspirer les pages, afin de les classifier dans de superbes bases de données, qui peuvent s'étendre sur des centaines de serveurs.

Chaque bot possède lui aussi une identité, tout comme vous et moi. Peu importe le lieu de connexion, il va laisser une empreinte, par exemple : crawler12.googlebot.com pour un des bots (spider dans le jargon d'un référenceur, ndlr) de Google. En lisant un peu les RFC du protocole HTTP et en sachant coder un minimum, on devine que l'on peut récupérer cette empreinte de moteur de recherche avant de présenter le contenu de la page appelée. Ce qui veut dire que l'on pourra lui présenter un contenu
Sur mesure. Une belle base de donnée des empreintes de la plupart des moteurs, une base de donnée de page " caméléon " optimisée pour le référencement dédié au moteur de son choix, et notre site en flash laisse apercevoir une frame cachée pour le moteur avec plein de mots clés à l'intérieur… ou carrément laissé apparaître un autre site, mais heureusement l'option de cache de Google dévoilerait le pot au rose rapidement. Mais Google n'est pas l'unique (mais combien merveilleux, ndlr) moteur de recherche.

Autre interrogation, pourquoi le premier site personnel que l'on trouve sur Google est aux alentours de la 50ème place ? Notre Hypothèse est que Google, affecte plus de pertinence à un site professionnelle qu'à un site personnel. Il est tout de même surprenant, dans notre recherche cinéma, de classer le site d'une agence de communication qui de plus est une animation flash, donc sans contenu textuel avant un site personnel dédié uniquement au cinéma.

Deuxièmement, Google annonce qui balaye l'ensemble de son index au bout de quatre semaines. Pourquoi alors sur le mot "goret". Le site *.un.goret.org est référencé depuis maintenant un an ?
Notre Hypothèse est que Google respecte certainement ce délai mais uniquement pour certains sites. En effet un site comme tf1.fr ou comme allocine.com, qui ont un contenu suivant l'actualité, doivent donc être sondé par Google à des intervalles beaucoup plus petit. Troisièmement et dernière interrogation, le taux de sites personnels par rapport au site professionnels, est de 1 pour 1. Pourquoi y-a-t-il si peux de sites personnels (multimania, free, ou autres) de référencés ? Notre Hypothèse est qu'Internet regorge de sites personnels puisque c'est la base de ce réseau, mais comme Google accorde beaucoup d'importance au type de sites, les pages personnelles ne sont pas mises en valeur. Du coup il faut vraiment que la recherche ne soit pas trop généraliste pour que votre site perso ait la chance d'apparaître.

 

Conseiller cet article Réagir RSS ZATAZ Partager cet article sur Wikio Partager cet article sur Scoopeo Digger cet article ! Partager cet article avec mes amis sur Facebook ! Partager cet article sur Fuzz Partager cet article sur del.icio.us Envoyer cet article sur Blogmarks

Derniers contenus

Un Anonymous Français déclare la guerre aux hébergeurs

25-05-2012 à 13:05 - 1 commentaire(s)

Info zataz - Des dizaines d'hébergeurs sous le contrôle d'un Anonymous Français. Il déclare la guerre aux serveurs privés Dofus.

Votre compte Facebook a-t-il été infiltré ?

24-05-2012 à 12:09 - 0 commentaire(s)

Info zataz - Une vague de faux messages vise des milliers de comptes Français Facebook. Prudence aux photos sexy diffusées.

Fuite de données pour iPhone

22-05-2012 à 00:43 - 0 commentaire(s)

Info zataz - Un iPhone jailbreaké couplé avec Tweak Bulletin permet de passer outre le mot de passe d´ouverture du téléphone.

Téléphone portable ZTE piégé

22-05-2012 à 00:38 - 0 commentaire(s)

Le fabricant chinois de téléphone portable ZTE a confirmé la présence d'une porte dérobée dans l'un de ses smartphones sous Android.

Le Bureau de Justice US piraté

22-05-2012 à 00:31 - 0 commentaire(s)

Info zataz - Des milliers de données sensibles volées par des Anonymous au Bureau of Justice US.

Anonymous contre pédophiles

22-05-2012 à 00:09 - 0 commentaire(s)

Info ZATAZ : Plusieurs dizaines d´informations concernant des pédophiles présumés venant du réseau Darknet diffusées par des Anonymous.

Vulnérabilité sur les site de FHM, ELLE et Forbes

20-05-2012 à 20:38 - 0 commentaire(s)

Info zataz - Des failles découvertes sur les sites des magazines FHM, ELLE et Forbes peuvent mettre en danger les lecteurs internautes.

Anonymous menacent le gouvernement québécois

20-05-2012 à 20:28 - 0 commentaire(s)

Info @zataz - Le gouvernement Québécois veut faire interdire des manifestations étudiantes. Les Anonymous répondent en lançant des attaques informatiques.

Sur le même thème : Tous thèmes

L´ANSSI recrute de manière originale

INFO ZATAZ - L´Agence Nationale de la Sécurité des Système d'Information lance un recrutement fort sympathique pour les amateurs de chiffrement.

ThePirateBay Dancing, l´app qui fait sauter le filtrage des majors

Pour contrer le blocage et le filtrage de certains sites Internet dédiés au warez, un add-on baptisé ThePirateBay Dancing permet de contrer les restrictions imposées par les majors.

Consultation sur la neutralité du Net

Consultation sur la neutralité du Net : La Quadrature dénonce l'échec de l'approche attentiste

Vos fichiers pornos et votre patron

Votre employeur peut-il ouvrir les fichiers trouvés sur votre ordinateur de bureau... même les très intimes ?

Logitech Alert relie la vidéosurveillance HD à l’iPad

L´application Logitech Alert pour l´iPad comprend le visionnement à distance et la gestion du système de vidéosurveillance Logitech Alert pour la maison.

Fuite d´informations concernant Bank of America

Un internaute, se disant être des Anonymous, diffuse des contenus privés appartenant à la Bank of America.

Pour la presse Russe, Wikileaks est un nid du MI-6

Nous connaissions James Bond. Voici venir Julian Assange et Wikileaks, siège numérique du MI-6.

Les coiffeurs font la grève de la musique

Pour protester contre une augmentation de 1000% de la taxe musique imposée par la SPRE, les coiffeurs coupe la musique dans leur salon.

Vos réactions ( 0 )

Réagissez à ce contenu

Réagir

Vous devez vous identifier pour ajouter un commentaire.

Cliquer ici pour vous inscrire.

 


vpngratuit.fr - VPN Gratuit.

Crèez un site gratuitement.



Nuit du Hack 23/24 juin 2012.



ZATAZ.COm, site recommandé par ORANGE.       ZATAZ.COM trois fois récompensé par Microsoft


Application iPhone et iPad ZATAZ, gratuite et sans publicité.
Application iPhone et iPad ZATAZ, gratuite et sans publicité.



Labs ZATAZ

CVE-2011-3230 Apple Safari file:// Arbitrary Code Execution Metasploit Demo

Timeline : Vulnérabilité découverte par Aaron Sigel Publication coordonnée de la vulnérabilité le 12-10-2011 PoC Metasploit fournit le 16-10-2011 PoC fournit par : Aaron Sigel sinn3r Référence(s) : CVE-2011-3230 HT5000 Version(s) affectée(s) : Safari 5.1 pour Mac OS X v10.6.8 Safari 5.1 pour Mac [...]

Modules Metasploit Auxiliaires MySQL

Metasploit fournit des modules auxiliaires pour la base de données MySQL qui vous permettra de détecter la version du moteur de base de données, d’effectuer des attaques du type “brute force” au niveau de l’authentification sur la base de données, d’executer des requêtes SQL et de récupérer des [...]

Modules Metasploit Auxiliaires PostgreSQL

Metasploit fournit des modules auxiliaires pour la base de données PostgreSQL qui vous permettra de détecter la version du moteur de base de données, d’effectuer des attaques du type “brute force” au niveau de l’authentification sur la base de données, d’executer des requêtes SQL et lire des [...]

CVE-2011-0807 : Sun/Oracle GlassFish Server Authenticated Code Execution Metasploit Demo

Timeline : Vulnérabilité découverte par Jason Bowes et soumise à ZDI Notification initiale de ZDI vers le fournisseur le 23-09-20102 Publication coordonnée de la vulnérabilité le  19-04-2011 PoC Metasploit fournit le 04-08-2011 PoC fournit par : juan vazquez Joshua Abraham sinn3r Référence(s) [...]

Syndication RSS

nabaztag

  • http://www.wikio.fr
  • netvibes
  • NewsGator Online
  • Rojo
  • Bloglines
  • Google

ZATAZ mobile et PDA