Google,
Altavista et les autres …
Peut-on vraiment faire confiance aux moteurs de recherches qui dominent
le monde Internet ? Est-ce que certains de ces outils peuvent se retourner
contre les Internautes. Découverte de l'autre facette des moteurs
de recherche.
![]()
Traque
sur Internet
Depuis maintenant un an nous nous intéressons aux moteurs de
recherches et plus exactement aux algorithmes de classification. Pour
comprendre le fonctionnement d'un moteur, il faut expliquer le processus
pour arriver à afficher les premiers résultats : d'abord
constituer une base de sites, puis les sonder en les classant dans des
thèmes généralistes (Informatique, Jeux, Sport,
Nature…) en fonctions de paramètres.
| Pour
en savoir plus Les secrets des moteurs de recherche http://www.Linterweb.com A
Standard for Robot Exclusion", Martijn Koster The
Web Robots Database |
Ainsi lorsqu'un
utilisateur effectue une requête, le moteur commence
par déterminer le thème auquel se rapporte le vocabulaire
de la recherche, puis
classe par pertinence les documents. Du coup la qualité d'un
moteur par rapport à un autre se situe dans le nombre de sites
qu'il contient. Pour mesurer la taille de cet index nous avons donc
cherché 40 000 mots français et examiné les 100
premiers résultats, voici ce qui en ressort : All the web : 259
636 sites, Lycos : 240 962 sites, Google : 219 973 sites, Hotbot : 144
945 sites, Altavista : 59 414 sites. Un site, dans notre cas représente
un nom de domaine, ou un sous nom de domaine (cf : www.nic.fr).
Il est à noter que seul Altavista propose une recherche "Française"
tandis que les autres, ciblent les "Francophones" ce qui englobent
le Québec, la Belgique,…
Etranges résultats
Ensuite nous avons étudié les résultats de Google,
et nous sommes tombés sur quelques interrogations : Premièrement
ces recherches étant effectuées par un mot clé
il ressort qu'il faut absolument l'avoir dans l'adresse de son site
: ex "allo".
Google nous renvoie sur des liens tels que allocine.fr , allocine.com,
alloprof.qc.ca, allo.ch, … Il en va pour tout les mots sauf certains
comme "cinéma"
: où l'on obtient : allocine.fr, allocine.com, cinema.lu , fcm.fr,
cine6.fr, … Vous aurez remarqué le lien fcm qui n'a rien
à voir avec le cinéma. Autre question, pourquoi sur 40
000 mots cela se vérifie dans 99 % des cas ? Notre Hypothèse
est que Google modifie ces algorithmes en fonction de l'importance du
mot clé cherché.
|
Référencement
de la mort Chaque
bot possède lui aussi une identité, tout comme vous
et moi. Peu importe le lieu de connexion, il va laisser une empreinte,
par exemple : crawler12.googlebot.com pour un des bots (spider
dans le jargon d'un référenceur, ndlr) de Google.
En lisant un peu les RFC du protocole HTTP et en sachant coder
un minimum, on devine que l'on peut récupérer cette
empreinte de moteur de recherche avant de présenter le
contenu de la page appelée. Ce qui veut dire que l'on pourra
lui présenter un contenu |
Autre interrogation, pourquoi le premier site personnel que l'on trouve sur Google est aux alentours de la 50ème place ? Notre Hypothèse est que Google, affecte plus de pertinence à un site professionnelle qu'à un site personnel. Il est tout de même surprenant, dans notre recherche cinéma, de classer le site d'une agence de communication qui de plus est une animation flash, donc sans contenu textuel avant un site personnel dédié uniquement au cinéma.
Deuxièmement,
Google annonce qui balaye l'ensemble de son index au bout de quatre
semaines. Pourquoi alors sur le mot "goret".
Le site *.un.goret.org est référencé depuis maintenant
un an ?
Notre Hypothèse est que Google respecte certainement ce délai
mais uniquement pour certains sites. En effet un site comme tf1.fr ou
comme allocine.com, qui ont un contenu suivant l'actualité, doivent
donc être sondé par Google à des intervalles beaucoup
plus petit. Troisièmement et dernière interrogation, le
taux de sites personnels par rapport au site professionnels, est de
1 pour 1. Pourquoi y-a-t-il si peux de sites personnels (multimania,
free, ou autres) de référencés ? Notre Hypothèse
est qu'Internet regorge de sites personnels puisque c'est la base de
ce réseau, mais comme Google accorde beaucoup d'importance au
type de sites, les pages personnelles ne sont pas mises en valeur. Du
coup il faut vraiment que la recherche ne soit pas trop généraliste
pour que votre site perso ait la chance d'apparaître.
25-05-2012 à 13:05 - 1 commentaire(s)
Info zataz - Des dizaines d'hébergeurs sous le contrôle d'un Anonymous Français. Il déclare la guerre aux serveurs privés Dofus.
24-05-2012 à 12:09 - 0 commentaire(s)
Info zataz - Une vague de faux messages vise des milliers de comptes Français Facebook. Prudence aux photos sexy diffusées.
22-05-2012 à 00:43 - 0 commentaire(s)
Info zataz - Un iPhone jailbreaké couplé avec Tweak Bulletin permet de passer outre le mot de passe d´ouverture du téléphone.
22-05-2012 à 00:38 - 0 commentaire(s)
Le fabricant chinois de téléphone portable ZTE a confirmé la présence d'une porte dérobée dans l'un de ses smartphones sous Android.
22-05-2012 à 00:31 - 0 commentaire(s)
Info zataz - Des milliers de données sensibles volées par des Anonymous au Bureau of Justice US.
22-05-2012 à 00:09 - 0 commentaire(s)
Info ZATAZ : Plusieurs dizaines d´informations concernant des pédophiles présumés venant du réseau Darknet diffusées par des Anonymous.
20-05-2012 à 20:38 - 0 commentaire(s)
Info zataz - Des failles découvertes sur les sites des magazines FHM, ELLE et Forbes peuvent mettre en danger les lecteurs internautes.
20-05-2012 à 20:28 - 0 commentaire(s)
Info @zataz - Le gouvernement Québécois veut faire interdire des manifestations étudiantes. Les Anonymous répondent en lançant des attaques informatiques.
INFO ZATAZ - L´Agence Nationale de la Sécurité des Système d'Information lance un recrutement fort sympathique pour les amateurs de chiffrement.
Pour contrer le blocage et le filtrage de certains sites Internet dédiés au warez, un add-on baptisé ThePirateBay Dancing permet de contrer les restrictions imposées par les majors.
Consultation sur la neutralité du Net : La Quadrature dénonce l'échec de l'approche attentiste
Votre employeur peut-il ouvrir les fichiers trouvés sur votre ordinateur de bureau... même les très intimes ?
L´application Logitech Alert pour l´iPad comprend le visionnement à distance et la gestion du système de vidéosurveillance Logitech Alert pour la maison.
Un internaute, se disant être des Anonymous, diffuse des contenus privés appartenant à la Bank of America.
Nous connaissions James Bond. Voici venir Julian Assange et Wikileaks, siège numérique du MI-6.
Pour protester contre une augmentation de 1000% de la taxe musique imposée par la SPRE, les coiffeurs coupe la musique dans leur salon.
Timeline : Vulnérabilité découverte par Aaron Sigel Publication coordonnée de la vulnérabilité le 12-10-2011 PoC Metasploit fournit le 16-10-2011 PoC fournit par : Aaron Sigel sinn3r Référence(s) : CVE-2011-3230 HT5000 Version(s) affectée(s) : Safari 5.1 pour Mac OS X v10.6.8 Safari 5.1 pour Mac [...]
Metasploit fournit des modules auxiliaires pour la base de données MySQL qui vous permettra de détecter la version du moteur de base de données, d’effectuer des attaques du type “brute force” au niveau de l’authentification sur la base de données, d’executer des requêtes SQL et de récupérer des [...]
Metasploit fournit des modules auxiliaires pour la base de données PostgreSQL qui vous permettra de détecter la version du moteur de base de données, d’effectuer des attaques du type “brute force” au niveau de l’authentification sur la base de données, d’executer des requêtes SQL et lire des [...]
Timeline : Vulnérabilité découverte par Jason Bowes et soumise à ZDI Notification initiale de ZDI vers le fournisseur le 23-09-20102 Publication coordonnée de la vulnérabilité le 19-04-2011 PoC Metasploit fournit le 04-08-2011 PoC fournit par : juan vazquez Joshua Abraham sinn3r Référence(s) [...]