Le filtre Google Penguin fait le ménage, dessin de Fred9.com, réalisé sur Galaxy Note, le 23.5.2013 Penguin 2.0, c’est le nom du nouvel filtre de Google. Ce filtre est actif depuis le 23/05/2013. Il se propose de lutter plus efficacement contre le spam. Son arme est simple :  déclasser les sites qui ont recours aux techniques de référencement proscrites par Google. Que vise précisément ce nouveau filtre ? Beaucoup de sites sont-ils impactés par ce nouveau filtre ? Ces questions ne touchent pas seulement les créateurs de sites ou les référenceurs (personnes chargées d’optimiser la position d’un site sur les moteurs de recherche), tout utilisateur de Google est concerné par cette mise à jour, car les résultats des recherches s’en trouvent modifiées en profondeur.
C’est en proposant des évolutions régulières de cette sorte que Google à progressivement conquis des parts de marcher (en France, environ 91 % des recherches sur internet passent par Google).

 

Un filtre, pourquoi faire ?

L’un des buts de Google est d’offrir une expérience utilisateur de qualité. Dans ce but, le moteur de recherche essaie de faire en sorte, que les sites proposés correspondent autant que possible,  aux requêtes des utilisateurs. Pour que le classement des sites soit le plus pertinent possible, le moteur de recherche prend en compte un grand nombre de facteurs, comme le pourcentage  de mot clé utilisé dans une page, la taille des titres, la présence d’images ou de médias,  les liens qui pointent vers un site, la qualité des liens qui pointent vers un site, etc.

Les critères pris en compte sont très divers. Sans que personne ne sache exactement, le nombre exacte de critères que Google prend en compte, il se dit qu’il y en aurait 300 (d’après une étude de Raphaël Richard). La diversité et la complexité des critères, permet un classement assez fin des sites internet. Toute la difficulté, pour un moteur de recherche, consiste à classer des sites. Dans un monde vertueux, ce classement serait assez évident. Mais notre monde n’est pas régit que par la vertu, il y a aussi l’économie (il y a bien d’autres principes encore, mais  je les garde pour d’autres exemples). Il n’y a que certaines places, les premières, qui  sont très consultées, par les internautes. Ce sont ces premières places, si consultées, qui rapportent de l’argent aux sites internet générateurs de revenus. Comme la concurrence pour se positionner dans les premières places du moteur de recherches de Mountain View, est très vive, certains (et même beaucoup de) webmasters sont tentés de tromper les robots des moteurs de recherches.  Pendant plusieurs années,  par exemple, des webmasters frippons ont augmentés artificiellement,  la densité de mots clés présents dans leurs textes, pour mieux se positionner. D’autres webmasters filous, ont posés des liens en très grand nombre sur seulement quelques annuaires (ces techniques de triches sont aujourd’hui désuètes, pour ne pas dire dangereuses).

C’est pour combattre ce type de pratiques, que Google a créer des filtres comme Panda, puis Penguin.  Panda vise principalement le contenu faible des sites, la qualité rédactionnelle légère, les contenus dupliqués, par exemple. Penguin, lui, porte sur les liens externes, qui mènent à un site. Les ancres (mots auxquels sont rattachés les liens), sont-elles suffisamment variées ? Quel est la qualité des sites qui envoient des liens ? Pour ne prendre que quelques exemples.  Dans sa première version , Penguin s’attaquait, entre autre, au « keyword stuffing » ou « bourrage de mots clés ». Cette technique consistait à écrire des suites de mots clés, pour constituer des textes, qui pouvaient passer pour des contenus, aux yeux (un peu myopes) des robots des moteurs de recherches. Après Penguin, ce type de pratique a été sanctionnée et leurs auteurs voyaient les positions de leurs sites, fortement rétrogradées. Des sites sont ainsi passés, des premières places, à la 500 eme, sans espoir de remonter, quel que soit les efforts des webmasters, pendant une période données.
A quoi s’attaque cette nouvelle version du manchot ? Il semblerait que les liens récents de piètre qualité soient la cible principale de ce nouvel algorithme. Voici un exemple de liens de faible qualité: De très nombreux blogs ont leurs commentaires ouverts et ne sont pas modérés, c’est à dire que tout commentaire est accepté automatiquement. Ces blogues reçoivent tous les jours des dizaines de commentaires supplémentaires. Il n’est pas rare de voir plus de 10 000 commentaires, avec de nombreux liens, sur ces blogs. Ces blogues très spamés sont aussi appelés « spammy ».

 


Tweet de Matt Cutts (qui dirige l’équipe Anti-Spam chez Google) annonçant l’arrivée de Penguin 2.0.

 

Le « white hat », le « black hat » et le « grey hat » :

Dans les films de western, une des conventions était que les gentils portaient des chapeaux blancs et les méchants, des chapeaux noirs. Dans le monde du hack, cette convention colorée fut reprise, pour désigner les gentils hackers et les méchants hackers. L’univers du référencement a  ensuite repris à son compte ces dénominations et en a ajouté une troisième, le « grey hat » qui utilisent les techniques conventionnelles et d’autres, plus imaginatives. Le référenceur « white hat » respecte autant que possible les règles de bonnes conduites du géant américain de la recherche sur internet ( Je dis « autant que possible », car Google dit explicitement qu’il ne faut créer aucun lien artificiel, dès lors que l’on créer, ne serait-ce qu’un seul lien vers sont site, on se met en dehors des clous Googlins, le « white hat » n’est donc pas vraiment « blanc comme neige »). Le référenceur « black hat », lui aussi, connait bien les règles, mais préfère choisir d’autres voies. Les résultats obtenus avec les techniques « black hat » récentes sont souvent plus rapides, plus efficaces et moins laborieux que ceux obtenus par la méthode conventionnel. Le revers de ces techniques, c’est les sanctions des moteurs de recherche et un certain encombrement du web par des sites et des liens sans réel intérêt pour les visiteurs humains. Le référenceur « grey hat » tente de respecter les règles édictées par Google (pour schématiser, on peut dire qu’il se conforme plutôt aux moins contraignantes), sans pour autant renoncer à se simplifier la tâche. Il utilise, par exemple, des techniques d’automatisation pour trouver des sites de qualité afin d’y déposer les liens tout propre, « fait à la main » (ou au clavier).
Ce que vise la dernière version de Penguin, ce n’est pas les méthodes souvent chirurgicales du « white hat » et du « grey hat », mais le « black hat », dans sa version la plus bourinne. En effet, il existe de multiple façon de pratiquer le « black hat ». Certaines de ces techniques sont très fines, elle sont élaborées avec tact et sont parfois même, mises en place, avec parcimonie, ce qui les rend très efficaces et quasiment indétectables. L’autre façon de pratiquer le black hat, celle qui est la plus répandue, la plus commune, c’est le gros spam de gros bourrin. Ce type de spam utilise le plus souvent des logiciels (comme Xrumer, SEnuke, Sick, Scapebox …) qui peuvent déposer des dizaines de liens différents à la minute sur des milliers de sites, blogs, forums, bookmarks etc. sans soucis de leurs qualités, bien entendu (les logiciels que je viens de citer peuvent aussi être utilisés avec intelligence, mais c’est rarement le cas).

 

Les conséquences du filtre Google Penguin 2.0 :

Les sites touchés ont perdu des positions dans le classement de Google. La plus part des pertes de position est d’empleur moyenne  (de 1 à 100 places), mais cela peut suffire pour qu’un site économiquement profitable ne reçoive plus le trafic nécessaire à sa survie économique. Le malheur des uns, fait aussi le bonheur des autres, et oui, la roue tourne, comme dirait l’autre. Les premières places libérées sont alors occupées par des sites, naguère moins bien placés.
D’après Matt Cutts (qui est à la tête de l’équipe Anti-Spam chez Google), 2.3% des requêtes anglo-américaines seront affectées par cet nouvelle version du manchot. Dans l’attente des chiffres officiels, on peut supposer que la proportion en France sera un peu près équivalent ou légèrement supérieur, car notre langue, ce prête fort bien au spam (sans trahir de secret d’état, on peut d’ailleurs dire que dans la communauté francophone, il y a de nombreux représentants du « black hat », dont quelques uns ont de vrais talents).

 

 

Vidéo de Matt Cutts, datant de mai 2013, qui explique le programme de Google en terme de référencement, pour les mois à venir.
Pour les non-anglophones, il est possible d’activer les sous-titres en français. Pour cela, il faut se rendre sur l’icône « Sous-titres », cliquer dessus, ensuite, cliquer sur « traduire les sous-titres BETA », puis, cliquer sur la langue proposée, ce qui déclenche un menu déroulant, choisir ensuite « Français-Français », puis cliquer enfin sur « OK ».