Posted on Laisser un commentaire

[Dossier] PBN, Heuristique & Quality Update

Vous connaissez toutes et tous ces brevets de Google que nous avons pu voir passer ça et là sur Twitter. Entre description et – parfois – incompréhension, nous sommes un peu perdus dans la jungle des données. Nous tenterons une première approche littéraire et scientifique de la « Quality Update », à travers notamment les travaux de Ryan Anthony Rossi. 

Un des brevets les plus récents  de Google décrit une méthode de classification des sites en étudiant les liens et uniquement les liens (pas le contenu). Le brevet d’algorithme s’intitule : « Classifying Sites as Low Quality Sites ». Le brevet nomme des facteurs spécifiques pour l’identification de sites de faible qualité.

Il est intéressant d’apprendre ces facteurs et de les prendre en compte. Ils peuvent aider à améliorer les pratiques de référencement, que Google utilise l’algorithme ou non. Mais ce que l’on sait, c’est que ce brevet a été potentiellement celui qui a permis de mettre en place l’update « Site Core » ou « Core Quality ».

Un obscur algorithme de liens

Ce brevet date de 2012 à 2015. Il correspond à la date à laquelle Penguin a été lancé et déployé. Il n’y a eu que quelques articles et quelques échanges sur les forums d’experts sur ce brevet. Peu de gens l’ont étudié en long, en large et en travers.

Pour autant, c’est un algorithme important qui mérite d’être décrypté, et qui – sans affirmation certaine – serait à l’origine des dernières updates massives de Google.
Ce qui doit être noté dans toute discussion sur les brevets ou les documents de recherche, c’est que ce n’est pas parce qu’il est breveté qu’il est utilisé.

Il n’y a aucune preuve qu’il fasse partie de l’algorithme de Penguin. Mais c’est intéressant car c’est l’un des rares algorithmes de classement des liens que nous connaissons de Google. Pas un algorithme de classement de site, un algorithme de classement de lien. Cette qualité le rend particulièrement intéressant

Comment l’algorithme positionne les liens ?

L’algorithme affirme une chose fondamentale :

S’il un lien est qualifié de mauvais, provenant d’un site externe de mauvaise qualité, alors la page sur laquelle pointe ce lien est considérée également de mauvaise qualité

On sait depuis plusieurs années que l’effet de bord est l’effet le plus néfaste de Penguin. Cet effet de bord engage non pas une simple page, mais toutes les pages linkées à cette dernière, qui vont également être pénalisées.

L’objectif du brevet est déterminer des clusters de liens qui font partie d’une même qualité (que l’on définira comme s’approchant de 1), et déterminer une fonction régressive qui vont déterminer si les liens se situent au dessus ou en dessous d’une moyenne définissant une qualité neutre.

Capture d’écran 2019-04-12 à 15.56.30

Le lien vital, le bon lien, et le mauvais lien.

On va pas se refaire le sketch des Inconnus, mais oui, en effet, cet algorithme définit trois types de liens qui lui sont identifiables, et sur lesquels il peut apposer une action.

L’algorithme définit ensuite un score total, qui prend en compte la somme de la qualité des liens. Si ce score tombe en dessous d’une certaine limite, la page (et par effet de bord, toutes les pages liées) sont considérées de mauvaise qualité, et potentiellement pénalisables.

Voici comment l’algorithme définit ce calcul :

Le système affecte les ressources à des clusters de différentes qualités. Chaque cluster de qualité de ressource est défini par une gamme de scores de qualité (« vital », « good » and « bad »). Les plages ne peuvent pas se chevaucher. Le système affecte chaque ressource au cluster de qualité de ressource défini par la plage englobant le score de qualité. Le système affecte donc chaque ressource à l’un des trois groupes, vital, bon et mauvais. Les ressources vitales ont les scores de qualité les plus élevés, les bonnes ressources ont des scores de qualité moyens et les mauvaises ressources ont les scores de qualité les plus bas.

Liens implicites

Le brevet décrit également ce qu’il nomme les « liens implicites« . Expliquons les.

Ce sont les mentions non liées, les URL Non cliquables.

Gary Illyes de Google, lors d’une conférence à Brighton SEO en septembre 2017, parlant des meilleures pratiques de référencement auxquelles les webmasters doivent adhérer, Illyes a déclaré :

“Fondamentalement, si vous publiez du contenu de haute qualité sur Internet – et je ne parle pas seulement des liens, mais aussi des mentions sur les réseaux sociaux et des gens qui parlent de votre image de marque, de la merde comme ça . » (source : Enpause.fr)

On ne peut le dire plus clairement : Google considère toutes les mentions de votre marque sur Internet, pas seulement les liens, comme un signal de confiance, et les prend en compte.

Liens latents

Ryan Rossi, un chercheur de Google, décrit un lien latent comme une sorte de lien virtuel. Latent signifie ici quelque chose qui est caché ou qui ne peut pas être facilement vu.

Un lien latent se définit lorsqu’il existe une relation implicite entre deux sites qui ne sont pas directement liés l’un à l’autre. Cela se produit lorsqu’ils partagent des liens avec d’autres sites en commun.

Selon Ryan Rossi :

Les relations latentes entre les sites sont découvertes en fonction de la structure des liens entre les sites. Soit nous avons à faire à du « linking propre », soit nous avons à faire à du spam. (link wheel, PBN etc…)
La structure fondamentale du linking direct entre deux sites influent aussi la valeur des liens indirects (comme mentionnés dans l’image). Les liens latents sont les supports clés des effets de bord lors d’une mise à jour algorithmique touchant des liens.

Allons un peu loin dans le travail de Ryan Rossi, intitulé : « Discovering Latent Graphs with Positive and Negative Links to Eliminate Spam in Adversarial Information Retrieval »

Résumons ce travail très fouillé et recherché.

Ce travail de recherche propose de nouvelles dimensions à l’analyse de l’Adversarial Retrieval Information (manipulation des informations et ressources de contenus à travers – pour la partie web spam – le spam comment, certains backlinks, keyword stuffing, cloaking, etc…) à travers non pas l’analyse du contenu mais l’analyse des stratégies de liens sur et vers les sites. J’utilise des techniques issus du LSA (Latent Semantic Analysis : ou LSI (Latent semantic indexation) ou indexation sémantique latente : formule mathématique qui permet d’analyser les relations entre un document et un corpus sémantique. Le corpus sémantique étant l’ensemble des termes utilisés autour d’un même concept par un groupe de pages web (ou de documents) afin de définir un nouveau modèle algorithmique pour éliminer les sites spammés.

En utilisant des graphiques avec des données pondérés, je segmente les liens dits spammés avec des critères à données inférieures et les bons liens sont valorisés avec des données positives. La validité empirique de ces techniques afin d’éliminer et diminuer considérablement l’impact des spamlinks est appuyé à la fois par notre méthode heuristique par un apprentissage automatique lié à l’algorithme utilisé pour classer les sites

La méthode heuristique mélangée à l’apprentissage automatique permet de définir – tout empiriquement parlant – un modèle de compréhension des liens par un algorithme.

Capture d’écran 2019-04-12 à 15.08.22
Si, au niveau théorique, certains algorithmes supposent que les liens reçoivent des poids
plus ou moins élevés, ils reçoivent en pratique une distribution de probabilité uniforme au départ.
Le travail de Ryan Rossi démontre que l’impact de l’architecture des liens internes, mais également de l’apport de backlinks externes, apportent plus d’information et « grain à moudre » auprès de Google que le contenu.
Et c’est bien le poids de ces liens, et leur maillage direct ou indirect avec le site qui détermine l’indice de webspam qui leur est apposé. (Coucou les PBN). 

Et cette étude là, découle directement de l’étude de la « Quality Update » qui nous met bien des bâtons dans les roues depuis plusieurs mois maintenant…

Pour approfondir cette étude, et la vulgariser autant que faire se peut, reprenons les quatre types caractéristiques de liens que montre son modèle :

  1. Liens standards (« boilerplate ») : Les liens navigationnels dans les menus par exemple. Il est dit dans le modèle de Rossi qu’un lien de navigation répété sur tous les sites (also lien dans le footer), ne compte pas pour Google. C’est du « boilerplate » et avant tout là pour la navigation. Score donné à ce type de lien selon les matrices (et autres calculs) de Rossi : 0.
  2. Liens similaires (internes OU externes) : Liens entre deux pages liées sémantiquement ou liens provenant d’un site de même thématique. Score donné à ce type de liens : 1
  3. Liens provenant de pages ayant le même contenu thématique que la page linkée : Ici, on est sur du lien très bien évalué par la modèle potentiellement mis en place par Google pour la « Quality Update ». Score donné à ce type de liens : 2

Conclusion

Cette étude de Ryan Rossi, qui dépeint un modèle bien précis d’analyse des liens par un algorithme, est possiblement celui qui est actuellement en cours sur la Quality Update (à quelques calculs près).

Que les algorithmes considèrent les liens comme un ensemble, qu’ils soient internes ou externes, et les hiérarchise de manière complète, en leur attribuant un score bien déterminé.

Quelques Key Take aways :

  • Soignez vos PBN. Posez les sur un mind mapping pour ne pas avoir de liens latents qui pourraient vous apporter une pénalité.
  • Privilégiez les liens de « contenus à contenus », avec une similarité sémantique forte entre les deux contenus (notamment pour les backlinks).
  • Les liens de navigation, dans le menu ou dans le footer, n’ont peu ou pas d’impact pour valoriser votre autorité auprès de Google.
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.