Agence 90 » Actualités et guides » SEO » Google Leak : Fuite de 14 000 documents internes sur l’algorithme

Google Leak : Fuite de 14 000 documents internes sur l’algorithme

par | 30 Mai 2024

Temps de lecture : 5 minutes

Une fuite de 14 000 documents internes relatifs à l’algorithme Search de Google a été révélée. Il en ressort par exemple que les interactions des utilisateurs, comme les clics, peuvent avoir une influence sur les classements.

Dans cette fuite d’informations dévoilée par une source anonyme et publiée sur SparkToro, de nombreuses fonctionnalités et facteurs de classement utilisés par Google pour la recherche sont visibles. Il s’agit de la documentation pour l’API Search Content Warehouse de Google, qui a été publiée par erreur dans un dépôt de code.

En fait, on ne peut pas parler de facteurs de classement au sens strict du terme. Certes, certains d’entre eux sont des facteurs de classement, mais pour d’autres, ce n’est pas certain.

Avant de dévoiler les principales informations de cette fuite, il faut bien garder en tête que :

  • Il s’agit d’un premier aperçu sans analyse ni vérification approfondies.
  • La pondération des différents facteurs de classement n’est pas claire.
  • Les informations représentent un état donné et peuvent déjà avoir changé depuis.

Au total, le document mentionne environ 14.000 facteurs de classement et fonctionnalités de ranking. Les principales conclusions sont résumées ci-dessous :

Google utilise l’autorité de site

Même si Google ne cesse de répéter qu’il n’utilise pas de Domain Authority, il existe quelque chose de similaire qui est appliqué. Google l’appelle « siteAuthority ». Le fait que Google souligne régulièrement qu’il n’utilise pas d’autorité de domaine se réfère apparemment à des métriques issues de certains outils SEO.

Navboost évalue les signaux des utilisateurs

Un concept appelé Navboost utilise des métriques liées aux clics pour la recherche afin de mettre en avant ou de dévaloriser les résultats. Une distinction est faite entre différents clics : les bons clics, les mauvais clics, les derniers clics et les clics les plus longs, les unsquashed clicks ainsi que les unsquashed last longest clicks sont évalués différemment. Le squashing est une fonction qui vise à éviter qu’un « grand signal ne domine d’autres signaux ».

Globalement, il ne s’agit pas seulement de cliquer sur un résultat de recherche, mais on mesure également la durée pendant laquelle un utilisateur reste sur une page.

Même si le CTR et le temps passé ne sont peut-être pas en soi des facteurs de classement, certains indices montrent que le navboost a une forte influence sur les classements.

Il y a une sandbox

Il y a une indication dans la documentation qui décrit comment les nouveaux spams doivent être déplacés dans une sandbox. Pour cela, on utilise un attribut appelé hostAge.

Principaux points à retenir pour le SEO

Panda

Il ressort du document divulgué que lors des mises à jour Panda, les requêtes de recherche de référence et les clics pour certaines thématiques sont mis à jour et proviennent de Navboost. On peut en déduire qu’il s’agit d’obtenir plus de clics réussis pour un ensemble plus large de requêtes de recherche et que la diversité des liens est importante pour un bon classement. Un trafic qualifié est donc important.

Les auteurs sont considérés

Google enregistre les auteurs associés à un document à l’aide d’une fonction. Il vérifie également si une entité sur la page est l’auteur de la page. Cela indique un contrôle étendu de la qualité d’auteur.

Les critères qui dévaluent potentiellement votre visibilité

Il y a plusieurs choses qui sont mentionnées dans la documentation comme critères possibles de dévaluation :

  • L’ancre lien ne correspond pas à la page cible (anchor mismatch) : Cela peut entraîner une dévaluation du lien.
  • Dévalorisation sur la SERP en raison d’un certain comportement de l’utilisateur, comme par exemple les clics.
  • Dévalorisation par une mauvaise navigation et une mauvaise expérience utilisateur.
  • Dévalorisation par Exact Match Domain.
  • Dévalorisation en raison de certaines évaluations de produits.
  • Dévalorisation de sites web « globaux » et « super globaux ». Cela indique les avantages possibles des sites locaux dans les régions concernées.
  • Dévalorisation en raison de la pornographie.
  • Dévalorisation en raison de certains liens.

Les backlinks de sites actuels sont plus importants

Il existe des indications selon lesquelles les backlinks provenant de sites web qui se trouvent dans l’une des couches supérieures (« Tiers ») de l’index Google sont particulièrement précieux. Ces couches sont actualisées particulièrement souvent.

La Link Velocity peut également jouer un rôle, et ce surtout lorsqu’il s’agit de dévaloriser des liens qui ont été ajoutés rapidement. Google pourrait par exemple s’en servir pour neutraliser des attaques de Negative SEO.

Lors de l’évaluation des liens, Google pourrait ne prendre en compte que les 20 dernières modifications qui ont eu lieu sur la page faisant l’objet du lien. C’est ce qu’indique une explication dans la documentation pour une fonction correspondante.

Une autre fonction veille à ce qu’au moins certains liens internes ne soient pas évalués. On ne sait pas exactement comment cette fonction fonctionne et quels liens internes sont concernés.

Page d’accueil importante pour le PageRank

Si Google n’a pas encore calculé son propre PageRank pour les différentes sous-pages d’un site web, il utilise une fonction d’approximation qui s’oriente sur le PageRank de la page d’accueil.

De plus, il existe une fonction qui indique le trust dans la page d’accueil. Cela montre que la page d’accueil peut avoir une grande importance pour le classement de l’ensemble du site web.

La taille de la police (Font Size) des mots-clés est mesurée

Google calcule la taille moyenne des caractères des termes dans le texte ainsi que des textes d’ancrage. Cela signifie que non seulement le marquage du texte, par exemple sous forme de titre, joue un rôle, mais aussi la taille dans laquelle le texte est présenté.

Possibilité de troncature des documents

Google compte le nombre de tokens dans un document. Il est possible qu’une limite supérieure de jetons soit appliquée, au-delà de laquelle la troncature est effectuée. Cela pourrait indiquer qu’il est particulièrement important de placer les contenus les plus importants au début des documents.

L’originalité des contenus courts est appréciée

Pour les contenus courts, il existe la fonction OriginalContentScore. Cela signifie que l’originalité pourrait être particulièrement importante pour les contenus courts et que ce score détermine s’il s’agit d’un Thin Content.

Le titre compte

Dans une autre fonction, le titre d’une page est comparé à la requête de recherche : un indicateur qui montre que le titre pourrait continuer à jouer un rôle important dans le classement.

L’actualité est importante

Google utilise différentes fonctions pour déterminer la date des articles et des pages – aussi bien à partir du contenu que d’autres sources comme le titre ou l’URL. Cela montre à quel point l’actualité devrait être importante pour les classements.

Métriques spéciales pour les pages YMYL

Google utilise des métriques spéciales pour les pages issues de domaines sensibles, désignées comme YMYL. Un ymylNewsScore spécial est calculé pour elles.

Traitement spécial pour les « Small Personal Sites »

Google utilise un marquage spécial pour les « Small Personal Sites ». Cela peut indiquer que Google traite ces sites différemment des autres.

Conclusion

Il ne s’agit là que d’une petite sélection des informations contenues dans le document divulgué. Il y aura certainement de nombreuses contributions à ce sujet sur le web dans les jours et semaines à venir et peut-être même des commentaires de Google.

Une chose est sûre : certaines informations contenues dans le document contredisent les déclarations officielles de Google, ou du moins montrent que Google ne nous explique pas toujours toute la vérité.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *