Les secrets de l’algo đŸ˜± La doc technique interne de Google Search a fuitĂ©

Fuite de Google

Google, si vous lisez ceci, il est trop tard 😉

Table des matiĂšres masquer

Ok. Cracks knuckles. Allons droit au but. La documentation interne de l’API Content Warehouse de Google Search a fait l’objet d’une fuite. Les microservices internes de Google semblent reflĂ©ter ce que Google Cloud Platform offre et la version interne de la documentation pour le Document AI Warehouse dĂ©prĂ©ciĂ© a Ă©tĂ© accidentellement publiĂ©e publiquement sur un dĂ©pĂŽt de code pour la bibliothĂšque client. La documentation de ce code a Ă©galement Ă©tĂ© capturĂ©e par un service de documentation automatisĂ© externe.

D’aprĂšs l’historique des modifications, cette erreur de dĂ©pĂŽt de code a Ă©tĂ© corrigĂ©e le 7 mai, mais la documentation automatisĂ©e est toujours en ligne. Afin de limiter la responsabilitĂ© potentielle, je n’y ferai pas rĂ©fĂ©rence ici, mais comme tout le code de ce dĂ©pĂŽt a Ă©tĂ© publiĂ© sous la licence Apache 2.0, quiconque l’a trouvĂ© s’est vu accorder un large Ă©ventail de droits, y compris la possibilitĂ© de l’utiliser, de le modifier et de le distribuer de toute façon.

J’ai examinĂ© les documents de rĂ©fĂ©rence de l’API et les ai mis en contexte avec d’autres fuites antĂ©rieures de Google et le tĂ©moignage antitrust du DOJ. Je combine cela avec les recherches approfondies sur les brevets et les livres blancs effectuĂ©es pour mon prochain livre, The Science of SEO (La science du rĂ©fĂ©rencement). Bien que la documentation que j’ai examinĂ©e ne contienne aucun dĂ©tail sur les fonctions d’évaluation de Google, elle contient une multitude d’informations sur les donnĂ©es stockĂ©es pour le contenu, les liens et les interactions avec les utilisateurs. On y trouve Ă©galement des descriptions plus ou moins dĂ©taillĂ©es (allant de dĂ©cevantes Ă  Ă©tonnamment rĂ©vĂ©latrices) des caractĂ©ristiques manipulĂ©es et stockĂ©es.

Vous seriez tentĂ© de les appeler globalement “facteurs de classement”, mais ce serait imprĂ©cis. Nombre d’entre eux, voire la plupart, sont des facteurs de classement, mais beaucoup ne le sont pas. Ce que je vais faire ici, c’est mettre en contexte certains des systĂšmes et fonctionnalitĂ©s de classement les plus intĂ©ressants (du moins, ceux que j’ai pu trouver au cours des premiĂšres heures d’examen de cette fuite massive) sur la base de mes recherches approfondies et des choses que Google nous a dites ou menties au fil des ans.

le mot “mentir” est un peu fort, mais c’est le seul mot exact Ă  utiliser ici. Si je ne reproche pas nĂ©cessairement aux reprĂ©sentants publics de Google de protĂ©ger leurs informations confidentielles, je m’insurge contre leurs efforts visant Ă  discrĂ©diter activement les personnes qui, dans le monde du marketing, de la technologie et du journalisme, ont prĂ©sentĂ© des dĂ©couvertes reproductibles. Mon conseil aux futurs dirigeants de Google qui s’exprimeront sur ces sujets : Il est parfois prĂ©fĂ©rable de dire simplement “nous ne pouvons pas en parler” Votre crĂ©dibilitĂ© est importante, et lorsque des fuites comme celle-ci et des tĂ©moignages comme ceux du procĂšs du DOJ sont rĂ©vĂ©lĂ©s, il devient impossible de faire confiance Ă  vos futures dĂ©clarations.

Les mises en garde

Je pense que nous savons tous que des personnes s’efforceront de discrĂ©diter les conclusions et l’analyse que j’ai tirĂ©es de cette fuite. Certains se demanderont pourquoi c’est important et diront “mais nous le savions dĂ©jà” Alors, Ă©liminons les mises en garde avant de passer aux choses sĂ©rieuses.

  • Temps et contexte limitĂ©s – En raison du week-end de vacances, je n’ai pu consacrer qu’une douzaine d’heures Ă  l’étude de ce dossier. Je suis incroyablement reconnaissant Ă  certaines parties anonymes qui ont Ă©tĂ© trĂšs utiles en partageant leurs idĂ©es avec moi pour m’aider Ă  me mettre Ă  niveau rapidement. Par ailleurs, comme pour la fuite de Yandex que j’ai couverte l’annĂ©e derniĂšre, je n’ai pas une vision complĂšte de la situation. Alors que nous avions le code source Ă  analyser mais aucune des idĂ©es qui le sous-tendaient pour Yandex, dans ce cas-ci, nous avons une partie des idĂ©es qui sous-tendent des milliers de fonctionnalitĂ©s et de modules, mais pas de code source. Vous devrez me pardonner de partager ceci d’une maniĂšre moins structurĂ©e que je ne le ferai dans quelques semaines, aprĂšs m’ĂȘtre penchĂ© plus longuement sur le sujet.
  • Pas de fonctions de notation – Nous ne savons pas comment les caractĂ©ristiques sont pondĂ©rĂ©es dans les diverses fonctions de notation en aval. Nous ne savons pas si toutes les fonctionnalitĂ©s disponibles sont utilisĂ©es. Nous savons que certaines fonctionnalitĂ©s sont obsolĂštes. Sauf indication explicite, nous ne savons pas comment les choses sont utilisĂ©es. Nous ne savons pas oĂč tout se passe dans le pipeline. Nous disposons d’une sĂ©rie de systĂšmes de classement nommĂ©s qui correspondent vaguement Ă  la maniĂšre dont Google les a expliquĂ©s, Ă  la maniĂšre dont les rĂ©fĂ©renceurs ont observĂ© les classements dans la nature, et Ă  la maniĂšre dont les demandes de brevet et la littĂ©rature de RI expliquent. En fin de compte, grĂące Ă  cette fuite, nous avons maintenant une image plus claire de ce qui est envisagĂ© et qui peut informer ce sur quoi nous nous concentrons par rapport Ă  ce que nous ignorons dans le rĂ©fĂ©rencement Ă  l’avenir.
  • Probablement le premier d’une sĂ©rie de billets – Ce billet sera mon premier coup de pinceau sur ce que j’ai examinĂ©. Il se peut que je publie d’autres articles au fur et Ă  mesure que je continue Ă  creuser les dĂ©tails. Je pense que cet article va inciter la communautĂ© SEO Ă  analyser ces documents et que nous allons, collectivement, dĂ©couvrir et recontextualiser les choses pendant des mois.
  • Ces informations semblent ĂȘtre d’actualitĂ© – D’aprĂšs ce que je peux dire, cette fuite reprĂ©sente l’architecture actuelle et active de Google Search Content Storage Ă  partir de mars 2024. (Un responsable des relations publiques de Google vous dira que j’ai tort. En fait, passons la chanson et la danse, vous tous). D’aprĂšs l’historique des livraisons, le code correspondant a Ă©tĂ© poussĂ© le 27 mars 2024 et n’a Ă©tĂ© supprimĂ© que le 7 mai 2024.
  • CorrĂ©lation n’est pas causalitĂ© – Ok, celle-ci ne s’applique pas vraiment ici, mais je voulais juste m’assurer que je couvrais toutes les bases.

Il y a 14 000 caractéristiques de classement et plus encore dans les documents

Il y a 2 596 modules reprĂ©sentĂ©s dans la documentation de l’API avec 14 014 attributs (caractĂ©ristiques) qui ressemblent Ă  ceci :

Les modules sont liĂ©s Ă  des composants de YouTube, Assistant, Livres, recherche vidĂ©o, liens, documents web, infrastructure de crawl, systĂšme de calendrier interne et API Personnes. Techniquement, une grande partie des fonctionnalitĂ©s n’est donc pas destinĂ©e au classement. Tout comme Yandex, les systĂšmes de Google fonctionnent sur un rĂ©fĂ©rentiel monolithique (ou “monorepo”) et les machines fonctionnent dans un environnement partagĂ©. Cela signifie que tout le code est stockĂ© au mĂȘme endroit et que n’importe quelle machine du rĂ©seau peut faire partie de n’importe quel systĂšme de Google.

La documentation qui a fait l’objet d’une fuite dĂ©crit chaque module de l’API et les dĂ©compose en rĂ©sumĂ©s, types, fonctions et attributs. La plupart des Ă©lĂ©ments que nous examinons sont les dĂ©finitions des propriĂ©tĂ©s de divers tampons de protocole (ou protobufs) auxquels les systĂšmes de classement accĂšdent pour gĂ©nĂ©rer des SERP (Search Engine Result Pages – ce que Google affiche aux internautes aprĂšs qu’ils ont effectuĂ© une requĂȘte).

Malheureusement, de nombreux rĂ©sumĂ©s font rĂ©fĂ©rence Ă  des liens Go, qui sont des URL sur l’intranet de l’entreprise Google, offrant des dĂ©tails supplĂ©mentaires sur diffĂ©rents aspects du systĂšme. Sans les identifiants Google nĂ©cessaires pour se connecter et consulter ces pages (ce qui nĂ©cessiterait trĂšs certainement d’ĂȘtre un Googler de l’équipe de recherche), nous sommes livrĂ©s Ă  nous-mĂȘmes pour interprĂ©ter.

Les documents de l’API rĂ©vĂšlent quelques mensonges notables de Google

Les porte-parole de Google ont tout fait pour nous induire en erreur sur divers aspects du fonctionnement de leurs systĂšmes, dans le but de contrĂŽler notre comportement en tant que rĂ©fĂ©renceurs. Je n’irai pas jusqu’à parler d'”ingĂ©nierie sociale” en raison de l’histoire chargĂ©e de ce terme. Je prĂ©fĂšre parler d'â€Ă©clairage au gaz” Les dĂ©clarations publiques de Google ne sont probablement pas des efforts intentionnels pour mentir, mais plutĂŽt pour tromper les spammeurs potentiels (et de nombreux rĂ©fĂ©renceurs lĂ©gitimes Ă©galement) afin de nous faire perdre de vue la façon d’influencer les rĂ©sultats de recherche.

Ci-dessous, je prĂ©sente des affirmations d’employĂ©s de Google ainsi que des faits tirĂ©s de la documentation, accompagnĂ©s de commentaires limitĂ©s, afin que vous puissiez juger par vous-mĂȘme.

“Nous n’avons rien de comparable Ă  l’autoritĂ© de domaine”

Les porte-parole de Google ont dĂ©clarĂ© Ă  plusieurs reprises qu’ils n’utilisaient pas “l’autoritĂ© de domaine” J’ai toujours pensĂ© qu’il s’agissait d’un mensonge par omission et par dissimulation.

En disant qu’ils n’utilisent pas l’autoritĂ© de domaine, ils pourraient dire qu’ils n’utilisent pas spĂ©cifiquement la mĂ©trique de Moz appelĂ©e “AutoritĂ© de domaine” (Ă©videmment 🙄). Ils pourraient Ă©galement dire qu’ils ne mesurent pas l’autoritĂ© ou l’importance d’un sujet spĂ©cifique (ou domaine) en ce qui concerne un site web. Cette confusion sĂ©mantique leur permet de ne jamais rĂ©pondre directement Ă  la question de savoir s’ils calculent ou utilisent des mesures d’autoritĂ© pour l’ensemble du site.

Gary Ilyes, un analyste de l’équipe de recherche de Google qui publie des informations destinĂ©es Ă  aider les crĂ©ateurs de sites web, a rĂ©pĂ©tĂ© cette affirmation Ă  de nombreuses reprises.

Et Gary n’est pas le seul. John Mueller, un “search advocate qui coordonne les relations de Google avec les moteurs de recherche” a dĂ©clarĂ© dans cette vidĂ©o “nous n’avons pas de score d’autoritĂ© de site web”

En rĂ©alitĂ©, dans le cadre des signaux de qualitĂ© compressĂ©s qui sont stockĂ©s pour chaque document, Google dispose d’une fonctionnalitĂ© qu’il calcule et qui s’appelle “siteAuthority”

Nous ne savons pas prĂ©cisĂ©ment comment cette mesure est calculĂ©e ou utilisĂ©e dans les fonctions de notation en aval, mais nous savons dĂ©sormais avec certitude qu’elle existe et qu’elle est utilisĂ©e dans le systĂšme de classement Q*. Il s’avĂšre que Google a effectivement une autoritĂ© de domaine globale. Les Googlers prĂ©tendent “nous l’avons, mais nous ne l’utilisons pas”, ou “vous ne comprenez pas ce que cela signifie”, ou
 attendez, j’ai dit “commentaires limitĂ©s”, n’est-ce pas ? Poursuivons.

“Nous n’utilisons pas les clics pour les classements

Mettons celle-ci au placard pour de bon.

Le tĂ©moignage de Pandu Nayak dans le procĂšs antitrust du DOJ a rĂ©cemment rĂ©vĂ©lĂ© l’existence des systĂšmes de classement Glue et NavBoost. NavBoost est un systĂšme qui utilise des mesures basĂ©es sur le nombre de clics pour amĂ©liorer, rĂ©trograder ou renforcer d’une autre maniĂšre un classement dans la recherche sur le Web. M. Nayak a indiquĂ© que Navboost existait depuis 2005 environ et qu’il utilisait traditionnellement des donnĂ©es de clics sur une pĂ©riode de 18 mois. Le systĂšme a rĂ©cemment Ă©tĂ© mis Ă  jour pour utiliser des donnĂ©es sur 13 mois consĂ©cutifs et se concentrer sur les rĂ©sultats de recherche sur le web, tandis qu’un systĂšme appelĂ© Glue est associĂ© Ă  d’autres rĂ©sultats de recherche universels. Cependant, mĂȘme avant cette rĂ©vĂ©lation, nous disposions de plusieurs brevets (dont le brevet Time Based Ranking de 2007) qui indiquent spĂ©cifiquement comment les journaux de clics peuvent ĂȘtre utilisĂ©s pour modifier les rĂ©sultats.

Nous savons Ă©galement que les clics, en tant que mesure du succĂšs, constituent une bonne pratique en matiĂšre de recherche d’informations. Nous savons que Google s’est orientĂ© vers des algorithmes basĂ©s sur l’apprentissage automatique et que l’apprentissage automatique nĂ©cessite des variables de rĂ©ponse pour affiner ses performances. MalgrĂ© ces preuves stupĂ©fiantes, la confusion rĂšgne toujours dans la communautĂ© des rĂ©fĂ©renceurs en raison de la mauvaise orientation des porte-parole de Google et de la publication complice et embarrassante d’articles dans le monde du marketing de recherche qui rĂ©pĂštent sans esprit critique les dĂ©clarations publiques de Google.

Gary Ilyes a abordĂ© la question de la mesure des clics Ă  de nombreuses reprises. Dans un cas, il a renforcĂ© ce que Paul Haahr, ingĂ©nieur de Google Search, a partagĂ© dans sa confĂ©rence SMX West de 2016 sur les expĂ©riences en direct, en disant que “utiliser les clics directement dans les classements serait une erreur”


Plus tard encore, il a utilisĂ© sa plateforme pour dĂ©nigrer Rand Fishkin (fondateur/PDG de Moz, et praticien SEO de longue date) en disant que “le temps de sĂ©jour, le CTR, quelle que soit la nouvelle thĂ©orie de Fishkin, ce sont gĂ©nĂ©ralement des conneries inventĂ©es.”

En rĂ©alitĂ©, Navboost dispose d’un module spĂ©cifique entiĂšrement consacrĂ© aux signaux de clics.

Le rĂ©sumĂ© de ce module le dĂ©finit comme ” les signaux de clics et d’impressions pour le Craps “, l’un des systĂšmes de classement. Comme nous le voyons ci-dessous, les mauvais clics, les bons clics, les derniers clics les plus longs, les clics non masquĂ©s et les derniers clics les plus longs non masquĂ©s sont tous considĂ©rĂ©s comme des mĂ©triques. Selon le brevet “Scoring local search results based on location prominence” de Google, “Squashing is a function that prevents one large signal from dominating the others” (l’écrasement est une fonction qui empĂȘche un signal important de dominer les autres) En d’autres termes, les systĂšmes normalisent les donnĂ©es relatives aux clics afin de s’assurer qu’il n’y a pas de manipulation incontrĂŽlĂ©e basĂ©e sur le signal de clic. Les Googlers affirment que les systĂšmes dĂ©crits dans les brevets et les livres blancs ne sont pas nĂ©cessairement ceux qui sont en production, mais il serait absurde de construire et d’inclure NavBoost s’il ne s’agissait pas d’un Ă©lĂ©ment essentiel des systĂšmes de recherche d’informations de Google.


Un grand nombre de ces mesures basĂ©es sur les clics se retrouvent Ă©galement dans un autre module relatif aux signaux d’indexation. L’une de ces mesures est la date du “dernier bon clic” sur un document donnĂ©. Cela suggĂšre que la dĂ©gradation du contenu (ou la perte de trafic au fil du temps) est Ă©galement fonction du fait qu’une page de classement ne gĂ©nĂšre pas le nombre de clics escomptĂ© pour sa position dans les SERP.

En outre, la documentation représente les utilisateurs comme des électeurs et leurs clics sont stockés comme leurs votes. Le systÚme compte le nombre de mauvais clics et segmente les données par pays et par appareil.

Il enregistre Ă©galement le rĂ©sultat qui a fait l’objet du plus long clic au cours de la session. Il ne suffit donc pas d’effectuer une recherche et de cliquer sur le rĂ©sultat, il faut aussi que les utilisateurs passent beaucoup de temps sur la page. Les clics longs sont une mesure du succĂšs d’une session de recherche au mĂȘme titre que le temps d’attente, mais il n’existe pas de fonction spĂ©cifique appelĂ©e “temps d’attente” dans cette documentation. NĂ©anmoins, les clics longs sont effectivement des mesures de la mĂȘme chose, ce qui contredit les dĂ©clarations de Google Ă  ce sujet.

Diverses sources ont indiquĂ© que NavBoost est “dĂ©jĂ  l’un des signaux de classement les plus forts de Google”. La documentation qui a fait l’objet d’une fuite mentionne le nom “Navboost” 84 fois et cinq modules comportent Navboost dans leur titre. Il est Ă©galement prouvĂ© qu’ils envisagent son Ă©valuation au niveau du sous-domaine, du domaine racine et de l’URL, ce qui indique intrinsĂšquement qu’ils traitent diffĂ©remment les diffĂ©rents niveaux d’un site. Je n’entrerai pas dans l’argument du sous-domaine par rapport Ă  l’annuaire, mais nous verrons plus tard comment les donnĂ©es du systĂšme ont Ă©galement influencĂ© l’algorithme Panda.

Alors, oui, Google ne mentionne pas le “CTR” ou le “dwell time” par ces mots exacts dans cette documentation, mais l’esprit de ce que Rand a prouvĂ© : les clics sur les rĂ©sultats de recherche et les mesures d’une session de recherche rĂ©ussie, sont inclus. La preuve est assez dĂ©finitive, il ne fait guĂšre de doute que Google utilise les clics et le comportement post-clic dans le cadre de ses algorithmes de classement.

“Il n’y a pas de bac à sable

Les porte-parole de Google ont Ă©tĂ© catĂ©goriques sur le fait qu’il n’existe pas de bac Ă  sable dans lequel les sites web sont isolĂ©s en fonction de leur Ăąge ou de l’absence de signaux de confiance. Dans un tweet aujourd’hui supprimĂ©, John Muller a rĂ©pondu Ă  une question sur le temps nĂ©cessaire pour ĂȘtre Ă©ligible au classement en indiquant qu'”il n’y a pas de bac Ă  sable”

Dans le module PerDocData, la documentation indique un attribut appelĂ© hostAge qui est utilisĂ© spĂ©cifiquement “pour mettre le spam frais dans un bac Ă  sable pendant le temps de service”

Il s’avùre qu’il existe finalement un bac à sable. Qui le savait ? Oh oui, Rand le savait.

“Nous n’utilisons rien de Chrome pour le classement”

Matt Cutts a dĂ©jĂ  dĂ©clarĂ© que Google n’utilisait pas les donnĂ©es de Chrome dans le cadre de la recherche organique. Plus rĂ©cemment, John Muller a renforcĂ© cette idĂ©e.

L’un des modules relatifs aux scores de qualitĂ© des pages comporte une mesure au niveau du site des vues provenant de Chrome. Un autre module qui semble ĂȘtre liĂ© Ă  la gĂ©nĂ©ration de sitelinks comporte Ă©galement un attribut liĂ© Ă  Chrome.

Une prĂ©sentation interne divulguĂ©e en mai 2016 sur le systĂšme RealTime Boost indique Ă©galement que les donnĂ©es de Chrome allaient ĂȘtre intĂ©grĂ©es Ă  la recherche. Vous l’aurez compris.

Les porte-parole de Google sont bien intentionnés, mais pouvons-nous leur faire confiance ?

La réponse rapide est non lorsque vous vous approchez trop prÚs de la sauce secrÚte.

Je ne nourris aucune rancune Ă  l’égard des personnes que j’ai citĂ©es ici. Je suis sĂ»r qu’ils font tous de leur mieux pour apporter leur soutien et leur valeur Ă  la communautĂ© dans les limites autorisĂ©es. Cependant, ces documents indiquent clairement que nous devons continuer Ă  prendre ce qu’ils disent comme une contribution et que notre communautĂ© doit continuer Ă  expĂ©rimenter pour voir ce qui fonctionne.

Suivez les étapes ci-dessus pour ajouter la fonction de similarité cosinus à votre projet.

L’architecture des systùmes de classement de Google

D’un point de vue conceptuel, vous pouvez considĂ©rer “l’algorithme de Google” comme une seule et mĂȘme chose, une Ă©quation gĂ©ante comportant une sĂ©rie de facteurs de classement pondĂ©rĂ©s. En rĂ©alitĂ©, il s’agit d’une sĂ©rie de microservices dans lesquels de nombreuses caractĂ©ristiques sont prĂ©traitĂ©es et mises Ă  disposition au moment de l’exĂ©cution pour composer le SERP. D’aprĂšs les diffĂ©rents systĂšmes rĂ©fĂ©rencĂ©s dans la documentation, il pourrait y avoir plus d’une centaine de systĂšmes de classement diffĂ©rents. En supposant qu’il ne s’agisse pas de tous les systĂšmes, il se peut que chacun d’entre eux reprĂ©sente un “signal de classement” et que ce soit ainsi que Google arrive aux 200 signaux de classement dont il parle souvent.

Dans son exposĂ© intitulĂ© “Building Software Systems at Google and Lessons Learned”, Jeff Dean a indiquĂ© que les premiĂšres itĂ©rations de Google envoyaient chaque requĂȘte Ă  1 000 machines qui la traitaient et y rĂ©pondaient en moins de 250 millisecondes. Il a Ă©galement schĂ©matisĂ© une version antĂ©rieure de l’abstraction de l’architecture du systĂšme. Ce diagramme montre que Super Root est le cerveau de Google Search, qui envoie les requĂȘtes et recolle le tout Ă  la fin.


Dans sa rĂ©cente prĂ©sentation sur la recherche d’information gĂ©nĂ©rative, Marc Najork, ingĂ©nieur de recherche distinguĂ©, a prĂ©sentĂ© un modĂšle abstrait de Google Search avec son systĂšme RAG (alias Search Generative Experience/AI Overviews). Ce diagramme illustre une sĂ©rie de magasins de donnĂ©es et de serveurs diffĂ©rents qui traitent les diverses couches d’un rĂ©sultat.

Le dĂ©nonciateur de Google, Zach Vorhies, a divulguĂ© cette diapositive qui illustre les relations entre les diffĂ©rents systĂšmes de Google par leurs noms internes. Plusieurs d’entre eux sont rĂ©fĂ©rencĂ©s dans la documentation.

En utilisant ces trois modĂšles de haut niveau, nous pouvons commencer Ă  rĂ©flĂ©chir Ă  la maniĂšre dont certains de ces composants fonctionnent ensemble. D’aprĂšs ce que je peux dĂ©duire de la documentation, il semble que cette API repose sur Spanner de Google. Spanner est une architecture qui permet une extensibilitĂ© infinie du stockage de contenu et du calcul tout en traitant une sĂ©rie d’ordinateurs en rĂ©seau mondial comme un seul.

Il est vrai qu’il est quelque peu difficile de reconstituer la relation entre tous les Ă©lĂ©ments Ă  partir de la seule documentation, mais le curriculum vitae de Paul Haahr donne un aperçu prĂ©cieux de ce que font certains des systĂšmes de classement nommĂ©s. Je vais mettre en Ă©vidence ceux que je connais par leur nom et les segmenter en fonction de leur fonction.

Recherche par crawl

  • Trawler – Le systĂšme d’exploration du web. Il dispose d’une file d’attente, maintient les taux d’exploration et comprend la frĂ©quence Ă  laquelle les pages changent.

Indexation

  • Alexandria – Le systĂšme d’indexation principal.
  • SegIndexer – SystĂšme qui place les documents par niveaux dans l’index.
  • TeraGoogle – SystĂšme d’indexation secondaire pour les documents qui restent sur le disque Ă  long terme.

Rendu

  • HtmlrenderWebkitHeadless – SystĂšme de rendu pour les pages JavaScript. Curieusement, il porte le nom de Webkit plutĂŽt que celui de Chromium. Il est fait mention de Chromium dans la documentation, il est donc probable que Google ait utilisĂ© WebKit Ă  l’origine et qu’il ait changĂ© de systĂšme aprĂšs l’arrivĂ©e de Headless Chrome.

Traitement

  • LinkExtractor – Extrait les liens des pages.
  • WebMirror – SystĂšme de gestion de la canonicalisation et de la duplication.

Classement

  • Mustang – Principal systĂšme de notation, de classement et de service
    • Ascorer – Algorithme de classement principal qui classe les pages avant tout ajustement du classement.
  • NavBoost – SystĂšme de reclassement basĂ© sur les journaux de clics du comportement des utilisateurs.
  • FreshnessTwiddler – SystĂšme de reclassement des documents basĂ© sur leur fraĂźcheur.
  • WebChooserScorer – DĂ©finit les noms des caractĂ©ristiques utilisĂ©es dans l’évaluation des extraits.

Servir

  • Google Web Server – GWS est le serveur avec lequel le frontend de Google interagit. Il reçoit les donnĂ©es Ă  afficher Ă  l’utilisateur.
  • SuperRoot – C’est le cerveau de Google Search qui envoie des messages aux serveurs de Google et gĂšre le systĂšme de post-traitement pour le reclassement et la prĂ©sentation des rĂ©sultats.
  • SnippetBrain – SystĂšme qui gĂ©nĂšre des extraits de rĂ©sultats.
  • Glue – SystĂšme permettant de rassembler des rĂ©sultats universels en fonction du comportement de l’utilisateur.
  • Cookbook – SystĂšme de gĂ©nĂ©ration de signaux. Certains Ă©lĂ©ments indiquent que les valeurs sont créées au moment de l’exĂ©cution.

Comme je l’ai dit, de nombreux autres systĂšmes sont dĂ©crits dans ces documents, mais leur fonction n’est pas tout Ă  fait claire. Par exemple, SAFT et Drishti du diagramme ci-dessus sont Ă©galement reprĂ©sentĂ©s dans ces documents, mais leurs fonctions ne sont pas claires.

Que sont les Twiddlers ?

Il existe peu d’informations en ligne sur les Twiddlers en gĂ©nĂ©ral. Je pense donc qu’il est utile de les expliquer ici afin de mieux contextualiser les diffĂ©rents systĂšmes Boost que nous rencontrons dans les documents.

Les Twiddlers sont des fonctions de reclassement qui s’exĂ©cutent aprĂšs l’algorithme de recherche primaire d’Ascorer. Ils fonctionnent de la mĂȘme maniĂšre que les filtres et les actions dans WordPress, oĂč ce qui est affichĂ© est ajustĂ© juste avant d’ĂȘtre prĂ©sentĂ© Ă  l’utilisateur. Les Twiddlers peuvent ajuster le score de recherche d’information d’un document ou modifier le classement d’un document. Un grand nombre d’expĂ©riences en direct et de systĂšmes nommĂ©s que nous connaissons sont mis en Ɠuvre de cette maniĂšre. Comme le montre ce Xoogler, ils sont trĂšs importants pour toute une sĂ©rie de systĂšmes Google :

Les Twiddlers peuvent proposer des contraintes de catĂ©gorie, ce qui signifie que la diversitĂ© peut ĂȘtre favorisĂ©e en limitant spĂ©cifiquement le type de rĂ©sultats. Par exemple, l’auteur peut dĂ©cider de n’autoriser que 3 articles de blog dans un SERP donnĂ©. Cela permet de clarifier les cas oĂč le classement est une cause perdue en raison du format de votre page.

Lorsque Google dĂ©clare que quelque chose comme Panda ne fait pas partie de l’algorithme de base, cela signifie probablement qu’il a Ă©tĂ© lancĂ© en tant que Twiddler comme un calcul de renforcement ou de rĂ©trogradation du classement et qu’il a ensuite Ă©tĂ© dĂ©placĂ© dans la fonction de notation principale. Pensez-y comme Ă  la diffĂ©rence entre le rendu cĂŽtĂ© serveur et le rendu cĂŽtĂ© client

On peut supposer que toutes les fonctions portant le suffixe Boost fonctionnent Ă  l’aide du cadre Twiddler. Voici quelques-unes des fonctions Boost identifiĂ©es dans la documentation :

  • NavBoost
  • QualityBoost
  • RealTimeBoost
  • WebImageBoost

D’aprùs leurs conventions d’appellation, ils sont tous assez explicites.

Il existe Ă©galement un document interne sur les Twiddlers que j’ai consultĂ© et qui aborde ce sujet de maniĂšre plus dĂ©taillĂ©e, mais ce billet semble indiquer que l’auteur a consultĂ© le mĂȘme document que moi.

Des révélations clés qui peuvent avoir un impact sur votre façon de faire du référencement

Venons-en Ă  ce que vous cherchez vraiment. Qu’est-ce que Google fait que nous ne savions pas ou dont nous n’étions pas sĂ»rs et comment cela peut-il avoir un impact sur mes efforts de rĂ©fĂ©rencement ?

Petite remarque avant d’aller plus loin. Mon objectif est toujours d’exposer l’industrie du rĂ©fĂ©rencement Ă  de nouveaux concepts. Mon but n’est pas de vous donner une prescription sur la façon de l’utiliser pour votre cas d’utilisation spĂ©cifique. Si c’est ce que vous voulez, vous devriez engager iPullRank pour votre rĂ©fĂ©rencement. Sinon, vous pouvez toujours extrapoler et dĂ©velopper vos propres cas d’utilisation.

Comment fonctionne Panda ?

Lorsque Panda a Ă©tĂ© mis en place, il y a eu beaucoup de confusion. S’agit-il d’apprentissage automatique ? Utilise-t-il les signaux des utilisateurs ? Pourquoi avons-nous besoin d’une mise Ă  jour ou d’un rafraĂźchissement pour rĂ©cupĂ©rer ? S’agit-il d’un site entier ? Pourquoi ai-je perdu du trafic pour un certain sous-rĂ©pertoire ?

Panda a Ă©tĂ© lancĂ© sous la direction d’Amit Singhal. Ce dernier Ă©tait rĂ©solument opposĂ© Ă  l’apprentissage automatique en raison de son caractĂšre observable limitĂ©. En fait, il existe une sĂ©rie de brevets axĂ©s sur la qualitĂ© des sites pour Panda, mais celui sur lequel je souhaite me concentrer est le non-descriptif “Classement des rĂ©sultats de recherche” Le brevet clarifie le fait que Panda est beaucoup plus simple que ce que nous pensions. Il s’agissait en grande partie de construire un modificateur de score basĂ© sur des signaux distribuĂ©s liĂ©s au comportement de l’utilisateur et aux liens externes. Ce modificateur peut ĂȘtre appliquĂ© au niveau d’un domaine, d’un sous-domaine ou d’un sous-rĂ©pertoire.

“Le systĂšme gĂ©nĂšre un facteur de modification pour le groupe de ressources Ă  partir du nombre de liens indĂ©pendants et du nombre de requĂȘtes de rĂ©fĂ©rence (Ă©tape 306). Par exemple, le facteur de modification peut ĂȘtre un rapport entre le nombre de liens indĂ©pendants pour le groupe et le nombre de requĂȘtes de rĂ©fĂ©rence pour le groupe. En d’autres termes, le facteur de modification (M) peut ĂȘtre exprimĂ© comme suit :

M=IL/RQ,


oĂč IL est le nombre de liens indĂ©pendants comptabilisĂ©s pour le groupe de ressources et RQ est le nombre de requĂȘtes de rĂ©fĂ©rence comptabilisĂ©es pour le groupe de ressources”

Les liens indĂ©pendants sont essentiellement ce que nous pensons ĂȘtre des liens entre domaines racine, mais les requĂȘtes de rĂ©fĂ©rence sont un peu plus complexes. Voici comment elles sont dĂ©finies dans le brevet :

“Une requĂȘte de rĂ©fĂ©rence pour un groupe particulier de ressources peut ĂȘtre une requĂȘte de recherche prĂ©cĂ©demment soumise qui a Ă©tĂ© catĂ©gorisĂ©e comme se rĂ©fĂ©rant Ă  une ressource dans le groupe particulier de ressources. La catĂ©gorisation d’une requĂȘte de recherche prĂ©cĂ©demment soumise comme se rĂ©fĂ©rant Ă  une ressource dans le groupe particulier de ressources peut inclure : la dĂ©termination que la requĂȘte de recherche prĂ©cĂ©demment soumise comprend un ou plusieurs termes qui ont Ă©tĂ© dĂ©terminĂ©s comme se rĂ©fĂ©rant Ă  la ressource dans le groupe particulier de ressources”

Maintenant que nous avons accĂšs Ă  cette documentation, il est clair que les requĂȘtes de rĂ©fĂ©rence sont des requĂȘtes provenant de NavBoost.

Cela suggĂšre que les rafraĂźchissements Panda Ă©taient simplement des mises Ă  jour de la fenĂȘtre roulante des requĂȘtes, de la mĂȘme maniĂšre que les calculs de Core Web Vitals fonctionnent. Cela pourrait Ă©galement signifier que les mises Ă  jour du graphe de liens n’ont pas Ă©tĂ© traitĂ©es en temps rĂ©el pour Panda.

Sans vouloir faire de procĂšs d’intention, un autre brevet Panda, Site quality score, envisage Ă©galement un score qui est un rapport entre les requĂȘtes de rĂ©fĂ©rence et les sĂ©lections ou les clics de l’utilisateur.

En rĂ©sumĂ©, vous devez obtenir plus de clics rĂ©ussis en utilisant un ensemble plus large de requĂȘtes et gagner en diversitĂ© de liens si vous voulez continuer Ă  vous classer. D’un point de vue conceptuel, c’est logique, car un contenu trĂšs solide vous permettra d’atteindre cet objectif. Le fait de se concentrer sur la gĂ©nĂ©ration d’un trafic plus qualifiĂ© et d’une meilleure expĂ©rience utilisateur enverra Ă  Google des signaux indiquant que votre page mĂ©rite d’ĂȘtre classĂ©e. C’est ce que vous devez faire pour vous remettre de la mise Ă  jour du contenu utile.

Les auteurs sont une caractéristique explicite

Le terme E-E-A-T a fait couler beaucoup d’encre. De nombreux rĂ©fĂ©renceurs n’y croient pas en raison du caractĂšre nĂ©buleux de l’expertise et de l’autoritĂ©. J’ai Ă©galement soulignĂ© prĂ©cĂ©demment Ă  quel point le balisage des auteurs est peu prĂ©sent sur le web. Avant de dĂ©couvrir les vector embeddings, je ne pensais pas que l’authorship Ă©tait un signal suffisamment viable Ă  l’échelle du web.

Néanmoins, Google stocke explicitement les auteurs associés à un document sous forme de texte :

Il cherche Ă©galement Ă  dĂ©terminer si une entitĂ© sur la page est Ă©galement l’auteur de la page.

Si l’on ajoute Ă  cela la cartographie approfondie des entitĂ©s et des liens prĂ©sentĂ©s dans ces documents, il apparaĂźt clairement que les auteurs font l’objet d’une mesure globale.

Rétrogradations

La documentation prĂ©sente une sĂ©rie de rĂ©trogradations algorithmiques. Les descriptions sont limitĂ©es, mais elles mĂ©ritent d’ĂȘtre mentionnĂ©es. Nous avons dĂ©jĂ  parlĂ© de Panda, mais les autres rĂ©trogradations que j’ai rencontrĂ©es sont les suivantes :

  • Anchor Mismatch – Lorsque le lien ne correspond pas au site cible auquel il renvoie, le lien est rĂ©trogradĂ© dans les calculs. Comme je l’ai dĂ©jĂ  dit, Google recherche la pertinence des deux cĂŽtĂ©s d’un lien.
  • RĂ©trogradation SERP – Signal indiquant une rĂ©trogradation basĂ©e sur des facteurs observĂ©s dans les SERP, suggĂ©rant une insatisfaction potentielle de l’utilisateur Ă  l’égard de la page, probablement mesurĂ©e par le nombre de clics.
  • Nav Demotion – Il s’agit vraisemblablement d’une rĂ©trogradation appliquĂ©e aux pages prĂ©sentant de mauvaises pratiques de navigation ou des problĂšmes d’expĂ©rience utilisateur.
  • RĂ©trogradation des domaines de correspondance exacte – Fin 2012, Matt Cutts a annoncĂ© que les domaines de correspondance exacte n’auraient plus autant de valeur que par le passĂ©. Il existe une fonctionnalitĂ© spĂ©cifique pour leur rĂ©trogradation.
  • RĂ©trogradationdes Ă©valuations de produits – Il n’y a pas d’information spĂ©cifique Ă  ce sujet, mais c’est listĂ© comme une rĂ©trogradation et probablement liĂ© Ă  la rĂ©cente mise Ă  jour de 2023 sur les Ă©valuations de produits.
  • RĂ©trogradation en fonction de l’emplacement – Il semblerait que les pages “globales” et “super globales” puissent ĂȘtre rĂ©trogradĂ©es. Cela suggĂšre que Google tente d’associer les pages Ă  un lieu et de les classer en consĂ©quence.
  • RĂ©trogradation des pages pornographiques – Cette rĂ©trogradation est assez Ă©vidente.
  • Autres rĂ©trogradations de liens – Nous en discuterons dans la section suivante.

Toutes ces rĂ©trogradations potentielles peuvent influencer une stratĂ©gie, mais elles se rĂ©sument Ă  la crĂ©ation d’un contenu de qualitĂ©, Ă  une expĂ©rience utilisateur solide et Ă  la construction d’une marque, si nous voulons ĂȘtre honnĂȘtes.

Les liens semblent toujours aussi importants

Je n’ai vu aucune preuve rĂ©futant les rĂ©centes affirmations selon lesquelles les liens sont considĂ©rĂ©s comme moins importants. Encore une fois, il est probable que cela soit traitĂ© dans les fonctions d’évaluation elles-mĂȘmes plutĂŽt que dans la maniĂšre dont les informations sont stockĂ©es. Cela dit, on a pris grand soin d’extraire et d’élaborer des caractĂ©ristiques permettant de comprendre en profondeur le graphe des liens.

Le niveau d’indexation a un impact sur la valeur des liens

Une mĂ©trique appelĂ©e sourceType montre une relation souple entre le niveau d’indexation d’une page et sa valeur. Pour la petite histoire, l’index de Google est stratifiĂ© en niveaux oĂč le contenu le plus important, rĂ©guliĂšrement mis Ă  jour et consultĂ©, est stockĂ© dans la mĂ©moire flash. Les contenus moins importants sont stockĂ©s sur des disques d’état solide et les contenus mis Ă  jour de maniĂšre irrĂ©guliĂšre sont stockĂ©s sur des disques durs standard.

Cela revient Ă  dire que plus le niveau est Ă©levĂ©, plus le lien a de la valeur. Les pages considĂ©rĂ©es comme “fraĂźches” sont Ă©galement considĂ©rĂ©es comme de haute qualitĂ©. En d’autres termes, vous souhaitez que vos liens proviennent de pages qui sont fraĂźches ou qui figurent dans le niveau supĂ©rieur. Cela explique en partie pourquoi le fait d’obtenir des classements Ă  partir de pages trĂšs bien classĂ©es et de pages d’actualitĂ© permet d’obtenir de meilleurs rĂ©sultats en termes de classement. Regardez-moi ça, je viens de rendre les relations publiques numĂ©riques Ă  nouveau cool !

Signaux de vitesse du spam de liens

Il existe toute une sĂ©rie de mesures concernant l’identification des pics dans le texte d’ancrage des spams. En notant la fonction phraseAnchorSpamDays, Google a effectivement la capacitĂ© de mesurer la vitesse des liens de spam.

Cela pourrait facilement ĂȘtre utilisĂ© pour identifier quand un site est en train de spammer et pour annuler une attaque de rĂ©fĂ©rencement nĂ©gatif. Pour ceux qui sont sceptiques Ă  ce sujet, Google peut utiliser ces donnĂ©es pour comparer une base de dĂ©couverte de liens Ă  une tendance actuelle et simplement ne pas compter ces liens dans un sens ou dans l’autre.

Google n’utilise que les 20 derniĂšres modifications pour une URL donnĂ©e lors de l’analyse des liens

J’ai dĂ©jĂ  Ă©voquĂ© la capacitĂ© du systĂšme de fichiers de Google Ă  stocker des versions de pages au fil du temps, Ă  l’instar de la Wayback Machine. Si j’ai bien compris, Google conserve pour toujours ce qu’il a indexĂ©. C’est l’une des raisons pour lesquelles vous ne pouvez pas simplement rediriger une page vers une cible non pertinente et vous attendre Ă  ce que l’équitĂ© des liens soit rĂ©tablie.

Les documents renforcent cette idĂ©e en indiquant qu’ils conservent tous les changements qu’ils ont jamais vus pour la page.

Lorsqu’ils font remonter les donnĂ©es de surface pour les comparer en rĂ©cupĂ©rant DocInfo, ils ne prennent en compte que les 20 derniĂšres versions de la page.

Cela devrait vous donner une idĂ©e du nombre de fois oĂč vous devez modifier des pages et les faire indexer pour obtenir une “table rase” dans Google.

Le PageRank de la page d’accueil est pris en compte pour toutes les pages

Chaque document est associĂ© au PageRank de sa page d’accueil (la version la plus proche de la graine). Celui-ci est probablement utilisĂ© comme proxy pour les nouvelles pages jusqu’à ce qu’elles acquiĂšrent leur propre PageRank.

Il est probable que this et siteAuthority soient utilisĂ©s comme proxy pour les nouvelles pages jusqu’à ce que leur propre PageRank soit calculĂ©.

Confiance dans la page d’accueil

Google dĂ©cide de la valeur d’un lien en fonction de la confiance qu’il accorde Ă  la page d’accueil.

Comme toujours, vous devriez vous concentrer sur la qualité et la pertinence de vos liens plutÎt que sur le volume.

La taille de la police des termes et des liens est importante

Lorsque j’ai commencĂ© Ă  faire du rĂ©fĂ©rencement en 2006, l’une des choses que nous faisions Ă©tait de mettre le texte en gras et de le souligner ou de grossir certains passages pour qu’ils paraissent plus importants. Au cours des cinq derniĂšres annĂ©es, j’ai vu des gens dire que cela valait toujours la peine d’ĂȘtre fait. J’étais sceptique, mais je vois maintenant que Google suit la taille de police moyenne pondĂ©rĂ©e des termes dans les documents.

Il fait de mĂȘme pour le texte d’ancrage des liens.

Penguin supprime les liens internes

Dans de nombreux modules liĂ©s aux ancres, l’idĂ©e de “local” signifie le mĂȘme site. Ce droppedLocalAnchorCount suggĂšre que certains liens internes ne sont pas pris en compte.

Je n’ai pas vu une seule mention de dĂ©saveu

Alors que les donnĂ©es de dĂ©saveu pourraient ĂȘtre stockĂ©es ailleurs, elles ne sont pas spĂ©cifiquement dans cette API. Je trouve cela spĂ©cifiquement parce que les donnĂ©es des Ă©valuateurs de qualitĂ© sont directement accessibles ici. Cela suggĂšre que les donnĂ©es de dĂ©saveu sont dĂ©couplĂ©es des systĂšmes de classement de base.

Mon hypothĂšse Ă  long terme est que le dĂ©saveu a Ă©tĂ© un effort d’ingĂ©nierie de fonctionnalitĂ© provenant de la foule pour former les classificateurs de spam de Google. Le fait que les donnĂ©es ne soient pas “en ligne” suggĂšre que cela pourrait ĂȘtre vrai.

Je pourrais continuer Ă  parler de liens et de caractĂ©ristiques telles que IndyRank, PageRankNS, etc., mais il suffit de dire que Google a une analyse des liens trĂšs prĂ©cise et qu’une grande partie de ce qu’il fait n’est pas pris en compte par nos indices de liens. C’est le moment idĂ©al pour reconsidĂ©rer vos programmes de crĂ©ation de liens sur la base de tout ce que vous venez de lire.

Les documents sont tronqués

Google compte le nombre de jetons et le rapport entre le nombre total de mots dans le corps du texte et le nombre de jetons uniques. Les documents indiquent qu’il existe un nombre maximum de jetons pouvant ĂȘtre pris en compte pour un document spĂ©cifique dans le systĂšme Mustang, ce qui renforce l’idĂ©e que les auteurs doivent continuer Ă  placer leur contenu le plus important en dĂ©but de page.

Le contenu court est noté en fonction de son originalité

Le score OriginalContentScore suggĂšre que les contenus courts sont notĂ©s en fonction de leur originalitĂ©. C’est probablement la raison pour laquelle le contenu peu Ă©toffĂ© n’est pas toujours fonction de la longueur.

Inversement, il existe également un score pour le bourrage de mots-clés.

Les titres de page sont toujours mesurĂ©s par rapport aux requĂȘtes

La documentation indique qu’il existe un score de correspondance de titre (titlematchScore). La description suggĂšre que la correspondance du titre de la page avec la requĂȘte est toujours un Ă©lĂ©ment auquel Google accorde de l’importance.

Placer vos mots-clĂ©s cibles en premier est toujours d’actualitĂ©.

Il n’y a pas de mesures de comptage de caractùres

À sa dĂ©charge, Gary Ilyes a dĂ©clarĂ© que les rĂ©fĂ©renceurs ont inventĂ© tout le nombre de caractĂšres optimal pour les mĂ©tadonnĂ©es. Il n’y a aucune mesure dans cet ensemble de donnĂ©es qui compte la longueur des titres de page ou des extraits. La seule mesure de comptage de caractĂšres que j’ai trouvĂ©e dans la documentation est le snippetPrefixCharCount, qui semble ĂȘtre dĂ©fini pour dĂ©terminer ce qui peut ĂȘtre utilisĂ© dans le cadre de l’extrait.

Cela confirme ce que nous avons constatĂ© Ă  maintes reprises, Ă  savoir que les titres de page longs sont sous-optimaux pour gĂ©nĂ©rer des clics, mais qu’ils sont parfaits pour amĂ©liorer les classements.

Les dates sont trĂšs importantes

Google est trĂšs attachĂ© Ă  la fraĂźcheur des rĂ©sultats et les documents illustrent ses nombreuses tentatives d’associer des dates aux pages.

  • bylineDate – Il s’agit de la date explicitement indiquĂ©e sur la page.
  • syntacticDate – Il s’agit d’une date extraite de l’URL ou du titre.
  • semanticDate – Il s’agit d’une date dĂ©rivĂ©e du contenu de la page.

Le mieux est de spĂ©cifier une date et d’ĂȘtre cohĂ©rent avec celle-ci dans les donnĂ©es structurĂ©es, les titres de page et les sitemaps XML. Si vous indiquez dans votre URL des dates qui ne correspondent pas aux dates figurant Ă  d’autres endroits de la page, les performances du contenu seront probablement moindres.

Les informations relatives Ă  l’enregistrement du domaine sont stockĂ©es Ă  proximitĂ© des pages

Il existe depuis longtemps une thĂ©orie du complot selon laquelle le statut de registraire de Google alimente l’algorithme. Nous pouvons maintenant passer Ă  un fait de conspiration. Google stocke les derniĂšres informations d’enregistrement au niveau du document composite.

Comme nous l’avons vu prĂ©cĂ©demment, ces informations sont probablement utilisĂ©es pour informer la mise en bac Ă  sable des nouveaux contenus. Elles peuvent Ă©galement ĂȘtre utilisĂ©es pour mettre en bac Ă  sable un domaine dĂ©jĂ  enregistrĂ© qui a changĂ© de propriĂ©taire. Je soupçonne que le poids de cette question a Ă©tĂ© rĂ©cemment augmentĂ© avec l’introduction de la politique de spam sur les domaines expirĂ©s.

Les sites axés sur la vidéo sont traités différemment

Si plus de 50 % des pages du site contiennent des vidéos, le site est considéré comme axé sur la vidéo et sera traité différemment.

Votre argent, votre vie fait l’objet d’une Ă©valuation spĂ©cifique

La documentation indique que Google dispose de classificateurs qui génÚrent des scores pour YMYL Health et pour YMYL News.

Ils prĂ©disent Ă©galement les “requĂȘtes marginales” ou celles qui n’ont jamais Ă©tĂ© vues auparavant afin de dĂ©terminer si elles sont YMYL ou non.

Enfin, YMYL est ancrĂ© au niveau des morceaux, ce qui suggĂšre que l’ensemble du systĂšme est basĂ© sur des enchĂąssements.

Il existe des documents de référence

Il n’y a pas d’indication sur ce que cela signifie, mais la description mentionne des “documents Ă©tiquetĂ©s par des humains” par opposition Ă  des “annotations Ă©tiquetĂ©es automatiquement” Je me demande s’il s’agit d’une fonction des classements de qualitĂ©, mais Google affirme que les classements de qualitĂ© n’ont pas d’impact sur les classements. Nous ne le saurons donc peut-ĂȘtre jamais. đŸ€”

Les sites intĂ©grĂ©s sont utilisĂ©s pour mesurer le degrĂ© de pertinence d’une page

Je parlerai plus en détail des embeddings dans un prochain article, mais il est intéressant de noter que Google vectorise spécifiquement les pages et les sites et compare les embeddings des pages aux embeddings des sites pour voir à quel point la page est hors sujet.

Le score siteFocusScore indique dans quelle mesure le site se concentre sur un seul sujet. Le rayon du site indique dans quelle mesure la page s’écarte du sujet principal sur la base des vecteurs site2vec gĂ©nĂ©rĂ©s pour le site.

Il se peut que Google brûle volontairement les petits sites

Google dispose d’un indicateur spĂ©cifique qui signale qu’un site est un “petit site personnel” Il n’y a pas de dĂ©finition de ces sites, mais d’aprĂšs ce que nous savons, il ne serait pas difficile pour Google d’ajouter un Twiddler qui boosterait ces sites ou qui les rĂ©trograderait.

Compte tenu des rĂ©actions nĂ©gatives et des petites entreprises qui ont Ă©tĂ© dĂ©truites par la mise Ă  jour du contenu utile, il est surprenant qu’ils utilisent cette fonctionnalitĂ© pour faire quelque chose Ă  ce sujet.

Mes questions ouvertes

Je pourrais continuer, et je le ferai, mais il est temps de faire une pause. Entre-temps, je pense qu’il est inĂ©vitable que d’autres personnes s’intĂ©ressent Ă  cette fuite et en tirent leurs propres conclusions. Pour l’instant, j’ai quelques questions ouvertes que j’aimerais que nous examinions tous.

La mise Ă  jour du contenu utile est-elle connue sous le nom de Baby Panda ?

Il y a deux rĂ©fĂ©rences Ă  quelque chose appelĂ© “baby panda” dans les signaux de qualitĂ© compressĂ©s. Baby Panda est un Twiddler, c’est-Ă -dire un ajustement qui intervient aprĂšs le classement initial.

Il est mentionnĂ© qu’il fonctionne en plus de Panda, mais il n’y a pas d’autres informations dans les documents.

Je pense que nous sommes gĂ©nĂ©ralement d’accord sur le fait que la mise Ă  jour du contenu utile a de nombreux comportements similaires Ă  ceux de Panda. S’il est construit sur un systĂšme utilisant des requĂȘtes de rĂ©fĂ©rence, des liens et des clics, ce sont les Ă©lĂ©ments sur lesquels vous devrez vous concentrer aprĂšs avoir amĂ©liorĂ© votre contenu.

NSR signifie-t-il Neural Semantic Retrieval ?

Il existe une multitude de rĂ©fĂ©rences Ă  des modules et Ă  des attributs dont la convention de dĂ©nomination fait rĂ©fĂ©rence Ă  NSR. Nombre d’entre eux sont liĂ©s Ă  des morceaux de site et Ă  des Ă©lĂ©ments intĂ©grĂ©s. Google a dĂ©jĂ  Ă©voquĂ© la “correspondance neuronale” comme l’un des principaux axes d’amĂ©lioration. Je suppose que NSR signifie Neural Semantic Retrieval et qu’il s’agit de fonctionnalitĂ©s liĂ©es Ă  la recherche sĂ©mantique. Cependant, dans certains cas, elles sont mentionnĂ©es Ă  cĂŽtĂ© d’un “site rank”

J’aimerais bien qu’un Googler rebelle se rende sur go/NSR et m’envoie un “vous avez raison” à partir d’une adresse e-mail anonyme ou quelque chose du genre.

Actions possibles

Comme je l’ai dit, je n’ai pas de prescriptions Ă  vous donner. J’ai cependant quelques conseils stratĂ©giques Ă  vous donner.

  1. Envoyez des excuses Ă  Rand Fishkin – Depuis mon discours “Everything Google Lied to Us About” (Tout ce que Google nous a menti) Ă  PubCon, je me suis lancĂ© dans une campagne pour blanchir le nom de Rand en ce qui concerne NavBoost. Rand a fait un travail ingrat en essayant d’aider notre industrie Ă  s’élever pendant des annĂ©es. Pour cela, il a essuyĂ© de nombreuses critiques de la part de Google et des spĂ©cialistes du rĂ©fĂ©rencement. Parfois, il n’a pas eu raison, mais son cƓur Ă©tait toujours au bon endroit et il s’est efforcĂ© de faire respecter ce que nous faisons et de l’amĂ©liorer. En particulier, il ne s’est pas trompĂ© sur les conclusions de ses expĂ©riences de clics, sur ses tentatives rĂ©pĂ©tĂ©es de dĂ©montrer l’existence d’un bac Ă  sable de Google, sur ses Ă©tudes de cas montrant que Google classe diffĂ©remment les sous-domaines, et sur sa conviction, longtemps contestĂ©e, que Google utilise des signaux d’autoritĂ© Ă  l’échelle du site. Vous devez Ă©galement le remercier pour cette analyse, car c’est lui qui a partagĂ© la documentation avec moi. C’est le moment pour beaucoup d’entre vous de lui tĂ©moigner de l’amour sur Threads.
  2. CrĂ©ez un contenu de qualitĂ© et faites-en une bonne promotion – Je plaisante, mais je suis aussi sĂ©rieux. Google n’a cessĂ© de donner ce conseil et nous nous en moquons parce qu’il n’est pas applicable. Pour certains rĂ©fĂ©renceurs, c’est tout simplement hors de leur contrĂŽle.

    AprĂšs avoir passĂ© en revue les caractĂ©ristiques qui confĂšrent Ă  Google ses avantages, il est Ă©vident que la crĂ©ation d’un meilleur contenu et sa promotion auprĂšs d’audiences avec lesquelles il est en rĂ©sonance produiront le meilleur impact sur ces mesures. Les mesures des liens et des caractĂ©ristiques du contenu vous permettront certainement d’aller assez loin, mais si vous voulez vraiment gagner dans Google Ă  long terme, vous devrez faire des choses qui continuent Ă  mĂ©riter d’ĂȘtre classĂ©es.

  3. RĂ©introduire les Ă©tudes de corrĂ©lation – Nous avons dĂ©sormais une bien meilleure comprĂ©hension de nombreuses caractĂ©ristiques que Google utilise pour Ă©tablir les classements. GrĂące Ă  une combinaison de donnĂ©es de parcours et d’extraction de caractĂ©ristiques, nous pouvons reproduire plus de choses que nous ne le pouvions auparavant. Je pense qu’il est temps de rĂ©tablir les Ă©tudes de corrĂ©lation spĂ©cifiques aux sites verticaux
  4. Testez et apprenez – Vous devriez avoir vu suffisamment de graphiques de visibilitĂ© et de trafic avec des axes Y pour savoir que vous ne pouvez pas faire confiance Ă  tout ce que vous lisez ou entendez dans le domaine du rĂ©fĂ©rencement. Cette fuite est une autre indication que vous devez prendre en compte les donnĂ©es et les expĂ©rimenter pour voir ce qui fonctionnera pour votre site web. Il ne suffit pas d’examiner des avis anecdotiques et de supposer que c’est ainsi que Google fonctionne. Si votre organisation n’a pas de plan d’expĂ©rimentation pour le rĂ©fĂ©rencement, c’est le moment d’en mettre un en place.

Nous savons ce que nous faisons

Une chose importante que nous pouvons tous retenir est que les rĂ©fĂ©renceurs savent ce qu’ils font : Les rĂ©fĂ©renceurs savent ce qu’ils font. AprĂšs des annĂ©es Ă  nous faire dire que nous avons tort, il est bon de voir derriĂšre le rideau et de dĂ©couvrir que nous avions raison depuis le dĂ©but. Et, bien que ces documents contiennent des nuances intĂ©ressantes sur le fonctionnement de Google, il n’y a rien qui va me faire changer radicalement de cap dans ma stratĂ©gie de rĂ©fĂ©rencement.

Pour ceux qui s’y intĂ©ressent, ces documents serviront avant tout Ă  valider ce que les rĂ©fĂ©renceurs chevronnĂ©s prĂ©conisent depuis longtemps. Comprenez votre public, identifiez ce qu’il veut, crĂ©ez la meilleure chose possible qui corresponde Ă  ses attentes, rendez-la techniquement accessible et faites-en la promotion jusqu’à ce qu’elle se classe.

À tous ceux qui travaillent dans le domaine du rĂ©fĂ©rencement et qui ne sont pas sĂ»rs de ce qu’ils font, continuez Ă  tester, Ă  apprendre et Ă  dĂ©velopper des entreprises. Google ne pourrait pas faire ce qu’il fait sans nous.

Téléchargez les fonctionnalités de classement

Eh bien, quelqu’un va tĂ©lĂ©charger et organiser toutes les fonctionnalitĂ©s dans une feuille de calcul pour vous. Il se pourrait bien que ce soit moi. Il ne nous reste qu’un mois dans le trimestre et je veux augmenter nos MQLs de toute façon. 😆

TĂ©lĂ©chargez votre exemplaire de la liste des caractĂ©ristiques du classement. Gardez Ă  l’esprit que beaucoup d’entre elles ne sont pas pour le classement, elles sont aussi pour d’autres produits Google.

Nous n’en sommes qu’au dĂ©but

Ce que j’ai toujours aimĂ© dans le rĂ©fĂ©rencement, c’est qu’il s’agit d’un puzzle en constante Ă©volution. Et bien qu’il soit agrĂ©able d’aider les marques Ă  gagner des milliards de dollars grĂące Ă  nos efforts, il y a quelque chose de trĂšs satisfaisant Ă  nourrir ma curiositĂ© avec toutes les recherches liĂ©es Ă  l’analyse du fonctionnement de Google. J’ai Ă©tĂ© trĂšs heureux de pouvoir enfin voir ce qui se passe derriĂšre le rideau.

C’est tout ce que j’ai Ă  dire pour l’instant, mais faites-moi savoir ce que vous avez trouvĂ© ! Si vous souhaitez partager quelque chose avec moi, n’hĂ©sitez pas Ă  me contacter. Je suis assez facile Ă  trouver !

Prochaines étapes

Voici trois façons dont iPullRank peut vous aider à combiner SEO et contenu pour accroßtre la visibilité de votre entreprise et générer des revenus :

  1. Planifiez une session stratĂ©gique de 30 minutes : Faites-nous part de vos plus grands dĂ©fis en matiĂšre de rĂ©fĂ©rencement et de contenu afin que nous puissions Ă©laborer une prĂ©sentation personnalisĂ©e aprĂšs avoir examinĂ© votre prĂ©sence numĂ©rique. Il n’y a pas de solutions toutes faites, seulement des conseils sur mesure pour dĂ©velopper votre entreprise. Planifiez votre session dĂšs maintenant.
  2. AttĂ©nuer l’impact potentiel des aperçus de l’IA : Dans quelle mesure votre stratĂ©gie de rĂ©fĂ©rencement est-elle prĂ©parĂ©e aux aperçus de l’IA de Google ? Prenez de l’avance sur les menaces potentielles et assurez-vous que votre site reste compĂ©titif grĂące Ă  notre rapport complet sur les menaces liĂ©es aux aperçus de l’IA. Obtenez votre rapport.
  3. AmĂ©liorez la pertinence de votre contenu avec Orbitwise : Vous n’ĂȘtes pas sĂ»r que votre contenu soit mathĂ©matiquement pertinent ? Utilisez Orbitwise pour tester et amĂ©liorer la pertinence de votre contenu, en vous assurant qu’il se classe pour vos mots-clĂ©s ciblĂ©s. Testez votre contenu aujourd’hui.

Source : IPullRank (Google Leak)

Article traduit en Français avec ❀ Par un Consultant SEO et des tools dĂ©diĂ©s (c’est plus pratique)  

4/5 - (4 votes)

category:

Actus,Google

Tags:

No responses yet

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *