Google, si vous lisez ceci, il est trop tard đ
Ok. Cracks knuckles. Allons droit au but. La documentation interne de lâAPI Content Warehouse de Google Search a fait lâobjet dâune fuite. Les microservices internes de Google semblent reflĂ©ter ce que Google Cloud Platform offre et la version interne de la documentation pour le Document AI Warehouse dĂ©prĂ©ciĂ© a Ă©tĂ© accidentellement publiĂ©e publiquement sur un dĂ©pĂŽt de code pour la bibliothĂšque client. La documentation de ce code a Ă©galement Ă©tĂ© capturĂ©e par un service de documentation automatisĂ© externe.
DâaprĂšs lâhistorique des modifications, cette erreur de dĂ©pĂŽt de code a Ă©tĂ© corrigĂ©e le 7 mai, mais la documentation automatisĂ©e est toujours en ligne. Afin de limiter la responsabilitĂ© potentielle, je nây ferai pas rĂ©fĂ©rence ici, mais comme tout le code de ce dĂ©pĂŽt a Ă©tĂ© publiĂ© sous la licence Apache 2.0, quiconque lâa trouvĂ© sâest vu accorder un large Ă©ventail de droits, y compris la possibilitĂ© de lâutiliser, de le modifier et de le distribuer de toute façon. 
Jâai examinĂ© les documents de rĂ©fĂ©rence de lâAPI et les ai mis en contexte avec dâautres fuites antĂ©rieures de Google et le tĂ©moignage antitrust du DOJ. Je combine cela avec les recherches approfondies sur les brevets et les livres blancs effectuĂ©es pour mon prochain livre, The Science of SEO (La science du rĂ©fĂ©rencement). Bien que la documentation que jâai examinĂ©e ne contienne aucun dĂ©tail sur les fonctions dâĂ©valuation de Google, elle contient une multitude dâinformations sur les donnĂ©es stockĂ©es pour le contenu, les liens et les interactions avec les utilisateurs. On y trouve Ă©galement des descriptions plus ou moins dĂ©taillĂ©es (allant de dĂ©cevantes Ă Ă©tonnamment rĂ©vĂ©latrices) des caractĂ©ristiques manipulĂ©es et stockĂ©es.
Vous seriez tentĂ© de les appeler globalement âfacteurs de classementâ, mais ce serait imprĂ©cis. Nombre dâentre eux, voire la plupart, sont des facteurs de classement, mais beaucoup ne le sont pas. Ce que je vais faire ici, câest mettre en contexte certains des systĂšmes et fonctionnalitĂ©s de classement les plus intĂ©ressants (du moins, ceux que jâai pu trouver au cours des premiĂšres heures dâexamen de cette fuite massive) sur la base de mes recherches approfondies et des choses que Google nous a dites ou menties au fil des ans.
le mot âmentirâ est un peu fort, mais câest le seul mot exact Ă utiliser ici. Si je ne reproche pas nĂ©cessairement aux reprĂ©sentants publics de Google de protĂ©ger leurs informations confidentielles, je mâinsurge contre leurs efforts visant Ă discrĂ©diter activement les personnes qui, dans le monde du marketing, de la technologie et du journalisme, ont prĂ©sentĂ© des dĂ©couvertes reproductibles. Mon conseil aux futurs dirigeants de Google qui sâexprimeront sur ces sujets : Il est parfois prĂ©fĂ©rable de dire simplement ânous ne pouvons pas en parlerâ Votre crĂ©dibilitĂ© est importante, et lorsque des fuites comme celle-ci et des tĂ©moignages comme ceux du procĂšs du DOJ sont rĂ©vĂ©lĂ©s, il devient impossible de faire confiance Ă vos futures dĂ©clarations.
Les mises en garde
Je pense que nous savons tous que des personnes sâefforceront de discrĂ©diter les conclusions et lâanalyse que jâai tirĂ©es de cette fuite. Certains se demanderont pourquoi câest important et diront âmais nous le savions dĂ©jĂ â Alors, Ă©liminons les mises en garde avant de passer aux choses sĂ©rieuses.
- Temps et contexte limitĂ©s â En raison du week-end de vacances, je nâai pu consacrer quâune douzaine dâheures Ă lâĂ©tude de ce dossier. Je suis incroyablement reconnaissant Ă certaines parties anonymes qui ont Ă©tĂ© trĂšs utiles en partageant leurs idĂ©es avec moi pour mâaider Ă me mettre Ă niveau rapidement. Par ailleurs, comme pour la fuite de Yandex que jâai couverte lâannĂ©e derniĂšre, je nâai pas une vision complĂšte de la situation. Alors que nous avions le code source Ă analyser mais aucune des idĂ©es qui le sous-tendaient pour Yandex, dans ce cas-ci, nous avons une partie des idĂ©es qui sous-tendent des milliers de fonctionnalitĂ©s et de modules, mais pas de code source. Vous devrez me pardonner de partager ceci dâune maniĂšre moins structurĂ©e que je ne le ferai dans quelques semaines, aprĂšs mâĂȘtre penchĂ© plus longuement sur le sujet.
- Pas de fonctions de notation â Nous ne savons pas comment les caractĂ©ristiques sont pondĂ©rĂ©es dans les diverses fonctions de notation en aval. Nous ne savons pas si toutes les fonctionnalitĂ©s disponibles sont utilisĂ©es. Nous savons que certaines fonctionnalitĂ©s sont obsolĂštes. Sauf indication explicite, nous ne savons pas comment les choses sont utilisĂ©es. Nous ne savons pas oĂč tout se passe dans le pipeline. Nous disposons dâune sĂ©rie de systĂšmes de classement nommĂ©s qui correspondent vaguement Ă la maniĂšre dont Google les a expliquĂ©s, Ă la maniĂšre dont les rĂ©fĂ©renceurs ont observĂ© les classements dans la nature, et Ă la maniĂšre dont les demandes de brevet et la littĂ©rature de RI expliquent. En fin de compte, grĂące Ă cette fuite, nous avons maintenant une image plus claire de ce qui est envisagĂ© et qui peut informer ce sur quoi nous nous concentrons par rapport Ă ce que nous ignorons dans le rĂ©fĂ©rencement Ă lâavenir.
- Probablement le premier dâune sĂ©rie de billets â Ce billet sera mon premier coup de pinceau sur ce que jâai examinĂ©. Il se peut que je publie dâautres articles au fur et Ă mesure que je continue Ă creuser les dĂ©tails. Je pense que cet article va inciter la communautĂ© SEO Ă analyser ces documents et que nous allons, collectivement, dĂ©couvrir et recontextualiser les choses pendant des mois.
- Ces informations semblent ĂȘtre dâactualitĂ© â DâaprĂšs ce que je peux dire, cette fuite reprĂ©sente lâarchitecture actuelle et active de Google Search Content Storage Ă partir de mars 2024. (Un responsable des relations publiques de Google vous dira que jâai tort. En fait, passons la chanson et la danse, vous tous). DâaprĂšs lâhistorique des livraisons, le code correspondant a Ă©tĂ© poussĂ© le 27 mars 2024 et nâa Ă©tĂ© supprimĂ© que le 7 mai 2024.

- CorrĂ©lation nâest pas causalitĂ© â Ok, celle-ci ne sâapplique pas vraiment ici, mais je voulais juste mâassurer que je couvrais toutes les bases.
Il y a 14 000 caractéristiques de classement et plus encore dans les documents
Il y a 2 596 modules reprĂ©sentĂ©s dans la documentation de lâAPI avec 14 014 attributs (caractĂ©ristiques) qui ressemblent Ă ceci :

Les modules sont liĂ©s Ă des composants de YouTube, Assistant, Livres, recherche vidĂ©o, liens, documents web, infrastructure de crawl, systĂšme de calendrier interne et API Personnes. Techniquement, une grande partie des fonctionnalitĂ©s nâest donc pas destinĂ©e au classement. Tout comme Yandex, les systĂšmes de Google fonctionnent sur un rĂ©fĂ©rentiel monolithique (ou âmonorepoâ) et les machines fonctionnent dans un environnement partagĂ©. Cela signifie que tout le code est stockĂ© au mĂȘme endroit et que nâimporte quelle machine du rĂ©seau peut faire partie de nâimporte quel systĂšme de Google.

La documentation qui a fait lâobjet dâune fuite dĂ©crit chaque module de lâAPI et les dĂ©compose en rĂ©sumĂ©s, types, fonctions et attributs. La plupart des Ă©lĂ©ments que nous examinons sont les dĂ©finitions des propriĂ©tĂ©s de divers tampons de protocole (ou protobufs) auxquels les systĂšmes de classement accĂšdent pour gĂ©nĂ©rer des SERP (Search Engine Result Pages â ce que Google affiche aux internautes aprĂšs quâils ont effectuĂ© une requĂȘte).

Malheureusement, de nombreux rĂ©sumĂ©s font rĂ©fĂ©rence Ă des liens Go, qui sont des URL sur lâintranet de lâentreprise Google, offrant des dĂ©tails supplĂ©mentaires sur diffĂ©rents aspects du systĂšme. Sans les identifiants Google nĂ©cessaires pour se connecter et consulter ces pages (ce qui nĂ©cessiterait trĂšs certainement dâĂȘtre un Googler de lâĂ©quipe de recherche), nous sommes livrĂ©s Ă nous-mĂȘmes pour interprĂ©ter.
Les documents de lâAPI rĂ©vĂšlent quelques mensonges notables de Google
Les porte-parole de Google ont tout fait pour nous induire en erreur sur divers aspects du fonctionnement de leurs systĂšmes, dans le but de contrĂŽler notre comportement en tant que rĂ©fĂ©renceurs. Je nâirai pas jusquâĂ parler d'âingĂ©nierie socialeâ en raison de lâhistoire chargĂ©e de ce terme. Je prĂ©fĂšre parler d'âĂ©clairage au gazâ Les dĂ©clarations publiques de Google ne sont probablement pas des efforts intentionnels pour mentir, mais plutĂŽt pour tromper les spammeurs potentiels (et de nombreux rĂ©fĂ©renceurs lĂ©gitimes Ă©galement) afin de nous faire perdre de vue la façon dâinfluencer les rĂ©sultats de recherche.
Ci-dessous, je prĂ©sente des affirmations dâemployĂ©s de Google ainsi que des faits tirĂ©s de la documentation, accompagnĂ©s de commentaires limitĂ©s, afin que vous puissiez juger par vous-mĂȘme.
Les porte-parole de Google ont dĂ©clarĂ© Ă plusieurs reprises quâils nâutilisaient pas âlâautoritĂ© de domaineâ Jâai toujours pensĂ© quâil sâagissait dâun mensonge par omission et par dissimulation.
En disant quâils nâutilisent pas lâautoritĂ© de domaine, ils pourraient dire quâils nâutilisent pas spĂ©cifiquement la mĂ©trique de Moz appelĂ©e âAutoritĂ© de domaineâ (Ă©videmment đ). Ils pourraient Ă©galement dire quâils ne mesurent pas lâautoritĂ© ou lâimportance dâun sujet spĂ©cifique (ou domaine) en ce qui concerne un site web. Cette confusion sĂ©mantique leur permet de ne jamais rĂ©pondre directement Ă la question de savoir sâils calculent ou utilisent des mesures dâautoritĂ© pour lâensemble du site.
Gary Ilyes, un analyste de lâĂ©quipe de recherche de Google qui publie des informations destinĂ©es Ă aider les crĂ©ateurs de sites web, a rĂ©pĂ©tĂ© cette affirmation Ă de nombreuses reprises.

Et Gary nâest pas le seul. John Mueller, un âsearch advocate qui coordonne les relations de Google avec les moteurs de rechercheâ a dĂ©clarĂ© dans cette vidĂ©o ânous nâavons pas de score dâautoritĂ© de site webâ
En rĂ©alitĂ©, dans le cadre des signaux de qualitĂ© compressĂ©s qui sont stockĂ©s pour chaque document, Google dispose dâune fonctionnalitĂ© quâil calcule et qui sâappelle âsiteAuthorityâ

Nous ne savons pas prĂ©cisĂ©ment comment cette mesure est calculĂ©e ou utilisĂ©e dans les fonctions de notation en aval, mais nous savons dĂ©sormais avec certitude quâelle existe et quâelle est utilisĂ©e dans le systĂšme de classement Q*. Il sâavĂšre que Google a effectivement une autoritĂ© de domaine globale. Les Googlers prĂ©tendent ânous lâavons, mais nous ne lâutilisons pasâ, ou âvous ne comprenez pas ce que cela signifieâ, ou⊠attendez, jâai dit âcommentaires limitĂ©sâ, nâest-ce pas ? Poursuivons.
âNous nâutilisons pas les clics pour les classements
Mettons celle-ci au placard pour de bon.
Le tĂ©moignage de Pandu Nayak dans le procĂšs antitrust du DOJ a rĂ©cemment rĂ©vĂ©lĂ© lâexistence des systĂšmes de classement Glue et NavBoost. NavBoost est un systĂšme qui utilise des mesures basĂ©es sur le nombre de clics pour amĂ©liorer, rĂ©trograder ou renforcer dâune autre maniĂšre un classement dans la recherche sur le Web. M. Nayak a indiquĂ© que Navboost existait depuis 2005 environ et quâil utilisait traditionnellement des donnĂ©es de clics sur une pĂ©riode de 18 mois. Le systĂšme a rĂ©cemment Ă©tĂ© mis Ă jour pour utiliser des donnĂ©es sur 13 mois consĂ©cutifs et se concentrer sur les rĂ©sultats de recherche sur le web, tandis quâun systĂšme appelĂ© Glue est associĂ© Ă dâautres rĂ©sultats de recherche universels. Cependant, mĂȘme avant cette rĂ©vĂ©lation, nous disposions de plusieurs brevets (dont le brevet Time Based Ranking de 2007) qui indiquent spĂ©cifiquement comment les journaux de clics peuvent ĂȘtre utilisĂ©s pour modifier les rĂ©sultats.
Nous savons Ă©galement que les clics, en tant que mesure du succĂšs, constituent une bonne pratique en matiĂšre de recherche dâinformations. Nous savons que Google sâest orientĂ© vers des algorithmes basĂ©s sur lâapprentissage automatique et que lâapprentissage automatique nĂ©cessite des variables de rĂ©ponse pour affiner ses performances. MalgrĂ© ces preuves stupĂ©fiantes, la confusion rĂšgne toujours dans la communautĂ© des rĂ©fĂ©renceurs en raison de la mauvaise orientation des porte-parole de Google et de la publication complice et embarrassante dâarticles dans le monde du marketing de recherche qui rĂ©pĂštent sans esprit critique les dĂ©clarations publiques de Google.
Gary Ilyes a abordĂ© la question de la mesure des clics Ă de nombreuses reprises. Dans un cas, il a renforcĂ© ce que Paul Haahr, ingĂ©nieur de Google Search, a partagĂ© dans sa confĂ©rence SMX West de 2016 sur les expĂ©riences en direct, en disant que âutiliser les clics directement dans les classements serait une erreurâ

Plus tard encore, il a utilisĂ© sa plateforme pour dĂ©nigrer Rand Fishkin (fondateur/PDG de Moz, et praticien SEO de longue date) en disant que âle temps de sĂ©jour, le CTR, quelle que soit la nouvelle thĂ©orie de Fishkin, ce sont gĂ©nĂ©ralement des conneries inventĂ©es.â

En rĂ©alitĂ©, Navboost dispose dâun module spĂ©cifique entiĂšrement consacrĂ© aux signaux de clics.
Le rĂ©sumĂ© de ce module le dĂ©finit comme â les signaux de clics et dâimpressions pour le Craps â, lâun des systĂšmes de classement. Comme nous le voyons ci-dessous, les mauvais clics, les bons clics, les derniers clics les plus longs, les clics non masquĂ©s et les derniers clics les plus longs non masquĂ©s sont tous considĂ©rĂ©s comme des mĂ©triques. Selon le brevet âScoring local search results based on location prominenceâ de Google, âSquashing is a function that prevents one large signal from dominating the othersâ (lâĂ©crasement est une fonction qui empĂȘche un signal important de dominer les autres) En dâautres termes, les systĂšmes normalisent les donnĂ©es relatives aux clics afin de sâassurer quâil nây a pas de manipulation incontrĂŽlĂ©e basĂ©e sur le signal de clic. Les Googlers affirment que les systĂšmes dĂ©crits dans les brevets et les livres blancs ne sont pas nĂ©cessairement ceux qui sont en production, mais il serait absurde de construire et dâinclure NavBoost sâil ne sâagissait pas dâun Ă©lĂ©ment essentiel des systĂšmes de recherche dâinformations de Google.

Un grand nombre de ces mesures basĂ©es sur les clics se retrouvent Ă©galement dans un autre module relatif aux signaux dâindexation. Lâune de ces mesures est la date du âdernier bon clicâ sur un document donnĂ©. Cela suggĂšre que la dĂ©gradation du contenu (ou la perte de trafic au fil du temps) est Ă©galement fonction du fait quâune page de classement ne gĂ©nĂšre pas le nombre de clics escomptĂ© pour sa position dans les SERP.
En outre, la documentation représente les utilisateurs comme des électeurs et leurs clics sont stockés comme leurs votes. Le systÚme compte le nombre de mauvais clics et segmente les données par pays et par appareil.
Il enregistre Ă©galement le rĂ©sultat qui a fait lâobjet du plus long clic au cours de la session. Il ne suffit donc pas dâeffectuer une recherche et de cliquer sur le rĂ©sultat, il faut aussi que les utilisateurs passent beaucoup de temps sur la page. Les clics longs sont une mesure du succĂšs dâune session de recherche au mĂȘme titre que le temps dâattente, mais il nâexiste pas de fonction spĂ©cifique appelĂ©e âtemps dâattenteâ dans cette documentation. NĂ©anmoins, les clics longs sont effectivement des mesures de la mĂȘme chose, ce qui contredit les dĂ©clarations de Google Ă ce sujet.
Diverses sources ont indiquĂ© que NavBoost est âdĂ©jĂ lâun des signaux de classement les plus forts de Googleâ. La documentation qui a fait lâobjet dâune fuite mentionne le nom âNavboostâ 84 fois et cinq modules comportent Navboost dans leur titre. Il est Ă©galement prouvĂ© quâils envisagent son Ă©valuation au niveau du sous-domaine, du domaine racine et de lâURL, ce qui indique intrinsĂšquement quâils traitent diffĂ©remment les diffĂ©rents niveaux dâun site. Je nâentrerai pas dans lâargument du sous-domaine par rapport Ă lâannuaire, mais nous verrons plus tard comment les donnĂ©es du systĂšme ont Ă©galement influencĂ© lâalgorithme Panda.
Alors, oui, Google ne mentionne pas le âCTRâ ou le âdwell timeâ par ces mots exacts dans cette documentation, mais lâesprit de ce que Rand a prouvĂ© : les clics sur les rĂ©sultats de recherche et les mesures dâune session de recherche rĂ©ussie, sont inclus. La preuve est assez dĂ©finitive, il ne fait guĂšre de doute que Google utilise les clics et le comportement post-clic dans le cadre de ses algorithmes de classement.
âIl nây a pas de bac Ă sable
Les porte-parole de Google ont Ă©tĂ© catĂ©goriques sur le fait quâil nâexiste pas de bac Ă sable dans lequel les sites web sont isolĂ©s en fonction de leur Ăąge ou de lâabsence de signaux de confiance. Dans un tweet aujourdâhui supprimĂ©, John Muller a rĂ©pondu Ă une question sur le temps nĂ©cessaire pour ĂȘtre Ă©ligible au classement en indiquant qu'âil nây a pas de bac Ă sableâ

Dans le module PerDocData, la documentation indique un attribut appelĂ© hostAge qui est utilisĂ© spĂ©cifiquement âpour mettre le spam frais dans un bac Ă sable pendant le temps de serviceâ
Il sâavĂšre quâil existe finalement un bac Ă sable. Qui le savait ? Oh oui, Rand le savait.
âNous nâutilisons rien de Chrome pour le classementâ
Matt Cutts a dĂ©jĂ dĂ©clarĂ© que Google nâutilisait pas les donnĂ©es de Chrome dans le cadre de la recherche organique. Plus rĂ©cemment, John Muller a renforcĂ© cette idĂ©e.

Lâun des modules relatifs aux scores de qualitĂ© des pages comporte une mesure au niveau du site des vues provenant de Chrome. Un autre module qui semble ĂȘtre liĂ© Ă la gĂ©nĂ©ration de sitelinks comporte Ă©galement un attribut liĂ© Ă Chrome.

Une prĂ©sentation interne divulguĂ©e en mai 2016 sur le systĂšme RealTime Boost indique Ă©galement que les donnĂ©es de Chrome allaient ĂȘtre intĂ©grĂ©es Ă la recherche. Vous lâaurez compris.
Les porte-parole de Google sont bien intentionnés, mais pouvons-nous leur faire confiance ?
La réponse rapide est non lorsque vous vous approchez trop prÚs de la sauce secrÚte.
Je ne nourris aucune rancune Ă lâĂ©gard des personnes que jâai citĂ©es ici. Je suis sĂ»r quâils font tous de leur mieux pour apporter leur soutien et leur valeur Ă la communautĂ© dans les limites autorisĂ©es. Cependant, ces documents indiquent clairement que nous devons continuer Ă prendre ce quâils disent comme une contribution et que notre communautĂ© doit continuer Ă expĂ©rimenter pour voir ce qui fonctionne.
Suivez les étapes ci-dessus pour ajouter la fonction de similarité cosinus à votre projet.
Lâarchitecture des systĂšmes de classement de Google
Dâun point de vue conceptuel, vous pouvez considĂ©rer âlâalgorithme de Googleâ comme une seule et mĂȘme chose, une Ă©quation gĂ©ante comportant une sĂ©rie de facteurs de classement pondĂ©rĂ©s. En rĂ©alitĂ©, il sâagit dâune sĂ©rie de microservices dans lesquels de nombreuses caractĂ©ristiques sont prĂ©traitĂ©es et mises Ă disposition au moment de lâexĂ©cution pour composer le SERP. DâaprĂšs les diffĂ©rents systĂšmes rĂ©fĂ©rencĂ©s dans la documentation, il pourrait y avoir plus dâune centaine de systĂšmes de classement diffĂ©rents. En supposant quâil ne sâagisse pas de tous les systĂšmes, il se peut que chacun dâentre eux reprĂ©sente un âsignal de classementâ et que ce soit ainsi que Google arrive aux 200 signaux de classement dont il parle souvent.
Dans son exposĂ© intitulĂ© âBuilding Software Systems at Google and Lessons Learnedâ, Jeff Dean a indiquĂ© que les premiĂšres itĂ©rations de Google envoyaient chaque requĂȘte Ă 1 000 machines qui la traitaient et y rĂ©pondaient en moins de 250 millisecondes. Il a Ă©galement schĂ©matisĂ© une version antĂ©rieure de lâabstraction de lâarchitecture du systĂšme. Ce diagramme montre que Super Root est le cerveau de Google Search, qui envoie les requĂȘtes et recolle le tout Ă la fin.

Dans sa rĂ©cente prĂ©sentation sur la recherche dâinformation gĂ©nĂ©rative, Marc Najork, ingĂ©nieur de recherche distinguĂ©, a prĂ©sentĂ© un modĂšle abstrait de Google Search avec son systĂšme RAG (alias Search Generative Experience/AI Overviews). Ce diagramme illustre une sĂ©rie de magasins de donnĂ©es et de serveurs diffĂ©rents qui traitent les diverses couches dâun rĂ©sultat.

Le dĂ©nonciateur de Google, Zach Vorhies, a divulguĂ© cette diapositive qui illustre les relations entre les diffĂ©rents systĂšmes de Google par leurs noms internes. Plusieurs dâentre eux sont rĂ©fĂ©rencĂ©s dans la documentation.

En utilisant ces trois modĂšles de haut niveau, nous pouvons commencer Ă rĂ©flĂ©chir Ă la maniĂšre dont certains de ces composants fonctionnent ensemble. DâaprĂšs ce que je peux dĂ©duire de la documentation, il semble que cette API repose sur Spanner de Google. Spanner est une architecture qui permet une extensibilitĂ© infinie du stockage de contenu et du calcul tout en traitant une sĂ©rie dâordinateurs en rĂ©seau mondial comme un seul.
Il est vrai quâil est quelque peu difficile de reconstituer la relation entre tous les Ă©lĂ©ments Ă partir de la seule documentation, mais le curriculum vitae de Paul Haahr donne un aperçu prĂ©cieux de ce que font certains des systĂšmes de classement nommĂ©s. Je vais mettre en Ă©vidence ceux que je connais par leur nom et les segmenter en fonction de leur fonction.
Recherche par crawl
- Trawler â Le systĂšme dâexploration du web. Il dispose dâune file dâattente, maintient les taux dâexploration et comprend la frĂ©quence Ă laquelle les pages changent.
Indexation
- Alexandria â Le systĂšme dâindexation principal.
- SegIndexer â SystĂšme qui place les documents par niveaux dans lâindex.
- TeraGoogle â SystĂšme dâindexation secondaire pour les documents qui restent sur le disque Ă long terme.
Rendu
- HtmlrenderWebkitHeadless â SystĂšme de rendu pour les pages JavaScript. Curieusement, il porte le nom de Webkit plutĂŽt que celui de Chromium. Il est fait mention de Chromium dans la documentation, il est donc probable que Google ait utilisĂ© WebKit Ă lâorigine et quâil ait changĂ© de systĂšme aprĂšs lâarrivĂ©e de Headless Chrome.
Traitement
- LinkExtractor â Extrait les liens des pages.
- WebMirror â SystĂšme de gestion de la canonicalisation et de la duplication.
Classement
- Mustang â Principal systĂšme de notation, de classement et de service
- Ascorer â Algorithme de classement principal qui classe les pages avant tout ajustement du classement.
- NavBoost â SystĂšme de reclassement basĂ© sur les journaux de clics du comportement des utilisateurs.
- FreshnessTwiddler â SystĂšme de reclassement des documents basĂ© sur leur fraĂźcheur.
- WebChooserScorer â DĂ©finit les noms des caractĂ©ristiques utilisĂ©es dans lâĂ©valuation des extraits.
Servir
- Google Web Server â GWS est le serveur avec lequel le frontend de Google interagit. Il reçoit les donnĂ©es Ă afficher Ă lâutilisateur.
- SuperRoot â Câest le cerveau de Google Search qui envoie des messages aux serveurs de Google et gĂšre le systĂšme de post-traitement pour le reclassement et la prĂ©sentation des rĂ©sultats.
- SnippetBrain â SystĂšme qui gĂ©nĂšre des extraits de rĂ©sultats.
- Glue â SystĂšme permettant de rassembler des rĂ©sultats universels en fonction du comportement de lâutilisateur.
- Cookbook â SystĂšme de gĂ©nĂ©ration de signaux. Certains Ă©lĂ©ments indiquent que les valeurs sont créées au moment de lâexĂ©cution.
Comme je lâai dit, de nombreux autres systĂšmes sont dĂ©crits dans ces documents, mais leur fonction nâest pas tout Ă fait claire. Par exemple, SAFT et Drishti du diagramme ci-dessus sont Ă©galement reprĂ©sentĂ©s dans ces documents, mais leurs fonctions ne sont pas claires.
Que sont les Twiddlers ?
Il existe peu dâinformations en ligne sur les Twiddlers en gĂ©nĂ©ral. Je pense donc quâil est utile de les expliquer ici afin de mieux contextualiser les diffĂ©rents systĂšmes Boost que nous rencontrons dans les documents.
Les Twiddlers sont des fonctions de reclassement qui sâexĂ©cutent aprĂšs lâalgorithme de recherche primaire dâAscorer. Ils fonctionnent de la mĂȘme maniĂšre que les filtres et les actions dans WordPress, oĂč ce qui est affichĂ© est ajustĂ© juste avant dâĂȘtre prĂ©sentĂ© Ă lâutilisateur. Les Twiddlers peuvent ajuster le score de recherche dâinformation dâun document ou modifier le classement dâun document. Un grand nombre dâexpĂ©riences en direct et de systĂšmes nommĂ©s que nous connaissons sont mis en Ćuvre de cette maniĂšre. Comme le montre ce Xoogler, ils sont trĂšs importants pour toute une sĂ©rie de systĂšmes Google :

Les Twiddlers peuvent proposer des contraintes de catĂ©gorie, ce qui signifie que la diversitĂ© peut ĂȘtre favorisĂ©e en limitant spĂ©cifiquement le type de rĂ©sultats. Par exemple, lâauteur peut dĂ©cider de nâautoriser que 3 articles de blog dans un SERP donnĂ©. Cela permet de clarifier les cas oĂč le classement est une cause perdue en raison du format de votre page.
Lorsque Google dĂ©clare que quelque chose comme Panda ne fait pas partie de lâalgorithme de base, cela signifie probablement quâil a Ă©tĂ© lancĂ© en tant que Twiddler comme un calcul de renforcement ou de rĂ©trogradation du classement et quâil a ensuite Ă©tĂ© dĂ©placĂ© dans la fonction de notation principale. Pensez-y comme Ă la diffĂ©rence entre le rendu cĂŽtĂ© serveur et le rendu cĂŽtĂ© client
On peut supposer que toutes les fonctions portant le suffixe Boost fonctionnent Ă lâaide du cadre Twiddler. Voici quelques-unes des fonctions Boost identifiĂ©es dans la documentation :
- NavBoost
- QualityBoost
- RealTimeBoost
- WebImageBoost
DâaprĂšs leurs conventions dâappellation, ils sont tous assez explicites.
Il existe Ă©galement un document interne sur les Twiddlers que jâai consultĂ© et qui aborde ce sujet de maniĂšre plus dĂ©taillĂ©e, mais ce billet semble indiquer que lâauteur a consultĂ© le mĂȘme document que moi.
Des révélations clés qui peuvent avoir un impact sur votre façon de faire du référencement
Venons-en Ă ce que vous cherchez vraiment. Quâest-ce que Google fait que nous ne savions pas ou dont nous nâĂ©tions pas sĂ»rs et comment cela peut-il avoir un impact sur mes efforts de rĂ©fĂ©rencement ?
Petite remarque avant dâaller plus loin. Mon objectif est toujours dâexposer lâindustrie du rĂ©fĂ©rencement Ă de nouveaux concepts. Mon but nâest pas de vous donner une prescription sur la façon de lâutiliser pour votre cas dâutilisation spĂ©cifique. Si câest ce que vous voulez, vous devriez engager iPullRank pour votre rĂ©fĂ©rencement. Sinon, vous pouvez toujours extrapoler et dĂ©velopper vos propres cas dâutilisation.
Comment fonctionne Panda ?
Lorsque Panda a Ă©tĂ© mis en place, il y a eu beaucoup de confusion. Sâagit-il dâapprentissage automatique ? Utilise-t-il les signaux des utilisateurs ? Pourquoi avons-nous besoin dâune mise Ă jour ou dâun rafraĂźchissement pour rĂ©cupĂ©rer ? Sâagit-il dâun site entier ? Pourquoi ai-je perdu du trafic pour un certain sous-rĂ©pertoire ?
Panda a Ă©tĂ© lancĂ© sous la direction dâAmit Singhal. Ce dernier Ă©tait rĂ©solument opposĂ© Ă lâapprentissage automatique en raison de son caractĂšre observable limitĂ©. En fait, il existe une sĂ©rie de brevets axĂ©s sur la qualitĂ© des sites pour Panda, mais celui sur lequel je souhaite me concentrer est le non-descriptif âClassement des rĂ©sultats de rechercheâ Le brevet clarifie le fait que Panda est beaucoup plus simple que ce que nous pensions. Il sâagissait en grande partie de construire un modificateur de score basĂ© sur des signaux distribuĂ©s liĂ©s au comportement de lâutilisateur et aux liens externes. Ce modificateur peut ĂȘtre appliquĂ© au niveau dâun domaine, dâun sous-domaine ou dâun sous-rĂ©pertoire.
âLe systĂšme gĂ©nĂšre un facteur de modification pour le groupe de ressources Ă partir du nombre de liens indĂ©pendants et du nombre de requĂȘtes de rĂ©fĂ©rence (Ă©tape 306). Par exemple, le facteur de modification peut ĂȘtre un rapport entre le nombre de liens indĂ©pendants pour le groupe et le nombre de requĂȘtes de rĂ©fĂ©rence pour le groupe. En dâautres termes, le facteur de modification (M) peut ĂȘtre exprimĂ© comme suit :
M=IL/RQ,
oĂč IL est le nombre de liens indĂ©pendants comptabilisĂ©s pour le groupe de ressources et RQ est le nombre de requĂȘtes de rĂ©fĂ©rence comptabilisĂ©es pour le groupe de ressourcesâ
Les liens indĂ©pendants sont essentiellement ce que nous pensons ĂȘtre des liens entre domaines racine, mais les requĂȘtes de rĂ©fĂ©rence sont un peu plus complexes. Voici comment elles sont dĂ©finies dans le brevet :
âUne requĂȘte de rĂ©fĂ©rence pour un groupe particulier de ressources peut ĂȘtre une requĂȘte de recherche prĂ©cĂ©demment soumise qui a Ă©tĂ© catĂ©gorisĂ©e comme se rĂ©fĂ©rant Ă une ressource dans le groupe particulier de ressources. La catĂ©gorisation dâune requĂȘte de recherche prĂ©cĂ©demment soumise comme se rĂ©fĂ©rant Ă une ressource dans le groupe particulier de ressources peut inclure : la dĂ©termination que la requĂȘte de recherche prĂ©cĂ©demment soumise comprend un ou plusieurs termes qui ont Ă©tĂ© dĂ©terminĂ©s comme se rĂ©fĂ©rant Ă la ressource dans le groupe particulier de ressourcesâ
Maintenant que nous avons accĂšs Ă cette documentation, il est clair que les requĂȘtes de rĂ©fĂ©rence sont des requĂȘtes provenant de NavBoost.

Cela suggĂšre que les rafraĂźchissements Panda Ă©taient simplement des mises Ă jour de la fenĂȘtre roulante des requĂȘtes, de la mĂȘme maniĂšre que les calculs de Core Web Vitals fonctionnent. Cela pourrait Ă©galement signifier que les mises Ă jour du graphe de liens nâont pas Ă©tĂ© traitĂ©es en temps rĂ©el pour Panda.
Sans vouloir faire de procĂšs dâintention, un autre brevet Panda, Site quality score, envisage Ă©galement un score qui est un rapport entre les requĂȘtes de rĂ©fĂ©rence et les sĂ©lections ou les clics de lâutilisateur.
En rĂ©sumĂ©, vous devez obtenir plus de clics rĂ©ussis en utilisant un ensemble plus large de requĂȘtes et gagner en diversitĂ© de liens si vous voulez continuer Ă vous classer. Dâun point de vue conceptuel, câest logique, car un contenu trĂšs solide vous permettra dâatteindre cet objectif. Le fait de se concentrer sur la gĂ©nĂ©ration dâun trafic plus qualifiĂ© et dâune meilleure expĂ©rience utilisateur enverra Ă Google des signaux indiquant que votre page mĂ©rite dâĂȘtre classĂ©e. Câest ce que vous devez faire pour vous remettre de la mise Ă jour du contenu utile.
Les auteurs sont une caractéristique explicite
Le terme E-E-A-T a fait couler beaucoup dâencre. De nombreux rĂ©fĂ©renceurs nây croient pas en raison du caractĂšre nĂ©buleux de lâexpertise et de lâautoritĂ©. Jâai Ă©galement soulignĂ© prĂ©cĂ©demment Ă quel point le balisage des auteurs est peu prĂ©sent sur le web. Avant de dĂ©couvrir les vector embeddings, je ne pensais pas que lâauthorship Ă©tait un signal suffisamment viable Ă lâĂ©chelle du web.

Néanmoins, Google stocke explicitement les auteurs associés à un document sous forme de texte :

Il cherche Ă©galement Ă dĂ©terminer si une entitĂ© sur la page est Ă©galement lâauteur de la page.

Si lâon ajoute Ă cela la cartographie approfondie des entitĂ©s et des liens prĂ©sentĂ©s dans ces documents, il apparaĂźt clairement que les auteurs font lâobjet dâune mesure globale.
Rétrogradations
La documentation prĂ©sente une sĂ©rie de rĂ©trogradations algorithmiques. Les descriptions sont limitĂ©es, mais elles mĂ©ritent dâĂȘtre mentionnĂ©es. Nous avons dĂ©jĂ parlĂ© de Panda, mais les autres rĂ©trogradations que jâai rencontrĂ©es sont les suivantes :
- Anchor Mismatch â Lorsque le lien ne correspond pas au site cible auquel il renvoie, le lien est rĂ©trogradĂ© dans les calculs. Comme je lâai dĂ©jĂ dit, Google recherche la pertinence des deux cĂŽtĂ©s dâun lien.
- RĂ©trogradation SERP â Signal indiquant une rĂ©trogradation basĂ©e sur des facteurs observĂ©s dans les SERP, suggĂ©rant une insatisfaction potentielle de lâutilisateur Ă lâĂ©gard de la page, probablement mesurĂ©e par le nombre de clics.
- Nav Demotion â Il sâagit vraisemblablement dâune rĂ©trogradation appliquĂ©e aux pages prĂ©sentant de mauvaises pratiques de navigation ou des problĂšmes dâexpĂ©rience utilisateur.
- RĂ©trogradation des domaines de correspondance exacte â Fin 2012, Matt Cutts a annoncĂ© que les domaines de correspondance exacte nâauraient plus autant de valeur que par le passĂ©. Il existe une fonctionnalitĂ© spĂ©cifique pour leur rĂ©trogradation.
- RĂ©trogradationdes Ă©valuations de produits â Il nây a pas dâinformation spĂ©cifique Ă ce sujet, mais câest listĂ© comme une rĂ©trogradation et probablement liĂ© Ă la rĂ©cente mise Ă jour de 2023 sur les Ă©valuations de produits.
- RĂ©trogradation en fonction de lâemplacement â Il semblerait que les pages âglobalesâ et âsuper globalesâ puissent ĂȘtre rĂ©trogradĂ©es. Cela suggĂšre que Google tente dâassocier les pages Ă un lieu et de les classer en consĂ©quence.
- RĂ©trogradation des pages pornographiques â Cette rĂ©trogradation est assez Ă©vidente.
- Autres rĂ©trogradations de liens â Nous en discuterons dans la section suivante.
Toutes ces rĂ©trogradations potentielles peuvent influencer une stratĂ©gie, mais elles se rĂ©sument Ă la crĂ©ation dâun contenu de qualitĂ©, Ă une expĂ©rience utilisateur solide et Ă la construction dâune marque, si nous voulons ĂȘtre honnĂȘtes.
Les liens semblent toujours aussi importants
Je nâai vu aucune preuve rĂ©futant les rĂ©centes affirmations selon lesquelles les liens sont considĂ©rĂ©s comme moins importants. Encore une fois, il est probable que cela soit traitĂ© dans les fonctions dâĂ©valuation elles-mĂȘmes plutĂŽt que dans la maniĂšre dont les informations sont stockĂ©es. Cela dit, on a pris grand soin dâextraire et dâĂ©laborer des caractĂ©ristiques permettant de comprendre en profondeur le graphe des liens.
Le niveau dâindexation a un impact sur la valeur des liens
Une mĂ©trique appelĂ©e sourceType montre une relation souple entre le niveau dâindexation dâune page et sa valeur. Pour la petite histoire, lâindex de Google est stratifiĂ© en niveaux oĂč le contenu le plus important, rĂ©guliĂšrement mis Ă jour et consultĂ©, est stockĂ© dans la mĂ©moire flash. Les contenus moins importants sont stockĂ©s sur des disques dâĂ©tat solide et les contenus mis Ă jour de maniĂšre irrĂ©guliĂšre sont stockĂ©s sur des disques durs standard.

Cela revient Ă dire que plus le niveau est Ă©levĂ©, plus le lien a de la valeur. Les pages considĂ©rĂ©es comme âfraĂźchesâ sont Ă©galement considĂ©rĂ©es comme de haute qualitĂ©. En dâautres termes, vous souhaitez que vos liens proviennent de pages qui sont fraĂźches ou qui figurent dans le niveau supĂ©rieur. Cela explique en partie pourquoi le fait dâobtenir des classements Ă partir de pages trĂšs bien classĂ©es et de pages dâactualitĂ© permet dâobtenir de meilleurs rĂ©sultats en termes de classement. Regardez-moi ça, je viens de rendre les relations publiques numĂ©riques Ă nouveau cool !
Signaux de vitesse du spam de liens
Il existe toute une sĂ©rie de mesures concernant lâidentification des pics dans le texte dâancrage des spams. En notant la fonction phraseAnchorSpamDays, Google a effectivement la capacitĂ© de mesurer la vitesse des liens de spam.

Cela pourrait facilement ĂȘtre utilisĂ© pour identifier quand un site est en train de spammer et pour annuler une attaque de rĂ©fĂ©rencement nĂ©gatif. Pour ceux qui sont sceptiques Ă ce sujet, Google peut utiliser ces donnĂ©es pour comparer une base de dĂ©couverte de liens Ă une tendance actuelle et simplement ne pas compter ces liens dans un sens ou dans lâautre.
Google nâutilise que les 20 derniĂšres modifications pour une URL donnĂ©e lors de lâanalyse des liens
Jâai dĂ©jĂ Ă©voquĂ© la capacitĂ© du systĂšme de fichiers de Google Ă stocker des versions de pages au fil du temps, Ă lâinstar de la Wayback Machine. Si jâai bien compris, Google conserve pour toujours ce quâil a indexĂ©. Câest lâune des raisons pour lesquelles vous ne pouvez pas simplement rediriger une page vers une cible non pertinente et vous attendre Ă ce que lâĂ©quitĂ© des liens soit rĂ©tablie.

Les documents renforcent cette idĂ©e en indiquant quâils conservent tous les changements quâils ont jamais vus pour la page.

Lorsquâils font remonter les donnĂ©es de surface pour les comparer en rĂ©cupĂ©rant DocInfo, ils ne prennent en compte que les 20 derniĂšres versions de la page.

Cela devrait vous donner une idĂ©e du nombre de fois oĂč vous devez modifier des pages et les faire indexer pour obtenir une âtable raseâ dans Google.
Le PageRank de la page dâaccueil est pris en compte pour toutes les pages
Chaque document est associĂ© au PageRank de sa page dâaccueil (la version la plus proche de la graine). Celui-ci est probablement utilisĂ© comme proxy pour les nouvelles pages jusquâĂ ce quâelles acquiĂšrent leur propre PageRank.

Il est probable que this et siteAuthority soient utilisĂ©s comme proxy pour les nouvelles pages jusquâĂ ce que leur propre PageRank soit calculĂ©.
Confiance dans la page dâaccueil
Google dĂ©cide de la valeur dâun lien en fonction de la confiance quâil accorde Ă la page dâaccueil.

Comme toujours, vous devriez vous concentrer sur la qualité et la pertinence de vos liens plutÎt que sur le volume.
La taille de la police des termes et des liens est importante
Lorsque jâai commencĂ© Ă faire du rĂ©fĂ©rencement en 2006, lâune des choses que nous faisions Ă©tait de mettre le texte en gras et de le souligner ou de grossir certains passages pour quâils paraissent plus importants. Au cours des cinq derniĂšres annĂ©es, jâai vu des gens dire que cela valait toujours la peine dâĂȘtre fait. JâĂ©tais sceptique, mais je vois maintenant que Google suit la taille de police moyenne pondĂ©rĂ©e des termes dans les documents.

Il fait de mĂȘme pour le texte dâancrage des liens.

Penguin supprime les liens internes
Dans de nombreux modules liĂ©s aux ancres, lâidĂ©e de âlocalâ signifie le mĂȘme site. Ce droppedLocalAnchorCount suggĂšre que certains liens internes ne sont pas pris en compte.
Je nâai pas vu une seule mention de dĂ©saveu
Alors que les donnĂ©es de dĂ©saveu pourraient ĂȘtre stockĂ©es ailleurs, elles ne sont pas spĂ©cifiquement dans cette API. Je trouve cela spĂ©cifiquement parce que les donnĂ©es des Ă©valuateurs de qualitĂ© sont directement accessibles ici. Cela suggĂšre que les donnĂ©es de dĂ©saveu sont dĂ©couplĂ©es des systĂšmes de classement de base.

Mon hypothĂšse Ă long terme est que le dĂ©saveu a Ă©tĂ© un effort dâingĂ©nierie de fonctionnalitĂ© provenant de la foule pour former les classificateurs de spam de Google. Le fait que les donnĂ©es ne soient pas âen ligneâ suggĂšre que cela pourrait ĂȘtre vrai.
Je pourrais continuer Ă parler de liens et de caractĂ©ristiques telles que IndyRank, PageRankNS, etc., mais il suffit de dire que Google a une analyse des liens trĂšs prĂ©cise et quâune grande partie de ce quâil fait nâest pas pris en compte par nos indices de liens. Câest le moment idĂ©al pour reconsidĂ©rer vos programmes de crĂ©ation de liens sur la base de tout ce que vous venez de lire.
Les documents sont tronqués
Google compte le nombre de jetons et le rapport entre le nombre total de mots dans le corps du texte et le nombre de jetons uniques. Les documents indiquent quâil existe un nombre maximum de jetons pouvant ĂȘtre pris en compte pour un document spĂ©cifique dans le systĂšme Mustang, ce qui renforce lâidĂ©e que les auteurs doivent continuer Ă placer leur contenu le plus important en dĂ©but de page.

Le contenu court est noté en fonction de son originalité
Le score OriginalContentScore suggĂšre que les contenus courts sont notĂ©s en fonction de leur originalitĂ©. Câest probablement la raison pour laquelle le contenu peu Ă©toffĂ© nâest pas toujours fonction de la longueur.

Inversement, il existe également un score pour le bourrage de mots-clés.
Les titres de page sont toujours mesurĂ©s par rapport aux requĂȘtes
La documentation indique quâil existe un score de correspondance de titre (titlematchScore). La description suggĂšre que la correspondance du titre de la page avec la requĂȘte est toujours un Ă©lĂ©ment auquel Google accorde de lâimportance.

Placer vos mots-clĂ©s cibles en premier est toujours dâactualitĂ©.
Il nây a pas de mesures de comptage de caractĂšres
Ă sa dĂ©charge, Gary Ilyes a dĂ©clarĂ© que les rĂ©fĂ©renceurs ont inventĂ© tout le nombre de caractĂšres optimal pour les mĂ©tadonnĂ©es. Il nây a aucune mesure dans cet ensemble de donnĂ©es qui compte la longueur des titres de page ou des extraits. La seule mesure de comptage de caractĂšres que jâai trouvĂ©e dans la documentation est le snippetPrefixCharCount, qui semble ĂȘtre dĂ©fini pour dĂ©terminer ce qui peut ĂȘtre utilisĂ© dans le cadre de lâextrait.

Cela confirme ce que nous avons constatĂ© Ă maintes reprises, Ă savoir que les titres de page longs sont sous-optimaux pour gĂ©nĂ©rer des clics, mais quâils sont parfaits pour amĂ©liorer les classements.
Les dates sont trĂšs importantes
Google est trĂšs attachĂ© Ă la fraĂźcheur des rĂ©sultats et les documents illustrent ses nombreuses tentatives dâassocier des dates aux pages.
- bylineDate â Il sâagit de la date explicitement indiquĂ©e sur la page.

- syntacticDate â Il sâagit dâune date extraite de lâURL ou du titre.

- semanticDate â Il sâagit dâune date dĂ©rivĂ©e du contenu de la page.

Le mieux est de spĂ©cifier une date et dâĂȘtre cohĂ©rent avec celle-ci dans les donnĂ©es structurĂ©es, les titres de page et les sitemaps XML. Si vous indiquez dans votre URL des dates qui ne correspondent pas aux dates figurant Ă dâautres endroits de la page, les performances du contenu seront probablement moindres.
Les informations relatives Ă lâenregistrement du domaine sont stockĂ©es Ă proximitĂ© des pages
Il existe depuis longtemps une thĂ©orie du complot selon laquelle le statut de registraire de Google alimente lâalgorithme. Nous pouvons maintenant passer Ă un fait de conspiration. Google stocke les derniĂšres informations dâenregistrement au niveau du document composite.
Comme nous lâavons vu prĂ©cĂ©demment, ces informations sont probablement utilisĂ©es pour informer la mise en bac Ă sable des nouveaux contenus. Elles peuvent Ă©galement ĂȘtre utilisĂ©es pour mettre en bac Ă sable un domaine dĂ©jĂ enregistrĂ© qui a changĂ© de propriĂ©taire. Je soupçonne que le poids de cette question a Ă©tĂ© rĂ©cemment augmentĂ© avec lâintroduction de la politique de spam sur les domaines expirĂ©s.
Les sites axés sur la vidéo sont traités différemment
Si plus de 50 % des pages du site contiennent des vidéos, le site est considéré comme axé sur la vidéo et sera traité différemment.
Votre argent, votre vie fait lâobjet dâune Ă©valuation spĂ©cifique
La documentation indique que Google dispose de classificateurs qui génÚrent des scores pour YMYL Health et pour YMYL News.
Ils prĂ©disent Ă©galement les ârequĂȘtes marginalesâ ou celles qui nâont jamais Ă©tĂ© vues auparavant afin de dĂ©terminer si elles sont YMYL ou non.
Enfin, YMYL est ancrĂ© au niveau des morceaux, ce qui suggĂšre que lâensemble du systĂšme est basĂ© sur des enchĂąssements.
Il existe des documents de référence
Il nây a pas dâindication sur ce que cela signifie, mais la description mentionne des âdocuments Ă©tiquetĂ©s par des humainsâ par opposition Ă des âannotations Ă©tiquetĂ©es automatiquementâ Je me demande sâil sâagit dâune fonction des classements de qualitĂ©, mais Google affirme que les classements de qualitĂ© nâont pas dâimpact sur les classements. Nous ne le saurons donc peut-ĂȘtre jamais. đ€

Les sites intĂ©grĂ©s sont utilisĂ©s pour mesurer le degrĂ© de pertinence dâune page
Je parlerai plus en détail des embeddings dans un prochain article, mais il est intéressant de noter que Google vectorise spécifiquement les pages et les sites et compare les embeddings des pages aux embeddings des sites pour voir à quel point la page est hors sujet.

Le score siteFocusScore indique dans quelle mesure le site se concentre sur un seul sujet. Le rayon du site indique dans quelle mesure la page sâĂ©carte du sujet principal sur la base des vecteurs site2vec gĂ©nĂ©rĂ©s pour le site.
Il se peut que Google brûle volontairement les petits sites
Google dispose dâun indicateur spĂ©cifique qui signale quâun site est un âpetit site personnelâ Il nây a pas de dĂ©finition de ces sites, mais dâaprĂšs ce que nous savons, il ne serait pas difficile pour Google dâajouter un Twiddler qui boosterait ces sites ou qui les rĂ©trograderait.

Compte tenu des rĂ©actions nĂ©gatives et des petites entreprises qui ont Ă©tĂ© dĂ©truites par la mise Ă jour du contenu utile, il est surprenant quâils utilisent cette fonctionnalitĂ© pour faire quelque chose Ă ce sujet.
Mes questions ouvertes
Je pourrais continuer, et je le ferai, mais il est temps de faire une pause. Entre-temps, je pense quâil est inĂ©vitable que dâautres personnes sâintĂ©ressent Ă cette fuite et en tirent leurs propres conclusions. Pour lâinstant, jâai quelques questions ouvertes que jâaimerais que nous examinions tous.
La mise Ă jour du contenu utile est-elle connue sous le nom de Baby Panda ?
Il y a deux rĂ©fĂ©rences Ă quelque chose appelĂ© âbaby pandaâ dans les signaux de qualitĂ© compressĂ©s. Baby Panda est un Twiddler, câest-Ă -dire un ajustement qui intervient aprĂšs le classement initial.

Il est mentionnĂ© quâil fonctionne en plus de Panda, mais il nây a pas dâautres informations dans les documents.

Je pense que nous sommes gĂ©nĂ©ralement dâaccord sur le fait que la mise Ă jour du contenu utile a de nombreux comportements similaires Ă ceux de Panda. Sâil est construit sur un systĂšme utilisant des requĂȘtes de rĂ©fĂ©rence, des liens et des clics, ce sont les Ă©lĂ©ments sur lesquels vous devrez vous concentrer aprĂšs avoir amĂ©liorĂ© votre contenu.
NSR signifie-t-il Neural Semantic Retrieval ?
Il existe une multitude de rĂ©fĂ©rences Ă des modules et Ă des attributs dont la convention de dĂ©nomination fait rĂ©fĂ©rence Ă NSR. Nombre dâentre eux sont liĂ©s Ă des morceaux de site et Ă des Ă©lĂ©ments intĂ©grĂ©s. Google a dĂ©jĂ Ă©voquĂ© la âcorrespondance neuronaleâ comme lâun des principaux axes dâamĂ©lioration. Je suppose que NSR signifie Neural Semantic Retrieval et quâil sâagit de fonctionnalitĂ©s liĂ©es Ă la recherche sĂ©mantique. Cependant, dans certains cas, elles sont mentionnĂ©es Ă cĂŽtĂ© dâun âsite rankâ
Jâaimerais bien quâun Googler rebelle se rende sur go/NSR et mâenvoie un âvous avez raisonâ Ă partir dâune adresse e-mail anonyme ou quelque chose du genre.
Actions possibles
Comme je lâai dit, je nâai pas de prescriptions Ă vous donner. Jâai cependant quelques conseils stratĂ©giques Ă vous donner.
- Envoyez des excuses Ă Rand Fishkin â Depuis mon discours âEverything Google Lied to Us Aboutâ (Tout ce que Google nous a menti) Ă PubCon, je me suis lancĂ© dans une campagne pour blanchir le nom de Rand en ce qui concerne NavBoost. Rand a fait un travail ingrat en essayant dâaider notre industrie Ă sâĂ©lever pendant des annĂ©es. Pour cela, il a essuyĂ© de nombreuses critiques de la part de Google et des spĂ©cialistes du rĂ©fĂ©rencement. Parfois, il nâa pas eu raison, mais son cĆur Ă©tait toujours au bon endroit et il sâest efforcĂ© de faire respecter ce que nous faisons et de lâamĂ©liorer. En particulier, il ne sâest pas trompĂ© sur les conclusions de ses expĂ©riences de clics, sur ses tentatives rĂ©pĂ©tĂ©es de dĂ©montrer lâexistence dâun bac Ă sable de Google, sur ses Ă©tudes de cas montrant que Google classe diffĂ©remment les sous-domaines, et sur sa conviction, longtemps contestĂ©e, que Google utilise des signaux dâautoritĂ© Ă lâĂ©chelle du site. Vous devez Ă©galement le remercier pour cette analyse, car câest lui qui a partagĂ© la documentation avec moi. Câest le moment pour beaucoup dâentre vous de lui tĂ©moigner de lâamour sur Threads.
- CrĂ©ez un contenu de qualitĂ© et faites-en une bonne promotion â Je plaisante, mais je suis aussi sĂ©rieux. Google nâa cessĂ© de donner ce conseil et nous nous en moquons parce quâil nâest pas applicable. Pour certains rĂ©fĂ©renceurs, câest tout simplement hors de leur contrĂŽle.
AprĂšs avoir passĂ© en revue les caractĂ©ristiques qui confĂšrent Ă Google ses avantages, il est Ă©vident que la crĂ©ation dâun meilleur contenu et sa promotion auprĂšs dâaudiences avec lesquelles il est en rĂ©sonance produiront le meilleur impact sur ces mesures. Les mesures des liens et des caractĂ©ristiques du contenu vous permettront certainement dâaller assez loin, mais si vous voulez vraiment gagner dans Google Ă long terme, vous devrez faire des choses qui continuent Ă mĂ©riter dâĂȘtre classĂ©es.
- RĂ©introduire les Ă©tudes de corrĂ©lation â Nous avons dĂ©sormais une bien meilleure comprĂ©hension de nombreuses caractĂ©ristiques que Google utilise pour Ă©tablir les classements. GrĂące Ă une combinaison de donnĂ©es de parcours et dâextraction de caractĂ©ristiques, nous pouvons reproduire plus de choses que nous ne le pouvions auparavant. Je pense quâil est temps de rĂ©tablir les Ă©tudes de corrĂ©lation spĂ©cifiques aux sites verticaux
- Testez et apprenez â Vous devriez avoir vu suffisamment de graphiques de visibilitĂ© et de trafic avec des axes Y pour savoir que vous ne pouvez pas faire confiance Ă tout ce que vous lisez ou entendez dans le domaine du rĂ©fĂ©rencement. Cette fuite est une autre indication que vous devez prendre en compte les donnĂ©es et les expĂ©rimenter pour voir ce qui fonctionnera pour votre site web. Il ne suffit pas dâexaminer des avis anecdotiques et de supposer que câest ainsi que Google fonctionne. Si votre organisation nâa pas de plan dâexpĂ©rimentation pour le rĂ©fĂ©rencement, câest le moment dâen mettre un en place.
Nous savons ce que nous faisons
Une chose importante que nous pouvons tous retenir est que les rĂ©fĂ©renceurs savent ce quâils font : Les rĂ©fĂ©renceurs savent ce quâils font. AprĂšs des annĂ©es Ă nous faire dire que nous avons tort, il est bon de voir derriĂšre le rideau et de dĂ©couvrir que nous avions raison depuis le dĂ©but. Et, bien que ces documents contiennent des nuances intĂ©ressantes sur le fonctionnement de Google, il nây a rien qui va me faire changer radicalement de cap dans ma stratĂ©gie de rĂ©fĂ©rencement.
Pour ceux qui sây intĂ©ressent, ces documents serviront avant tout Ă valider ce que les rĂ©fĂ©renceurs chevronnĂ©s prĂ©conisent depuis longtemps. Comprenez votre public, identifiez ce quâil veut, crĂ©ez la meilleure chose possible qui corresponde Ă ses attentes, rendez-la techniquement accessible et faites-en la promotion jusquâĂ ce quâelle se classe.
Ă tous ceux qui travaillent dans le domaine du rĂ©fĂ©rencement et qui ne sont pas sĂ»rs de ce quâils font, continuez Ă tester, Ă apprendre et Ă dĂ©velopper des entreprises. Google ne pourrait pas faire ce quâil fait sans nous.
Téléchargez les fonctionnalités de classement
Eh bien, quelquâun va tĂ©lĂ©charger et organiser toutes les fonctionnalitĂ©s dans une feuille de calcul pour vous. Il se pourrait bien que ce soit moi. Il ne nous reste quâun mois dans le trimestre et je veux augmenter nos MQLs de toute façon. đ
TĂ©lĂ©chargez votre exemplaire de la liste des caractĂ©ristiques du classement. Gardez Ă lâesprit que beaucoup dâentre elles ne sont pas pour le classement, elles sont aussi pour dâautres produits Google.
Nous nâen sommes quâau dĂ©but
Ce que jâai toujours aimĂ© dans le rĂ©fĂ©rencement, câest quâil sâagit dâun puzzle en constante Ă©volution. Et bien quâil soit agrĂ©able dâaider les marques Ă gagner des milliards de dollars grĂące Ă nos efforts, il y a quelque chose de trĂšs satisfaisant Ă nourrir ma curiositĂ© avec toutes les recherches liĂ©es Ă lâanalyse du fonctionnement de Google. Jâai Ă©tĂ© trĂšs heureux de pouvoir enfin voir ce qui se passe derriĂšre le rideau.
Câest tout ce que jâai Ă dire pour lâinstant, mais faites-moi savoir ce que vous avez trouvĂ© ! Si vous souhaitez partager quelque chose avec moi, nâhĂ©sitez pas Ă me contacter. Je suis assez facile Ă trouver !
Prochaines étapes
Voici trois façons dont iPullRank peut vous aider à combiner SEO et contenu pour accroßtre la visibilité de votre entreprise et générer des revenus :
- Planifiez une session stratĂ©gique de 30 minutes : Faites-nous part de vos plus grands dĂ©fis en matiĂšre de rĂ©fĂ©rencement et de contenu afin que nous puissions Ă©laborer une prĂ©sentation personnalisĂ©e aprĂšs avoir examinĂ© votre prĂ©sence numĂ©rique. Il nây a pas de solutions toutes faites, seulement des conseils sur mesure pour dĂ©velopper votre entreprise. Planifiez votre session dĂšs maintenant.
- AttĂ©nuer lâimpact potentiel des aperçus de lâIA : Dans quelle mesure votre stratĂ©gie de rĂ©fĂ©rencement est-elle prĂ©parĂ©e aux aperçus de lâIA de Google ? Prenez de lâavance sur les menaces potentielles et assurez-vous que votre site reste compĂ©titif grĂące Ă notre rapport complet sur les menaces liĂ©es aux aperçus de lâIA. Obtenez votre rapport.
- AmĂ©liorez la pertinence de votre contenu avec Orbitwise : Vous nâĂȘtes pas sĂ»r que votre contenu soit mathĂ©matiquement pertinent ? Utilisez Orbitwise pour tester et amĂ©liorer la pertinence de votre contenu, en vous assurant quâil se classe pour vos mots-clĂ©s ciblĂ©s. Testez votre contenu aujourdâhui.
Source : IPullRank (Google Leak)
Article traduit en Français avec â€ïž Par un Consultant SEO et des tools dĂ©diĂ©s (câest plus pratique) Â




No responses yet