Semalt : Qu'est-ce que Googlebot ?



  1. introduction
  2. Qu'est-ce que Googlebot ?
  3. Pourquoi devrait-on se préoccuper de Googlebot ?
  4. Pourquoi Googlebot n'explore pas toutes les pages de certains sites ?
  5. Comment optimiser votre site pour maximiser le budget de Googlebot
  6. Conclusion

introduction

Savez-vous comment Google trouve les ressources pour votre recherche ? Comme on le croit généralement, Google n'est pas un esprit je-sais-tout qui sait en quoi consiste chaque contenu en ligne. Ce n'est pas une sorte de médium qui sait où se trouve la réponse exacte à votre question.

Comme tout autre moteur de recherche, il dispose d'un logiciel qui parcourt des milliards de pages (et de sites) chaque seconde pour recueillir des informations ; extraire la valeur du contenu et de son sujet. Ainsi, lorsqu'une recherche est effectuée, la réponse est tirée de ces pages - un peu comme une bibliothèque.


Cela ressemble beaucoup au référencement, et c'est parce que cela y est pour beaucoup. Lorsqu'un site est optimisé efficacement, Google voit le site rapidement, lit ses pages et l'affiche lorsque des recherches associées sont effectuées sur le moteur de recherche.

Mais cela ne se produit pas pour toutes les pages d'un site, ce qui rend certaines pages invisible au monde. Pourquoi cela arrive-t-il? Et que faire contre ça (surtout pour les pages très importantes) ? Voici un guide détaillant tout sur le robot d'exploration de site Web de Google (Googlebot), pourquoi il n'explore pas suffisamment de pages et comment un propriétaire de site Web peut utiliser l'optimisation de site Web et le référencement pour maximiser le budget d'exploration de Googlebot.

Qu'est-ce que Googlebot ?



Araignée! Crawler ! Ce sont des noms populaires donnés au Googlebot. C'est parce que cela fonctionne en quelque sorte de cette façon. Le logiciel est créé pour explorer et parcourir des milliards de pages de sites Web qui ont été publiées au public.

C'est vrai - si un site Web reste privé, il n'y a tout simplement aucun moyen pour Googlebot de parcourir ses pages, rappelez-vous que l'araignée n'est pas psychique. Il suit simplement les liens des pages (d'une page à l'autre), puis poursuit le traitement des données. Une fois cette opération terminée, les informations sont ensuite compilées dans un index (facile à retenir en tant que bibliothèque ou magasin Goggle).

Grâce à la présence de ce logiciel, Google peut compiler et accumuler des informations s'élevant à plus d'un million de gigaoctets (Go) en moins d'une seconde (d'accord, c'est magique). Ensuite, à partir de cet index régulièrement mis à jour, Google extrait des ressources pour chaque recherche en ligne à la fois sur un ordinateur de bureau et un appareil mobile.

Pourquoi devrait-on s'inquiéter de Googlebot ?

L'exploration de Googlebot a beaucoup à voir avec le référencement (optimisation des moteurs de recherche) d'un site Web. L'essence même de l'araignée est de collecter des informations à partir des pages d'un site afin que lorsque des recherches sont effectuées sur des sujets connexes, elle puisse afficher la page comme l'un des résultats de recherche en ligne. Par conséquent, lorsque Googlebot explore constamment la plupart des pages d'un site, la visibilité augmente, ce qui entraîne plus de trafic sur cette page (ce qui est l'un des objectifs, n'est-ce pas ?).

Utilisez cette illustration :

X a un site web avec une page sur le sujet : référencement professionnel pour les sites Web. Et Y recherche le référencement de sites Web. Si Googlebot a parcouru la page de X sur le référencement et l'a indexée, ce serait l'un des résultats qui apparaîtront dans les résultats de recherche de Google. Et la même chose se produirait pour d'autres recherches connexes menées même si cela se produit cent fois par jour partout dans le monde.

Notez qu'il existe d'autres facteurs à cet égard, tels qu'une bonne structure de site Web, des temps de chargement de site rapides et pertinents. Mais seulement un Experte en référencement peut aider à garantir que celles-ci sont effectuées correctement et que la page d'un site apparaît sur la première page des résultats de recherche de Google.


Pourquoi Googlebot n'explore-t-il pas toutes les pages de certains sites ?

Au cours de l'un des hangouts de bureau de référencement de Google, une question a été posée pour savoir pourquoi Googlebot n'explorait pas suffisamment de pages sur certains sites. Il y a plus de centaines de milliards de pages publiées publiquement sur le serveur Web. Les gens publient une nouvelle page sur le serveur chaque jour, ce qui signifie plus de pages à indexer pour Googlebot. Cependant, parfois, le bot ne fonctionne pas à la hauteur des attentes ; C'est; accumuler plus d'un million de Go d'informations en moins d'une seconde. Il y a plusieurs raisons pour lesquelles cela peut arriver.

Premièrement, il se peut qu'il y ait trop de contenus, de pages et de sites Web en ligne à indexer. Et certains sont de mauvaise qualité, d'autres ont une vitesse de chargement du site lente, et le reste peut avoir un contenu non pertinent avec une structure de site compliquée (ou tout autre élément qui va à l'encontre d'une bonne expérience utilisateur). C'est pourquoi Google a créé une stratégie pour indexer uniquement les pages Web de haute qualité et exclure les pages de moindre qualité. De cette façon, les pages peuvent être filtrées et réduites (au lieu d'indexer toutes les pages en ligne - à la fois les pages précieuses et celles qui ne le sont pas).

Mais ce qui précède ne répond pas complètement à la question : Pourquoi Googlebot n'explore-t-il pas tous les sites ? La question qui nous intéresse est plutôt de savoir pourquoi Googlebot n'explore pas toutes les pages (ou suffisamment de pages) d'un site. Et il y a deux réponses à cela. La réponse longue et la réponse courte :

La réponse courte

Google attache une certaine quantité de ressources et de temps à l'exploration de chaque site par jour. C'est ce qu'on appelle le budget d'exploration d'un site. Par conséquent, le bot effectue son travail d'exploration et d'indexation dans les limites de ce budget. Et donc, pour un site Web de plus de dix mille pages, toutes les pages ne seraient pas indexées.

Cependant, il y a plus à cela, ce qui nous amène à la réponse longue :

La longue réponse


Le budget de crawl est ce qui détermine le nombre de pages que le Googlebot peut explorer et indexer par site chaque jour. Mais comme mentionné précédemment, il y a beaucoup plus à cela. Certains facteurs déterminent le rythme de l'araignée lors de l'exploration de chaque site dans les limites du budget d'exploration. Avoir du sens ? Cela signifie que bien que le budget ait créé une limite, certains facteurs peuvent accélérer ou ralentir le rythme du bot. Ils comprennent:
  1. Serveur lent : Si le temps de réponse d'un serveur est considérablement lent, cela peut modifier la vitesse à laquelle le bot explore chaque page dans le budget d'exploration. Les propriétaires de sites Web peuvent les vérifier dans leur rapport de statistiques d'exploration. Il est conseillé que tout ce qui dépasse 300 millisecondes n'est pas un bon temps de réponse.
  2. Hôte du serveur de site Web : Si un site Web est hébergé sur un serveur partagé, cela peut ralentir la vitesse à laquelle chaque page est présentée à Google lors de l'exploration. C'est parce que d'autres sites sur le même serveur peuvent le ralentir en utilisant de grandes ressources. C'est encore pire lorsque le même serveur héberge plusieurs sites.
  3. Robots rouges : Ce sont d'autres robots qui peuvent entraver, bloquer ou ralentir les actions de Googlebot. Ils peuvent se présenter sous différentes formes et parfois, un site Web a besoin d'une aide professionnelle pour gérer et contrôler les actions de ces robots.
  4. Exploration du site Web : Il s'agit de la quantité d'accès d'un robot à toutes les pages d'un site Web. Lorsque le logiciel a un accès facile au contenu d'un site, de nombreuses pages sont explorées et indexées dans les limites du budget d'exploration.

Comment optimiser votre site pour maximiser le budget de Googlebot


Dans la section précédente, nous avons discuté des facteurs qui déterminent à quelle vitesse (ou à quelle vitesse) Googlebot explore une page. Mais il y a plus qu'une personne ne peut faire pour maximiser le nombre de pages que le bot explore dans le budget. En bref, voici quelques mesures qu'un propriétaire de site Web peut faire pour maximiser le nombre de pages que Googlebot explore et indexe dans le budget d'exploration par jour.
  1. Élaborer un plan du site : C'est l'une des choses qui peuvent être faites pour aider Googlebot à parcourir un site plus rapidement. Un plan de site peut être installé, généré à partir d'un générateur de plan de site ou créé à partir de zéro.
  2. Investir dans l'organisation du site : Cela a à voir avec la façon dont un site Web est structuré et la catégorisation des pages au sein d'un site. Lorsqu'un site est structuré de manière à ce que les visiteurs puissent facilement le comprendre et s'y retrouver, il y a une forte probabilité que Googlebot le trouve facile à parcourir.
  3. Optimisation du site Web : Cela résume tous les points mentionnés ci-dessus. Lorsqu'un site Web est optimisé en permanence (de la bonne manière), l'interface du site Web sera correctement structurée et un plan du site sera créé. D'autres éléments incluent le contrôle des facteurs qui bloquent l'exploration (tels que robots.txt), l'optimisation du titre, la lisibilité du contenu, la valeur du contenu et bien d'autres. L'optimisation d'un site Web correctement aidera Googlebot à parcourir les pages d'un tel site plus rapidement.

Conclusion

Googlebot peut être vu comme un petit robot Internet travaillant pour Google. Il reçoit des pages du serveur Web via des liens vers des sites Web. Ensuite, il parcourt chaque page et l'ajoute à la collection d'informations indexées. Cependant, en raison de plusieurs facteurs et variables, le bot ne peut pas parcourir toutes les pages de chaque site (en fait, parfois, ce n'est pas suffisant). Et de tous les facteurs et solutions mentionnés, la solution la plus simple consiste à engager une entreprise professionnelle comme Semalt qui peut faire tout ce qui est requis de la bonne manière et au bon moment pour s'assurer que les pages importantes de votre site Web sont explorées et indexées, voire toutes les pages.

send email