13mai2022
Imprimer

Il est impossible d’explorer tout le web: les limites des web crawlers

Quoi de plus frustrant que de voir des pages de son propre site web complètement ignorées par les moteurs de recherche ? Pour un expert en SEO, ce fut l’obstacle de trop. Il s’est plaint sur le forum Reddit en posant cette question à la direction de Google: pourquoi les outils SEO ne montrent-ils pas tous les backlinks (lien entrant qui dirige vers un site ou une page web) ? Son commentaire a attiré l’attention de professionnels de la communication qui en ont profité pour interroger John Mueller, le search advocate de Google. Pour lui, il est impossible d’explorer tout le web.

Un nombre infini d’URLIllustration d'un robot scannant le web avec une loupe

L’ambassadeur de la firme de Mountain View justifie sa réponse par le fait qu’il existe un nombre infini d’URL. Par conséquent, il est très compliqué pour les web crawlers de fouiller de fond en comble l’internet. Pour rappel, les web crawlers sont des robots utilisés par les moteurs de recherche pour scanner/comprendre/lire les pages des sites web. S’il fallait lire chaque page, les ressources de ces web crawlers seraient débordées. Il faut une connectivité énorme, de la bande passante suffisante et de l’argent ! C’est pourquoi elles doivent rapidement trouver où s’attarder. Certaines URL sont complètement ignorées.

Séparer le bon grain de l’ivraie

John Mueller explique que les web crawlers ont plutôt tendance à aller consulter les pages qui changent constamment, se renouvellent, subissent des modifications. Au contraire, celles qui restent figées ont plus de probabilités d’être ignorées par ceux-ci. En outre, l’expert Google ajoute que de nombreuses pages sur internet sont tout simplement à jeter, ne méritent pas d’être lues et n’apportent absolument rien. Celles-ci sont faciles à éviter, à ne pas prendre en compte. Par contre, certains sites, bien qu’ils répondent à une exigence technique, n’ont pas de contenu pertinent à proposer. C’est ceux-là qu’il est plus difficile de repérer pour les web crawlers qui doivent faire preuve d’ingéniosité.

Chacun ses règles

Chaque moteur de recherche réagit comme bon lui semble, en travaillant sur une série simplifiée d’URL. Par conséquent, les outils SEO sont les seuls maîtres à bord dans leur scan du web. Ils choisiront aléatoirement de prendre en compte certaines URL et en ignorer d’autres. C’est la raison pour laquelle les résultats de requêtes diverses diffèrent en fonction du moteur de recherche employé. Il est impossible d’explorer tout le web, John Mueller de Google vient de le confirmer. Les web crawlers font face à des difficultés et répondent à des règles qui leur sont propres. Raison de plus de travailler les pages de votre site internet, les mettre à jour régulièrement et d’apporter une plus-value pour l’internaute. Besoin d’aide pour entreprendre ce chantier ? Confiez votre projet à notre équipe d’experts !



Ces articles peuvent également vous intéresser !

Les tendances de recherche en 2023 ||sont affectées par les crises économiques et géopolitiques
19/09/2023

Les tendances de recherche en 2023 sont affectées par les crises économiques et géopolitiques

Lire plus
Le référencement naturel : ||Comment en tirer profit en 2023 ?
11/09/2023

Le référencement naturel : Comment en tirer profit en 2023 ?

Lire plus
Comment décrypter|| le positionnement Google en 2023 ?
06/09/2023

Comment décrypter le positionnement Google en 2023 ?

Lire plus
Chers utilisateurs, ce site stocke les cookies sur votre ordinateur.
Ils ont pour but d'améliorer l’expérience de votre site Web, tout en vous fournissant des services plus personnalisés. Les cookies sont également utilisés pour la personnalisation des publicités. Si vous souhaitez plus d’informations sur les cookies que nous utilisons, veuillez consulter notre Politique de confidentialité. En acceptant les cookies, vous consentez à leur utilisation. Vous pouvez également paramétrer ces derniers. Si vous refusez, vos informations ne seront pas suivies, au moment de visiter ce site. Un seul cookie sera utilisé dans votre navigateur pour mémoriser votre préférence de ne pas être suivi.
Paramètres cookies