Avertissement : cet article est le résultat de la traduction automatique, l'exactitude et la fidélité de la traduction ne sont donc pas garanties. Pour consulter la version originale de cet article, en anglais, cliquez ici.
SEO

Bloquer des pages ou des articles de blog afin qu'ils ne puissent pas être indexés par les moteurs de recherche

Dernière mise à jour: novembre 7, 2019

Disponible avec :

Hub Marketing Professional, Enterprise
Basique
HubSpot CMS
Plusieurs options existent si vous souhaitez empêcher les moteurs de recherche d'indexer des pages spécifiques de votre site web. Nous vous conseillons de toutes les étudier avec attention avant d'appliquer des modifications, afin de vous assurer que seules les pages voulues seront bloquées pour les moteurs de recherche.

Remarque : si vous choisissez la méthode de la balise meta « No Index », sachez qu'elle ne doit pas être combinée à celle du fichier robots.txt. Les moteurs de recherche doivent commencer à analyser une page pour voir la balise meta « No index », ce qui est impossible avec le fichier robots.txt.

Fichier robots.txt

Votre fichier robots.txt est un fichier placé sur votre site web et lu par les robots des moteurs de recherche pour identifier quelles pages indexer ou non. Découvrez comment configurer le fichier robots.txt dans HubSpot.

Google et d'autres moteurs de recherche ne suppriment pas rétroactivement les pages des résultats après la mise en œuvre de la méthode robots.txt. Ce fichier indique aux robots de ne pas analyser une page, mais les moteurs de recherche peuvent toujours indexer votre contenu (par exemple, des liens entrants mènent à cette page depuis d'autres sites). Si votre page a déjà été indexée et que vous souhaitez le supprimer rétroactivement des moteurs de recherche, il est recommandé d'utiliser la méthode Balise meta « No Index ».

Balise meta « No index »

Une balise meta « No index » est un morceau de code intégré dans la section en-tête du code HTML d'une page, pour indiquer aux moteurs de recherche de ne pas indexer cette page. Cette méthode ne peut être utilisée que pour les pages de destination et les pages de site web, et non pour les articles de blog.

<meta name="robots" content="noindex">

edit-head-html

 

Google Search Console

Si vous disposez d'un compte Google Search Console, vous pouvez soumettre une URL afin qu'elle soit retirée des résultats de recherche sur Google. Notez que cela s'applique uniquement aux résultats de recherche sur Google.

Si vous voulez bloquer des fichiers dans votre gestionnaire de fichiers HubSpot (ex : un document PDF) afin qu'ils ne soient pas indexés par les moteurs de recherche, vous devrez sélectionner un sous-domaine connecté pour le ou les fichiers concernés et utiliser l'URL des fichiers pour bloquer les robots d'indexation.

Comment HubSpot gère les demandes d'un agent utilisateur

Si vous paramétrez une chaîne d'agent utilisateur pour tester l'indexation de votre site web, il est normal que vous obteniez un message indiquant que l'accès est refusé. Google est toujours en train d'explorer et d'indexer votre site.

Vous voyez ce message, car HubSpot autorise uniquement les demandes de l'agent utilisateur googlebot venant d'adresses IP qui appartiennent à Google. Afin de protéger les sites hébergés sur HubSpot des attaques ou des « spoofers », les demandes provenant d'autres adresses IP seront refusées. HubSpot agit de même pour les robots d'indexation d'autres moteurs de recherche, comme BingBot, MSNBot et Baiduspider.