Même si les spécialistes du référencement s'efforcent d'améliorer la visibilité des pages pour les mots clés correspondants, il est parfois nécessaire de masquer certaines pages aux moteurs de recherche.
Nous allons en savoir un peu plus sur ce sujet.
Réponse sous 24hrs
Robots.txt est un fichier qui contient les zones d'un site Web que les robots des moteurs de recherche ne peuvent pas explorer. Il répertorie les URL que le webmaster ne veut pas que Google ou tout autre moteur de recherche indexe, les empêchant ainsi de visiter et de suivre les pages sélectionnées. Nous accomplissons cette action par le biais de la balise robots.txt disallow que vous verrez dans les exemples plus bas.
Lorsqu'un robot trouve un site Web sur l'Internet, la première chose qu'il fait est de vérifier le fichier robots.txt pour savoir ce qu'il est autorisé à explorer et ce qu'il doit ignorer pendant l'exploration.
Exemple de fichier robots.txt.
Pour vous donner un exemple de fichier robots.txt, voici sa syntaxe :
User-agent: *
# All bots - Old URLs
Allow: /
Disallow: /admin/*
Ces balises sont nécessaires pour guider les robots de Google lorsqu'ils trouvent une nouvelle page. Elles sont nécessaires car :
Elles aident à optimiser le budget d'exploration, car l'araignée ne visitera que ce qui est vraiment pertinent et elle utilisera mieux le temps qu'elle consacre à l'exploration d'une page. Une "page de remerciement" est un exemple de page que vous ne voudriez pas que Google trouve.
Le
Les fichiers robots.txt sont publics. Vous pouvez simplement taper un domaine racine et ajouter /robots.txt à la fin de l'URL et vous verrez le fichier... s'il y en a un ! Avertissement : Évitez d'inscrire des informations privées dans ce fichier. Vous pouvez trouver et modifier le fichier dans le répertoire racine de votre hébergement, en vérifiant l'administration des fichiers ou le FTP du site web.
Vous pouvez le faire vous-même
Créez ou modifiez le fichier avec un éditeur de texte simple.
Nommez le fichier "robots.txt", sans aucune variation comme l'utilisation de majuscules.
Voici un exemple dans lequel vous souhaitez que le site soit exploré. Faites attention à la façon dont nous utilisons la balise robots.txt disallow.
User-agent: *
Disallow:
Remarquez que nous avons laissé "Disallow" vide, ce qui indique qu'il n'y a rien qui ne soit pas autorisé à être crawlé.
Si vous voulez bloquer une page, ajoutez ceci (en utilisant l'exemple de la "page de remerciement") :
User-agent: *
Disallow: /thank-you/
- Utilisez un fichier robots.txt distinct pour chaque sous-domaine.
- Placez le fichier dans le répertoire de premier niveau du site Web.
- Vous pouvez tester les fichiers robots.txt à l'aide des Google Webmaster Tools avant de les télécharger dans votre répertoire racine.
Vous voyez qu'il n'est pas si difficile de configurer votre fichier robots.txt et de le modifier à tout moment. Gardez juste à l'esprit que tout ce que vous voulez de cette action est de tirer le meilleur parti des visites des robots. En les empêchant de voir des pages non pertinentes, vous vous assurez que le temps qu'ils passent sur le site sera beaucoup plus profitable.
Enfin, n'oubliez pas que la meilleure pratique de référencement pour robots.txt est de s'assurer que tout le contenu pertinent est indexable et prêt à être exploré ! Vous pouvez voir le pourcentage de pages indexables et non-indexables parmi le total des pages d'un site en utilisant le crawl de "Screaming Frog" par exemple, ainsi que les pages bloquées par le fichier robots.txt.
Le fichier robots.txt contrôle l'accès du robot d'exploration à certaines zones du site Web. Cela peut parfois être risqué, notamment si le GoogleBot n'est accidentellement pas autorisé à explorer l'ensemble du site, mais il existe des situations dans lesquelles un fichier robots.txt peut être pratique.
Voici quelques-uns des cas dans lesquels il est conseillé d'utiliser le fichier robots.txt
- Lorsque vous souhaitez préserver la confidentialité de certaines sections d'un site Web, par exemple parce qu'il s'agit d'une page de test.
- Pour éviter que du contenu dupliqué n'apparaisse sur la page de résultats de Google, les métabots sont une option encore plus souhaitable.
- Lorsque vous ne souhaitez pas que les pages de résultats de recherche internes apparaissent sur une page de résultats publique.
- Pour spécifier l'emplacement des plans du site.
- Pour empêcher les moteurs de recherche d'indexer certains fichiers du site Web.
- Pour indiquer un délai d'exploration afin d'éviter la surcharge du serveur lorsque les robots d'exploration chargent plusieurs éléments de contenu à la fois.
Si le site ne comporte pas de zones où vous souhaitez contrôler l'accès des agents utilisateurs, vous n'aurez peut-être pas besoin d'un fichier robots-txt.
Suivez ces conseils pour gérer correctement les fichiers robots.txt :
Vous ne devez pas non plus bloquer les sections du site Web qui doivent être suivies. Gardez à l'esprit que les robots ne suivront pas les liens des pages bloquées par robots.txt À moins qu'elles ne soient également liées à d'autres pages auxquelles les moteurs de recherche peuvent accéder parce qu'elles n'ont pas été bloquées, les ressources liées ne seront pas explorées et ne seront peut-être pas indexées. En outre, aucune valeur de lien ne peut être transmise de la page bloquée à la destination du lien. Si vous avez des pages auxquelles vous voulez donner de l'autorité, vous devez utiliser un mécanisme de blocage autre que robots.txt.
D'autres pages peuvent renvoyer directement à la page contenant des informations confidentielles (évitant ainsi les directives de robots.txt dans votre domaine racine ou votre page d'accueil), c'est pourquoi elle peut encore être indexée.
Vous devez utiliser une autre méthode, comme la protection par mot de passe ou la balise méta noindex, pour empêcher la page d'apparaître dans les résultats de recherche de Google.
Google, par exemple, utilise GoogleBot pour la recherche organique et GoogleBot-Image pour la recherche d'images. La plupart des agents utilisateurs d'un même moteur de recherche suivent les mêmes règles. C'est pourquoi il n'est pas nécessaire de définir des directives pour chaque robot d'exploration du moteur de recherche, mais cela vous permet de contrôler la façon dont le contenu du site sera exploré. Le moteur de recherche met en cache le contenu du fichier robots.txt, mais actualise généralement les données mises en cache quotidiennement. Si vous modifiez le fichier et souhaitez le mettre à jour plus rapidement, vous pouvez envoyer l'URL du fichier robots.txt à Google.
Enfin, nous allons voir quels sont les aspects qui limitent la fonction du fichier robots.txt :
Les pages continueront à apparaître dans les résultats de recherche
Les pages qui sont inaccessibles aux moteurs de recherche à cause du fichier robots.txt mais qui ont des liens vers elles peuvent continuer à apparaître dans les résultats de recherche à partir d'une page crawlable.
Ne contient que des directives
Google respecte fortement le fichier robots.txt, mais il s'agit toujours d'une directive et non d'un mandat.
Taille du fichier
Google prend en charge une limite de 521 kilo-octets pour les fichiers robots.txt, et si le contenu dépasse cette taille maximale, il peut l'ignorer. Nous ne savons pas si d'autres moteurs de recherche fixent également une limite pour ces fichiers.
Le fichier robots.txt est mis en cache pendant 24 heures
Selon Google, le fichier robots.txt est généralement mis en cache pendant 24 heures au maximum. C'est un élément à garder à l'esprit lorsque vous apportez des modifications au fichier.
On ne sait pas exactement comment les autres moteurs de recherche traitent le fichier en cache, mais il est préférable d'éviter de mettre en cache votre fichier robots.txt afin que les moteurs de recherche ne mettent pas plus de temps à détecter les modifications.
La balise meta robots est la balise que l'on attribue à certaines pages dans la section head du HTML. Elle est utilisée pour indiquer aux robots des moteurs de recherche comment ils doivent se comporter lorsqu'ils atteignent une page Web. En ce sens, vous pouvez demander aux moteurs de recherche de ne pas suivre les liens trouvés sur la page (nofollow), de ne pas indexer (noindex) ou de ne pas mettre en cache (nocache) la page.
La balise meta robots est d'une grande utilité pour optimiser l'utilisation de votre jus de lien puisque vous pourrez décider à quelles pages transférer l'autorité ou non. Choisissez soigneusement les balises à utiliser dans chaque situation car cela a un impact direct sur l'optimisation de votre jus de liens.
Vous pouvez attribuer de nombreux types de méta-robots à une page Web. Vous trouverez ici une liste des balises méta les plus importantes et leur signification.
- index= Cette balise permet aux moteurs de recherche d'indexer la page. Elle est activée par défaut, donc si vous êtes d'accord pour que les moteurs de recherche trouvent et suivent vos pages, vous n'avez pas besoin d'y toucher.
- noindex= Elle empêche les moteurs de recherche d'afficher la page dans leurs SERP (Search Engine Results Pages).
- all= Comme mentionné ci-dessus, cette balise permet aux moteurs de recherche d'indexer la page et de suivre ses liens. "All" équivaut à "index follow".
- noimageindex= Elle interdit aux moteurs de recherche d'afficher une image dans leurs résultats de recherche. Mais si l'image reçoit un lien, Google continuera à l'indexer. Dans ce cas, il est préférable d'attribuer un X-Robots-Tag HTTP à l'en-tête.
- none= Son but est de demander aux moteurs de recherche de ne pas indexer ni suivre aucun lien sur cette page : noindex et nofollow. Elle leur demande de ne pas réagir lorsqu'ils voient la page.
- follow= Cette balise robots invite Google à suivre les liens de la page, qu'ils soient "indexés" ou non.
- nofollow= Elle demande aux moteurs de recherche de ne suivre aucun lien de la page.
- noarchive= Elle empêche les moteurs de recherche d'afficher le cache de la page (l'information ne sera pas stockée sur le navigateur de l'utilisateur pour les visites futures).
- nocache= Identique au précédent, mais seulement pour MSN/Live.
- nosnippet= Il ne laissera pas les snippets apparaître sur les SERPs, et il empêche également la génération de cache.
- noodp= Bien qu'il n'existe plus, il était utilisé pour empêcher les moteurs de recherche d'utiliser la description.
- noydir= Il empêche Yahoo ! d'utiliser la description sur son répertoire comme elle serait affichée dans les résultats de recherche (il n'est plus utilisé non plus, mais vous pouvez le rencontrer).
Si vous n'avez pas de balise meta robots sur votre page Web, Google indexe et suit la page par défaut. C'est comme si le paramètre "index, follow" vous était déjà attribué. Vous trouverez ci-dessous quelques exemples des combinaisons de balises les plus couramment utilisées.
- "Index, follow" - "indexe la page Web dans les SERP et suit les liens".
- "index, nofollow" - "indexer la page, et ne pas suivre les liens".
- "noindex, follow" - "ne pas indexer la page mais suivre les liens"
- "no index, no nollow, no-cache" - "ne pas indexer, ne pas suivre et désactiver la mise en cache de la page".
Lorsque vous utilisez la balise meta robots, vous devez vous assurer que les directives données dans la page actuelle ont une congruence avec la balise meta robots spécifiée dans les pages liées. Par exemple, si vous décidez d'ajouter "index, follow" à la page actuelle, les pages sortantes doivent être indexables et ne jamais avoir de balise "noindex" dans leurs meta robots.
Une fois que vous avez attribué la balise meta robots à vos pages, il peut être difficile de vérifier si cette tâche a été effectuée correctement, surtout sur les sites Web de grande taille. À cette fin, il est recommandé d'utiliser un robot d'exploration du Web tel que SemRush. Une fois que vous aurez crawlé votre site, vous pourrez voir vos pages indexées et non indexées, ainsi que si vous avez des pages bloquées par robots.txt. En examinant les listes d'URL avec les différentes balises, vous pouvez vous assurer que vous ne cachez pas des pages pertinentes dans les moteurs de recherche.
Lorsque vous utilisez la balise meta robots, vous voulez attribuer la règle qui convient le mieux à la majorité des liens trouvés sur la page. Cela dit, on rencontre souvent des liens d'exception pour lesquels on ne veut pas appliquer la règle générale. Dans ce cas, vous pouvez utiliser le rel nofollow. Par exemple, si vous avez la balise meta robot "index, follow" dans une page mais que vous avez des liens spécifiques que vous ne voulez pas que les moteurs de recherche suivent, insérez l'attribut rel "nofollow" sur ces liens.
Exemple :
<a rel=”nofollow” href=”http://www.examplepage.com”>anchor text</a>
Réponse sous 24hrs