L’article ultime sur le robots.txt !

RobotUn article tout bête sur le robots.txt aujourd'hui ? Oui ! Enfin pas tout à fait, ce n'est pas un article tout bête puisque j'ai pu remarquer à plusieurs reprises que ce fichier était souvent mal compris et donc mal utilisé. C'est d'ailleurs un billet traitant du robots.txt qui a ouvert la catégorie astuces référencement de ce blog, et j'ai également pointé du doigt la mauvaise utilisation du fichier dans l'audit du site de l'Élysée.

C'est donc un retour aux sources qui va être effectué dans cet article, avec les bonnes pratiques à mettre en place en fonction de vos besoins. À la fin de celui-ci, vous serez apte à optimiser le crawl de votre site par les différents bots. Avant de commencer, je tiens à préciser que le robots.txt est bien plus efficace avec une architecture du tonnerre et des URL écrites pour fonctionner avec lui.

Le contenu du robots.txt

Avant d'aller un peu plus loin dans l'article, voici d'abord un rappel concernant le contenu de ce fichier. Le robots.txt fonctionne de cette manière :

  1. Nous nous adressons à un ou plusieurs robots
  2. Nous leur indiquons des directives

Concernant ces dernières, ce sont globalement deux directives que nous serons amenés à utiliser le plus souvent, bien que je sois partagé sur l'utilisation de la directive Sitemap.  Tout dépend des besoins. Voici donc ces deux directives :

  • Disallow:
  • Sitemap:

Il faut savoir qu'il existe d'autres directives, bien qu'elles ne soient pas interprétées par tous les robots : Allow: et Crawl-delay:.

Enfin, je peux également utiliser un caractère joker si je ne souhaite pas recopier 800 URL construites sur le même modèle : l'étoile (*).

Concrètement, ça donne quelque chose comme ça :

User-agent: *
Disallow: /mon-dossier-prive/
Disallow: /public/page-sans-crawl.html
Disallow: /*.php
Disallow: /public/donotcrawl*.html

User-agent: googlebot
Disallow: /mobile/

Sitemap: /sitemap-accueil.xml

Voici comment interpréter ce fichier, ligne par ligne :

  • j'indique à quels robots (user-agent) je m'adresse : l'étoile signifie que je leur parle à tous
  • j'indique de ne pas crawler le dossier situé à l'adresse nom-de-domaine.fr/mon-dossier-prive/
  • j'indique de ne pas crawler la page située à l'adresse nom-de-domaine.fr/public/page-sans-crawl.html
  • j'indique de ne crawler aucune page se terminant par .php (l'étoile remplaçant tous les caractères situés entre nom-de-domaine.fr/ et .php)
  • j'indique de ne crawler aucune page commençant par nom-de-domaine.fr/public/donotcrawl et se terminant par .html (ce qui signifie que les robots ne parcoureront pas les pages donotcrawl-1.html, donotcrawl-2.html, donotcrawl-3.html, etc.)
  • je m'adresse uniquement au robot de google
  • je lui indique de ne pas crawler le répertoire /mobile/
  • j'indique l'emplacement de mon fichier sitemap

Maintenant que tous le monde a en tête les bases du robots.txt, on va pouvoir aller plus loin dans la réflexion.

Ce fichier est-il consulté à chaque fois ?

J'ai souvent lu et entendu cette phrase : le robots.txt est consulté lors de chaque crawl de Google. Ce n'est malheureusement pas le cas. Il est certes consulté régulièrement, mais pas à chaque visite. Ce que ça change pour nous ? Admettons que je lance une newsletter et que je classe chacun de mes fichiers dans un dossier /newsletter/ et bien sûr je ne souhaite pas que le contenu de ce dossier soit crawlé. Ça signifie que, par sécurité, je ferais mieux de mettre en place la directive indiquant aux bots de ne pas crawler ce dossier avant même qu'il soit créé, voire même longtemps à l'avance.

Interdire l'indexation avec le robots.txt : stop !

Décidément les croyances populaires sont tenaces, il est là encore de notoriété publique que ce fichier a pour utilité d'interdire l'indexation d'un contenu. C'est faux, faux et archi-faux ! Ce fichier interdit le crawl d'une page mais certainement pas son indexation. Une page peut ne pas être crawlée (c'est-à-dire parcourue par les robots) mais peut très bien être indexée par Google. L'image suivante en est la preuve. Pour savoir comment interdire l'indexation, ça se passe par ici.

Page indexée

Une mauvaise construction du fichier : les risques

Reprenons l'exemple du robots.txt que j'ai donné en première partie d'article : j'ai indiqué plusieurs directives à tous les robots, parce que je veux qu'ils les prennent tous en compte, et j'en ai indiqué une plus précise à Googlebot. Sauf que dans cet exemple, Googlebot ne prendra pas en compte les directives données à tous les robots puisqu'il a bien compris qu'à un instant je m'adressais particulièrement à lui.

Faisons une analogie àlacon : on est au rugby, c'est le dernier match du tournoi des 6 nations, la France a gagné tous ses matchs et ne dois plus gagner que celui-ci pour réaliser le Grand Chelem. L'Angleterre mène 21 à 20 contre la France et il reste 30 secondes de temps de jeu. Philippe Saint-André fait passer l'info "les gars, vous vous débrouillez pour passer le ballon à François Trinh-Duc, et toi François tu tentes le drop !" (avouez, vous vous y voyez !) Petite analyse : Saint-André a donné une directive à tout le monde -passer le ballon à Trinh-Duc- et une particulière à Trinh-Duc : tenter le drop. Du coup, Trinh-Duc a bien compris qu'il ne devait pas se passer le ballon à lui-même (ce qui serait tout à fait stupide et causerait un en-avant, enfin bref). C'est pareil pour Googlebot dans notre exemple.

Maintenant qu'on a gagné le Grand Chelem, revenons au robots.txt, parce que c'est ça le sujet. Si je veux que Googlebot suive les mêmes directives que les autres, il faudra que je les lui indique à nouveau. Ce qui donnera quelque chose comme ça :

User-agent: *
Disallow: /mon-dossier-prive/
Disallow: /public/page-sans-crawl.html
Disallow: /*.php
Disallow: /public/donotcrawl*.html

User-agent: googlebot
Disallow: /mon-dossier-prive/
Disallow: /public/page-sans-crawl.html
Disallow: /*.php
Disallow: /public/donotcrawl*.html
Disallow: /mobile/

Sitemap: /sitemap-accueil.xml

Quelques erreurs classiques

Une erreur très fréquente est de ne pas se soucier de la casse dans le fichier robots.txt. Je souhaite bloquer une URL qui contient des majuscules et par fainéantise j'écris cette URL en minuscules dans le fichier : cette URL ne sera pas bloquée étant donnée que les robots sont sensibles à la casse.

Une autre erreur, bien que j'avoue avoir un doute concernant le fait qu'il s'agisse bien d'une erreur, concerne les retours chariots. Comme vous l'avez vu dans les exemples, le robots.txt fonctionne par "blocs" : on sélectionne le robot à qui on s'adresse, on fait un retour chariot, on lui donne des directives puis on fait deux retours chariots pour s'adresser à un autre robot. Il y a donc une ligne vide entre les directives pour le premier robot et celles pour le second. J'ai tendance à penser que si on fait un retour chariot de trop entre le choix du robot à les directives, ces dernières ne seront pas prises en compte. Un exemple sera sûrement plus parlant :

User-agent: bingbot

Disallow: /

La ligne blanche entre le choix de l'user-agent et le disallow peut éventuellement amener le robot à ne pas prendre en compte la directive. Je n'ai aucune certitude à ce sujet, n'ayant pas fait de test, mais autant ne pas prendre de risque inutile ;-)

Conclusion

Vous en savez maintenant un peu plus à propos de votre robots.txt et la manière de le gérer. Je ne veux donc plus voir de robots.txt mal utilisé ! Une dernière chose : j'ai envie d'être joueur aujourd'hui : prouvez-moi que vous avez bien lu l'article (ou au moins la conclusion) et insérez le mot "rugby" dans votre commentaire, s'il n'y est pas, le lien ne sera pas accepté :) C'est fourbe n'est-ce pas ?

Catégorie Référencement | Thématique .

52 réponses à L’article ultime sur le robots.txt !

  1. flexsuits says:

    Merci pour l’article et je suis entièrement d’accord avec vous sur ce mythe d’interdire l’indexation.En effet les seuls solution reste les balises meta les entetes HTTP, les header HTTP et le htaccess ;)

    En tous cas très bon résumé sur le fichier robots.txt, à quand celui sur le animal.txt ;)

    Au plaisir ;)

  2. Rémi says:

    En lisant les premières lignes de code j’ai eu peur mais tout s’éclaircit dans le deuxième exemple de robots.txt qui montre l’erreur à ne pas commettre !

    Je n’aime pas me préoccuper de ce fichier bien qu’il soit très utile pour maîtriser son référencement, j’ai toujours peur de faire une bourde et je relis ce que j’ai tapé encore plus de fois qu’un post de FB pour une marque.

    Sinon une question reste en suspend : A quand un match de rugby entre robots ? (ils jouent déjà au foot)

  3. Guillaume says:

    Avant je croyais en l’interdiction d’indexation via robots.txt mais ça c’était avant !
    Entre temps je me suis fais indexer des fichiers .js, .css, .swf des dossiers profonds du /wp-content/ depuis j’ai fait quelques recherches et je me soigne.
    Sur mon blog j’ai encore des fichiers pas terrible indexé mais je vais mettre toutes ces extensions dans le .htaccess pour refuser leur indexation.

    Au passage très joli match de rugby, j’ai pu vivre l’action le temps d’un instant :D

  4. Steve jobs says:

    Oui pareil que vous tous.
    Je vais jouer avec mon .htaccess pour bloquer les indexations.
    Enfin … jouer … pas autant qu’un match de rugby, mais presque ;-)

    [modération : bien vu pour le rugby, mais il faut aussi penser à utiliser KeywordLuv =) ]

  5. Sandrine says:

    ca tombe bien j’habite juste à côté du stade toulousain ( j’ai pas mis le mot magique mais ca marche quand même ?)

    pour ce qui est de la visite du fichier par les bots effectivement c’est pas systématique lorsque la durée entre 2 crawls est courte sinon ils viennent le voir (j’ai pas regardé en détail, la durée max mais ca m’a semblé assez court – de l’ordre de quelques minutes)

    Sinon oui bien sur ca n’empêche pas l’indexation mais ca fonctionnait encore jusqu’il y a peu de temps. Et en toute logique si on demande de ne pas crawler il ne devrait pas indexer non plus.
    Maintenant il faudrait que google nous explique l’intérêt de présenter des résultats sans informations pour l’internaute (je dis Google car je n’ai pas vu de résultats similaires chez les autres mais j’ai pas cherché pus que cela non plus)

    Très bon rappel quoi qu’il en soit.

  6. jb says:

    J’avoue ne pas comprendre un point en particulier : « Ce fichier interdit le crawl d’une page mais certainement pas son indexation. Une page peut ne pas être crawlée (c’est-à-dire parcourue par les robots) mais peut très bien être indexée par Google »

    Pour être indexé, il faut déjà que la page soit parcourue (crawl) non ?

  7. Yann says:

    Bonjour Sylvain,

    C’est un bon rappel, car le danger « de base » d’un tel fichier est le slash.

    En effet, entre un Disallow : et un Disallow : / les dégâts peuvent être très dommageables pour le crawl du site !

    Bon, il y a heureusement de plus en plus d’outils (comme GWT) qui proposent de générer ce robots.txt, ce qui permet d’éviter la catastrophe ^^

  8. JL says:

    Merci pour cet article.
    En complément, on peut tester la validité de nos directives du robots.txt dans Google Webmaster Tools : Etat de santé / URL bloquées
    C’est rassurant avant une mep.
    Les essais seront donc transformés, un peu comme au rugby quoi :)

  9. Mikiweb says:

    Et bien je crois que tu as passé les principales erreur en revue avec un beau match de rugby en prime ^^
    Combien de fois j’ai vu des règles qui se contredisait dans le robots.txt des clients.
    Le plus dure est de leur faire comprendre que ce n’est pas le robots.txt qui empêchera l’indexation de leur url.
    Le plus efficace étant la balise meta robots sur la page à ne pas indexer ou d’utiliser la directive x-robots-tag dans le fichier .htaccess

    Par contre pour la gestion des espaces je confirme que si il y en a un entre le choix de l’user-agent et le disallow, les règle pour le bot ne sont pas prise en compte.

    Pour finir voici un outil qui va permettre de répertorié les principales erreur d’un fichier robots.txt : http://tool.motoricerca.info/robots-checker.phtml

  10. Bonjour,

    Très bon article qui reprend bien les bases du robots.txt qui est dans 90% des cas bourrés d’erreurs et mal compris.
    Beaucoup le considèrent comme un simple fichier texte, c’est une erreur car il répond à de nombreuses règles.

    Cependant, il y a encore des erreurs de conception dans ton dernier robots.txt.
    - Le bloc de wildchar * doit toujours être en dernier et on ne doit pas répéter les directives entre * et le(s) robot(s) visé(s).
    - Le wildchar * ne doit être utilisé dans les directives que pour les bots l’interprétant, ce qui est officiellement le cas de Google, Bing et Yahoo mais pas forcément des autres puisque cette utilisation ne répond pas au standard du robots.txt
    - Je ne vise jamais en particulier Google bot donc je n’ai pas fait le test mais il me semble que son identifiant comporte une majuscule : Googlebot et non googlebot.

    Voici un fichier correct :
    User-agent: Googlebot
    Disallow: /mobile/

    User-agent: *
    Disallow: /mon-dossier-prive/
    Disallow: /public/page-sans-crawl.html
    Disallow: /*.php
    Disallow: /public/donotcrawl*.html

    Sitemap: /sitemap-accueil.xml
    Et à la limite tant pis pour les bots qui ne comprennent pas le *, de toutes façons pour ma part il serait déjà bloqué.

    Quand à la fréquence de crawl du fichier, elle dépend de la fréquence de crawl du site en lui même.

    François-Olivier (rugby)

  11. Guillaume says:

    Encore un très bon article-rappel de Sylvain, merci. D’ailleurs, je vais checker de ce pas mes robots.txt, vérifier qu’un chariot ne soit pas au milieu de la route des bots.

  12. Arnaud says:

    Très bon article sur le fichier robots.txt, tout est dis, je le bookmarque !
    mais c’est vrai que certaine idées sont tenaces, merci pour ces précisions.

    Et si on parle de rugby, autant parler de Clermont ! Champion de france et Hcup cette année on croise les doigts…

  13. Vince says:

    C’est vrai qu’il est souvent négligé (mais ça ce n’est pas bien grave, on n’en a pas tous besoin !) en revanche il est crucial dans certains cas, donc il faut absolument savoir le mettre en forme et ton article restera un bon guide en la matière ;)

    rugby

  14. Ahah j’adore ton nouveau filtre avec le mot rugby, et hop c’est dit ^^

    Un truc important. Tu ne détailles pas assez l’action de jeu qui amène le drop. Si je m’en rappelle bien, je crois que la balle touche la barre horizontale 2 fois avant de passer juste derrière grâce à un souffle de Chabal sur le ballon… Enfin bref…

    En fait le robots.txt c’est un peu comme Football Manager. Tu donnes des règles à l’équipe et quand il y a une particularité pour un joueur, tu dois redonner les mêmes ordres en plus de la particularité. C’est facile le robots.txt ^^

    Tu aurais pu en profiter pour dire, entre parenthèse, d’utiliser le noindex pour éviter l’indexation, même si rien a voir avec le robots.txt.

  15. Sylvain says:

    @JB : en fait il suffit un Google de connaitre l’existence d’une page pour l’indexer : un lien, une visite sur la page peuvent donc conduire à une indexation de la page. Google connait la page, l’indexe mais ne la parcourt pas ;-)

    @François-Olivier : très bon complément, merci ! J’ai tout de même un petit doute pour l’ordre des blocs. Dans les faits je pense que tu as raison, mais j’imagine que les bots les plus poussés (typiquement Googlebot) ont résolu ce problème ;-)

    Tu as peut-être bien raison pour la majuscule à Googlebot, j’avoue ne pas avoir vérifié ! Et tu as également raison pour l’étoile mais comme tu le dis, les principaux bots l’interprètent, et comme ce sont ceux qui nous intéressent =)

  16. PS : soit dit en passant, mais je pense que c’était surtout là pour l’exemple, c’est une très mauvaise idée que de bloquer le contenu mobile à Googlebot classique.
    Que ce soit ou non un site de rugby (tiens au fait je trouve cette idée assez géniale pour voir les spamco).

  17. Shelko says:

    Vraiment bien foutu cet article.
    Je n’utilise vraiment que très rarement ce genre de fichiers car je ne vois pas trop son intérêt, vu qu’il n’empêche pas les robots d’indexer les pages.
    Est-ce qu’il existe un quota de page à crawler ? Car dans ce cas son utilité serait compréhensible.

  18. PH says:

    Merci pour ton article bien complet.
    Afin de limiter les erreurs sur votre robots.txt, vous pouvez utiliser la fonctionnalité dédiée a ce dernier dans Google Webmaster Tool, cela evite les mauvaises surprises lors des releases…

  19. Diije says:

    Pour info : l’aide officielle Google à ce sujet http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449

    Sinon, n’oublions pas que Googlebot comprend la directive Allow:
    Et enfin : a priori si on s’adresse spécifiquement à un blog, il ne prend pas en compte les directives de « * » ;)

    (rugby)

  20. Cédric says:

    Merci pour cet article bien détaillé. J’avais encore quelques doutes sur l’utilisation du fichier robots.txt, c’est réglé :)
    Merci aussi à Mikiweb pour le lien, je ne connaissais pas cet outil, c’est parfait !!

    Quant à l’exemple sur le rugby, c’est une excellente idée et rien que pour ça, ça mérite un petit #FF :)

  21. Eric says:

    Hello Sylvain, merci pour cette piqûre de rappel ;) Excellente lecture, comme d’hab!
    Je reviens sur un point qui me semble TRES important et que tu as bien soulevé : Interdire l’indexation avec le robots.txt.

    Parfois (voire même très souvent…) il y a un site de Dev et un site de Prod. Et parfois (mais encore une fois souvent), les deux sites co-existent et genere une tonne de duplicate content. C’est balot. D’où l’importance d’être bien certain que le site de Dev n’est pas indéxé. Et le robot.txt ne sert pas à ca !

  22. phil says:

    J’avoue avoir presque tout compris !…Car pour le parallèle avec le rugby là…encore faut-il s’y connaitre un minimum grrr

    Après pour ta remarque sur le fait que Google ne passe pas à chaque fois par le robots.txt c’est peu dire !

    Pour mon dernier client, ce maudit robot m’a rendu maboul:
    - Un délai de prise en compte pour un nouveau site de 4 jours mini
    - Quand il passait dessus il mettait quelquefois une semaine pour corriger les erreurs annoncées (et qui étaient issues de l’ancien robots.txt) –> Ex: Derniere visite robots.txt: 15 janvier 2013 mais page annoncant les erreurs tient compte encore à cette date du robots.txt de fin Décembre 2012…

  23. Le Juge says:

    Tres tres bon cet article – Un retour aux sources bien nécéssaire malheureusement tellement ce fichier est mal utilisé – ou tout simplement le plus souvent zappé de l’équation –
    « on comprends pas – on a perdu tous nos rankings lors de la mise a jour – ah ouais c’est parce que vous avez pas mis de redirection deja et ensuite parce que votre webmestre a oublié de virer de lisallow du RObots (et autres joyeuseté pour prévenir le crawl de la version de dev) .

    Ou l’inverse -les mecs oublie de prévenir le crawl de la version de dev et on se retrouve a devoir virer / redirigé toutes les pages de /dev/ vers les versions definitive.

    (rugby)

  24. Johan says:

    Un monde s’écroule! J’étais persuadé qu’on pouvait se servir de ce fichier pour empêcher google d’indexer une page. Sans jamais avoir vraiment fait l’effort pour m’en assurer, il est vrai!
    Je passerais par une balise dans l’en tête dorénavant

  25. Vincent says:

    Merci pour cet article complet et très instructif sur le robots.rugby !
    Souvent lors du dév d’un site on met un disallow par simplicité.
    Veillez à bien repasser sur ce robots.txt lorsqu’il passe en prod, histoire de ne pas avoir de mauvaises surprises, surtout pour les sites déjà indexés et comportant de nouvelles pages.

  26. Jguiss says:

    Le Robots.txt doit pouvoir être maîtriser par tout bon référenceur, c’est un peu comme le .Htaccess. Un SEO qui se respecte doit tout connaitre sur ces deux fichiers… pour ma part il m’arrive souvent de galérer avec les règles de réecriture d’URL du .Htaccess. Par contre le robots.txt il ne me pose pas de souci :)

  27. Chef de projet SEO says:

    bon apparemment, je vais être le seul à ne pas être tout à fait d’accord avec cet article.

    En effet, mes tests m’indiquent qu’un blocage dans le fichier robots.txt d’un site permet la désindexation de pages. Cela a fonctionné pour un de mes sites qui avait 80 000 pages inutilement indexées.

    Mon raisonnement est le suivant :

    je suis d’accord pour dire que le robots.txt dit à Google de ne pas crawler une page. Jusque-là, on est tous Ok.

    Mais lorsque l’on y réfléchit, pourquoi Google garderait inutilement des pages qu’il ne crawlera plus jamais. Pour lui ce serait une perte nette dans la mesure où ces URL prennent de la place sur ses serveurs pour rien. De plus, cela signifie aussi que si la page n’est plus crawlée, alors elle ne sera plus jamais mise à jour, et on sait tous qu’une page qui ne change pas a peu de valeur pour Google.

    Pour désindexer 80 000 pages avec le robots txt, ça a pris 2 mois sur mon site, et ça a fonctionné…

  28. Mathieu says:

    Voilà un article qui aurait put être écrit rien que pour moi… Car le robot.txt, j’ai dû me pencher dessus le lendemain du reveillon avec un beau message de google me disant qu’il n’avait pas pu exploiter le robot.txt… A vrai dire ça m’a fait tout drôle.
    Merci donc pour ces explications que je garde bien au chaud dans mes favoris pour la prochaine blague de « google »

  29. Serge says:

    Bon bein quand je lis tout ça, je vois que je m’étais bien égaré dans des croyances archi fausses…j’ai du pain sur la planche mais mieux vaut tard que jamais.
    Par contre je m’interroge sur ce point: techniquement parlant, comment une page peut être indexée sans qu’elle est été au préalable crowlée???

  30. Sylvain says:

    Va pour le rugby. Prochaine fois, j’attends au moins « moto » ou « rock n’roll ».

    à JB et Serge.
    Comme le disait Sylvain (celui d’ici) Google à des tas de moyens de connaitre une URL et de l’indexer
    - le fait que celle-ci soit visitée par quelqu’un connecté à son compte Google
    - le fait que la visiteur ait une barre de recherche Google sur son navigateur
    - le fait qu’il existe des liens vers cette URL

    Il peut donc tout à fait indexer avant d’avoir crawlé. D’ailleurs, n’oublions pas qu’il est boulimique. Il est sans doute plus difficile aujourd’hui de ne pas être indexé que de l’être (je ne parle pas de positionnement).

    D’ailleurs, on vois tellement de contenus en preprod indexé avec du lorem ipsum :-)

    Sinon, une erreur fréquente que je remarque, est d’interdire le crawl dans le robots.txt et de mettre la balise noindex dans la page.
    Si on lui dit de ne pas crawler, il ne pourra pas voir la balise noindex, et il indexera donc… CQFD

  31. Sylvain says:

    @Chef de projet SEO : concernant ton raisonnement, la preuve que « Google garde des pages inutilement » est en capture dans cet article. Le blocage dans un robots.txt n’entraine actuellement pas de désindexation, c’est une des rares certitudes du SEO. D’autres paramètre devaient entrer en jeu dans ton test.

    @Serge : Il suffit que Google connaisse la page.

  32. chef de projet Seo says:

    alors comment expliquer la chute du nombre de pages indexées étant donné qu aucune autre variable n a été touchée ?

  33. Hugo says:

    Merci pour cet article. Grâce à vous, j’ai pu amélioré la configuration de mon robot.txt.
    Et plein de doutes (enfin des questions) sur le crawl du robot se sont envolés en lisant cet article. Un dernier mot : allez les bleus ! :)

  34. Sylvain says:

    @Chef de projet SEO : quand est-ce que ceci a été effectué ? Il y a quelques années, ça pouvait encore fonctionner. Mais je t’avoue que sans avoir ne serait-ce qu’une URL d’exemple, c’est compliqué de trouver des raisons ;-)

  35. Monica says:

    C’est clair, indexer n’est pas crawler, aurait dit Ardisson.
    Par ailleurs, jubilatoire exemple que ce fichier robots.txt cuvée « Philippe Saint-André » !
    Au rugby on sait encore lire, ça marche aussi avec le f….. ?
    Et bonne année à nos amis robots également.

  36. MC says:

    Bonjour Sylvain,

    Tu as ici un très bon article montrant explicitement les bases. Merci pour cet article et bonne continuation à toi !

  37. Franck says:

    Bon cela permet de reposer les bases ! Pour ma part, si l’on ne connait pas le robots.txt, on ne touche pas au robots.txt ! ;) On peut tellement effectuer de bêtises en se trompant sur un paramètre ou un autre qu’il vaut mieux parfois ne pas y toucher…

    Pour bloquer l’accès à une url pour un robot, rien ne vaut un bon vieux javascriptage en règles + ajout d’une balise noindex, nofollow au sein de celle-ci.

  38. Anthony says:

    Petit mais costaud ce petit fichier « robots.txt » et pourtant souvent oublié ou négligé par les webmaster, référenceur.

    Pour ma part je prend le temps de le modifier sur chacun de mes sites pour « interdire » aux moteurs de recherche d’aller visiter certain dossier inutile ainsi que certaine page comme celle des mentions légales …

  39. Bruno says:

    Bonjour,

    Cet article est intéressant, même si ceux qui n’y connaissent rien au rugby n’auront pas forcément tout suivi, mais je pense qu’il aurait été utile d’ajouter un paragraphe sur ce qu’on doit mettre dans ce type de fichier.
    En clair: quels types de pages doit-on indiquer aux robots de ne pas suivre?
    Merci d’avance.

  40. Pierre says:

    Un bon récapitulatif, qui à le mérite d’être clair ! Le fichier robots.txt est une des nombreuses connaissances à maîtriser pour le référenceur web. Il est vrai que le mythe de la non-indexation à la peau dur et tu vas certainement éclairer pas mal de monde.
    Je suis d’accord avec toi, nous allons le gagner ce tournoi de rugby ;)

  41. Fred says:

    Merci à toi de nous éclaircir un peu plus sur l’usage (et surtout les erreurs courantes) du robots.txt. La métaphore du en avant au rugby est pour le coup bien choisie, car je ne n’avais pas vraiment compris tout de suite.
    Merci Noviseo ! :-)

  42. Robert says:

    Merci pour cet article, Chabal n’aurait pas fait mieux, est ce que tu sais si il est toujours possible de générer automatiquement un robots.txt via google? Il me semblait qu’il existait un outil google pour le faire mais je n’arrive pas à remettre la main dessus.
    Merci !

  43. Sylvain says:

    @Robert : Tu peux trouver ça dans les webmaster tools ==> URL bloquées ;-)

  44. Dr Mezhoud says:

    Merci pour cette billet, aussi on peut tester la validité de fichier robot.txt à l’aide de l’outil vérification des urls bloqués sur google webmaster tools

  45. Gilles says:

    Merci pour l’article qui me parait un bon condensé de ce qu’il faut savoir sur ce fichier souvent fait à la va vite.
    Pour ma part, je pensais que le fichier txt pouvait empêcher l’indexation de pages.
    Et ben je me suis bien trompé.

  46. Ben says:

    Salut Sylvain,

    C’est un excellent article (encore un) que tu viens encore de signer là ! Comme bien souvent en référencement, on a tendance à sous-estimer des petits facteurs qui à priori ne semblent pas importants mais qui une fois cumulés peuvent pourtant faire la différence. C’est le cas de ce robots.txt sur lequel je te remercie d’avoir fait la lumière. D’ailleurs, je me suis permis de faire la promotion de ce petit tuto sur mon propre blog dans un billet synthétique sur les meilleurs articles web marketing de la semaine dernière.

    Bonne continuation à toi ;)

    Ben (rugby)

  47. J’ai tout appliqué chef.
    Par contre, est-ce que quelqu’un a un retour sur les commentaires d’un blog ? Allow ou pas le crawl ?

  48. Pierre says:

    Merci pour toutes ces infos, je me rends compte que j’utilise encore très mal ce fichier ! Je ne savais pas qu’il fallait répéter les instructions pour les différents bots. Au fait, j’adore le rugby (c’est assez marrant de voir le nombre de gens qui commentent sans avoir lu l’article).

  49. Benoit says:

    Cet article est une vraie mine d’or ! En faites, c’est un post-it quand on a un doute sur ce fichu fichier (Pas facile à prononcer) robots.txt

    Je le met immédiatement dans mes favoris pour en faire un bon usage au moment venu.
    Merci :)

  50. Alex says:

    Je pensais moi aussi que le fichier robots.txt était consulté à chaque visite mais ce n’est pas le cas, bon à savoir! Merci pour ces petites mises au points :)

  51. sarah says:

    Bonjour
    Merci pour cet article intéressant, je voudrais juste savoir si par exemple je veux désindexer les pages qui contiennent « ?lang=en » à la fin de l’URL ( http://www.monsite.com/article.html?lang=en) je dois insérer dans le fichier robots.txt:
    Disallow: /*?lang=en
    ou bien
    Disallow: /*.html?lang=en

    Merci

  52. Sylvain says:

    @sarah : dans ton cas, si les URL sont déjà indexées, une règle interdisant l’indexation dans le fichier .htaccess (cf http://noviseo.fr/2013/11/fichier-htaccess/) sera bien plus efficace ;-)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Veuillez utiliser votre nom ou votre pseudo. Tout commentaire ne respectant pas cette règle verra son lien supprimé.