2ème partie : Audit SEO – Technique

HTMLOn continue le dossier sur la réalisation d'un audit de référencement. Vous êtes maintenant équipé : vous avez les accès nécessaires et les outils requis. On va s'attaquer maintenant à la partie technique de l'audit. S'il est communément admis que la partie technique ne représente que 10 % des facteurs qui font qu'une référencement est réussi (les chiffres donnent 10 % technique, 40 % contenu et 50 % popularité, après on en fait ce qu'on veut hein...), c'est souvent ici qu'on pourra déjà repérer de nombreux facteurs bloquants ou ralentissants qui seront rapides à corriger et qui apporteront les meilleurs résultats à court terme.

I'm the crawling king snake

Avec des phrases pareilles, Jim Morrison serait certainement devenu référenceur. Le crawl est le passage obligé de tout audit SEO. L'idée est donc de crawler le site pour récupérer toutes les informations qui peuvent nous être utiles. Mais bien sûr, il va falloir crawler intelligemment :

  • un premier crawl sans paramétrage particulier
  • un second crawl en mettant en user-agent celui du moteur de recherche qui vous intéresse (ok, on se fait passer pour Googlebot)
  • un troisième crawl en désactivant le javascript, voire le CSS

Ça, c'est si on veut faire les choses vraiment bien. Dans les faits, la plupart du temps on ne fera qu'un seul crawl, qui mobilisera déjà beaucoup de ressources s'il s'agit d'un gros site. Comme indiqué dans l'article précédent, celui-ci va nous permettre de récupérer différentes informations :

  • les statuts HTTP des pages
  • le type de fichiers
  • le niveau de profondeur des pages
  • la construction des URL
  • le poids des fichiers
  • les directives robots
  • la présence de canonical
  • Etc.

Nous allons donc commencer par nous attarder sur chacun de ces points

Les statuts HTTP

Ce sont tout bêtement les statuts :

  • 200
  • 301
  • 302
  • 400
  • 401
  • 403
  • 404
  • 410
  • 500
  • etc. vous avez compris

Cette première analyse va nous permettre d'avoir un petit aperçu de ce que peut penser Google du site analysé : y a-t-il beaucoup de codes d'erreurs ? Existe-t-il des 302 qui mériteraient d'être des 301 ?  Des 404 ne peuvent-elles pas être gérées autrement, en 410 ou 301 par exemple ? Etc.

Pour cette analyse là comme pour beaucoup d'autres, un graphique est souvent bien parlant.

Graphique

Google Webmaster Tools vous propose également un listing des erreurs dans la rubrique État de santé ==> Erreurs d'exploration.

Le type de fichiers

Information peu pertinente vous allez me dire, et bien pas tant que ça ! Nous allons voir pourquoi dès maintenant, mais aussi un peu plus tard ;-) En effet, nous allons pouvoir repérer s'il y a certaines pratiques à revoir, comme plusieurs fichiers CSS ou javascript qui mériteraient d'être regroupés en un seul fichier, des formats d'images peu adaptés, etc.

Graphique fichiers

Si le site est 100 % Flash, vous aurez remarqué que vous n'avez qu'une seule URL qui est la page d'accueil. En effet le crawler ne saura pas suivre les liens, vous pouvez donc arrêter l'audit technique dès maintenant. Si seul le menu de navigation est en flash, vous pouvez continuer mais les résultats seront biaisés.

Le niveau de profondeur des pages

Comme vous le savez, plus les pages importantes sont en haut de l'arborescence, mieux c'est. Une analyse du niveau de profondeur permettra donc d'identifier des problèmes à ce niveau là : certaines pages sont-elles dans les tréfonds du site ? Combien y a-t-il de pages accessibles depuis la home ? Etc.

Graphique profondeur

En plus d'avoir une idée du nombre de clics nécessaires pour arriver à la page la plus profonde, cette information nous sera très utile lorsque nous évaluerons l'arborescence du site.

La construction des URL

Grâce au crawl vous avez la liste complète des URL sous la main, autant en profiter n'est-ce pas ? C'est le moment d'effectuer une petite analyse : sont-elles SEO friendly ? Contiennent-elles des paramètres ? Des ID de sessions ? Ont-elles une logique dans la construction ?

Le poids des fichiers

Pour des raisons de performances, vous savez que plus les pages et fichiers sont légers, mieux c'est pour l'internaute et donc pour Google. On va donc avoir ici un aperçu des performances du site, même si le poids des fichiers ne fait pas tout.

Graphique poids

Les directives Robots

Comme vous avez un bon crawler, celui-ci peut interpréter le code des pages mais également les en-têtes HTTP (et oui, sinon vous n'auriez pas pu avoir les statuts HTTP des pages). C'est le moment de jeter un oeil à ce que le site indique aux robots.

Globalement, ça se passe au niveau des balises meta robots (dans le code) et/ou des X-robots-tag (dans les en-têtes HTTP). On cherche ici à identifier des facteurs réellement bloquants comme une demande de non-indexation ou un non suivi des liens (typiquement les directives noindex et nofollow).

Mais les informations ne s'arrêtent pas là, on trouve par exemple des directives concernant la mise en cache des fichiers dans les en-têtes HTTP. C'est une vraie mine d'or, apprenez à les interpréter ;-)

Les canonical

J'aurais pu les mettre dans le paragraphe précédent mais je me suis dit soyons fou, parlons-en à part. Vous savez tous que les balises canonical indiquent aux robots que la page sur laquelle ils sont actuellement est la copie d'une autre page accessible depuis une URL différente.

Leur but étant d'éviter le contenu dupliqué, ou tout du moins de signaler à Google quelle page il doit mettre en avant lorsque plusieurs pages sont identiques, il est nécessaire d'y prêter attention. Les pages dupliquées ont-elles une URL canonique ? Cette URL existe-t-elle ? Est-elle bien accessible ?

L'arborescence du site

Vous avez déjà eu un aperçu en regardant la profondeur des pages, maintenant il ne reste plus qu'à vérifier que les pages importantes se retrouvent bien en haut de l'arborescence, qu'elles sont liées depuis d'autres pages importantes, que les pages qui convertissent (ou qui sont censées convertir) sont facilement accessibles, etc.

Si dans l'arborescence, les pages sont bien liées verticalement, le sont-elles également horizontalement ? Veillez à saisir toutes les opportunités concernant le maillage interne ;-)

D'ailleurs, qu'en est-il de la pagination ? Est-elle correctement mise en place ? Est-elle optimale ? Favorise-t-elle une réduction du niveau de profondeur de certaines pages ? Les balises rel="prev" et rel="next" sont-elles bien en place ?

Le Robots.txt

On va très vite passer sur ce point, l'important est simplement de vérifier, si le fichier existe, qu'il n'y a pas de restriction sur des dossiers ou des pages importants Au besoin, vous pouvez relire mon article sur le robots.txt.

Après avoir relu cet article, vous allez me dire "oui mais dedans tu dis que le robots.txt n'empêche pas l'indexation, donc même si elles sont bloquées elles pourront apparaître sur Google, non ?" Oui, mais comme Google ne les aura pas crawlées, il ne connaitra pas son contenu (balise Title, description, textes, etc.) et ne les proposera pas dans les premiers résultats de recherches. C'est aussi simple que ça ;-)

Google Webmaster Tools vous permettra de tester le robots.txt

Le Sitemap.xml

Je sais que beaucoup de référenceurs vous diront que le sitemap.xml n'est pas nécessaire. Pour ma part je suis un fervent défenseur de la présence de ce fichier, particulièrement lors d'un audit. Il permet notamment de répondre à ces deux questions :

  • Une page existe-t-elle dans le sitemap et n'est pas présente dans mon crawl ? Si la réponse est oui, alors cette page est orpheline. C'est mal ;-)
  • Une page est-elle présente dans mon crawl mais pas dans le sitemap ? Si la réponse est oui, ça signifie que que le sitemap n'est pas à jour.

Concernant la deuxième question, est-ce grave si le sitemap n'est pas à jour ? Foncièrement non, mais Google Webmaster Tools vous donnera des informations et des avertissements : existe-t-il une page listée dans le sitemap et qui est en même temps bloquée au crawl par le robots.txt ?

Le fichier .htaccess

S'il n'est pas nécessaire d'y avoir accès (et de toutes façons, il y a des risques pour que vous n'ayez accès que très rarement à ce fichier), le .htaccess peut tout de même se révéler d'une aide non négligeable. Celui-ci vous informera sur les directives données aux robots (comme vu plus haut, mais tout est sous les yeux), les informations sur la mise en cache (idem), sur la réécriture d'URL, etc.

Pour en savoir un peu plus sur le fichier htaccess, je vous recommande de lire cet article.

Les performances du site

Si le poids des fichiers et le .htaccess nous ont déjà renseigné sur ce point là, il peut être intéressant d'aller plus loin. Pour ça, plusieurs outils sont à notre disposition, et certains nous donnent même des conseils pour améliorer les performances :

Mis à part Google Analytics qui offre une vision générale, ces outils ne permettent une analyse que pour une page en particulier, ce n'est donc pas forcément viable pour un site entier, mais une fois que vous avez repéré des typologies de pages, il y a des chances pour que les autres pages du même type connaissent les mêmes problèmes que celle analysée. Vous me suivez ?

Le reste

Vous en avez déjà entendu parlé ailleurs donc je ne vais pas en rajouter une couche pour garder l'article digeste, mais il est important (ou parfois juste intéressant) de prendre en compte ces choses là :

  • l'âge du domaine (avec n'importe quel service de WhoIs)
  • le voisinage du domaine (avec YouGetSignal), sa localisation géographique
  • le type d'hébergement (dédié ou mutualisé)
  • le nombre de liens par pages (pas trop de liens internes ou externes, tout de même quelques liens externes)
  • la présence de liens en nofollow (à éviter s'ils pointent vers des pages importantes, à méditer s'ils pointent vers des pages peu importantes)
  • l'éventuelle duplication du domaine (le www est-il bien redirigé vers la version sans www, ou vice-versa ?)
  • la présence d'éléments cachés en CSS (à éviter bien évidemment !)

On arrive à la fin de la partie technique de l'audit SEO, ça avance bien non ? Mais ne croyez pas que c'est terminé, il nous reste encore pas mal de choses à voir ;-) Rendez-vous dès demain pour la suite de ce dossier avec l'audit de contenu. Vous avez hâte j'espère ?

Audit SEO : Le dossier complet
Pré-requis 
Audit technique (cet article)
Audit de contenu
Analyses statistiques
Audit de visibilité
Audit de liens
La vision sociale
Et après ?

Catégorie Référencement | Thématique .

23 réponses à 2ème partie : Audit SEO – Technique

  1. vincent says:

    Mais c’est bon tout ça, le week-end commence bien!
    Je vais pouvoir mettre en place mes outils d’audit au fur et à mesure de vos dossiers,
    merci pour cela.

  2. Thomas Cubel says:

    Bonjour,

    Merci pour cette deuxième partie concernant l’audit SEO. C’est très intéressant de pouvoir comparer les points de chaque consultant SEO. Pour ma part, je peux pas trop prendre de recul en ce qui concerne le sujet « complet/pas complet » car je n’ai fais que très peu d ‘audit pour l’instant. En tout cas, ça me rassure de voir que j’ai actuellement tous ces points. Même si j’en ai un peu plus (heureusement d’ailleurs =D)
    Merci encore et bonne continuation ! J’attends la suite !

  3. Fred says:

    Tres bon article, j ai hate d avoir la suite, si tu continues ainsi il ne restera plus qu a relier le tout et que t en fasse un bouquin pratique pour tout bon seo.
    A reflechir.

  4. Jérémy says:

    Un grand merci pour ce dossier !

    Il serait possible d’avoir des exemples d’outils à utiliser ? Pour savoir ceux que vous conseillez. Ce serait sympa pour les novices :)

    Bonne continuation,

    J’attends la suite :)

  5. Hug0b says:

    Whaou, vraiment complet comme article. J’attends avec impatience la suite des épisodes, vraiment intéressant et très bien expliqué. Si tu présentes quelques outils pour réaliser l’audit dans de bonnes conditions, je suis preneur.

  6. nicolas terraes says:

    Merci, j’ai plus qu’a bosser la dessus!

  7. Arnaud says:

    Salut Sylvain,
    J’utilise à peu près la même méthode, je pense que si l’on respecte tout les points on passe sur tout les freins au référencement. Le plus dur étant maintenant de trouvé une solution technique adapté à la structure du site, au moyen du client à et à la technicité de la chose.

  8. rocketSEO says:

    ah voilà! la on reste beaucoup moins sur sa faim par rapport au pré requis!! c est beaucoup plus complet et cela satisfera d autant plus le besoin d exhaustivité des referenceurs.

    J ai hâte de lire la suite !

  9. Personnellement, tu utilises quel crawler pour récupérer toutes ces informations facilement ? Xenu ? Screaming Frog ?
    Ah mais n’aurais tu pas ajouter un nouvel article depuis hier dans le sommaire « la vision sociale » ?

    J’ai déjà lu sur des sujets à troll, que les SEO utilisais leurs outils et avaient un audit et faisait payer ça une fortune. (Surtout pour l’audit technique) Pour certains points ils n’ont pas tord, mais ce qui est important, ce n’est pas de dire : tiens j’ai repéré x pages 404, X balises canonical, etc… mais savoir, si leur présence est justifié, si non quels sont les solutions adaptés. Parfois, même si leur présence est justifié, il se peut qu’il y est une meilleure solution à appliquer.
    Bref, c’est l’analyse qui demande vraiment des compétences.

  10. Véronique Duong says:

    Bonjour !! Merci d’avoir pris le temps de rédiger un tel article ! Les audits SEO, c’est mon quotidien, et les piqûres de rappel sont les bienvenues de temps en temps ;)

  11. Matthieu says:

    Vraiment sympa d’avoir une méthodologie comme ça, j’avoue que j’ai plutôt tendance à avancer sans plan précis. J’ai un peu de mal avec le canonical aussi, je me demande vraiment s’il pas mieux carrément supprimer le contenu dupliqué ?

    Pour les outils, je pense que le résumé des 20 outils du SEO camp est une bonne base ;) . Pour le crawl perso, j’aime bien xenu, c’est simple et ça fait ce qu’on demande.

    @lereferenceur: Je pense qu’il n’y a jamais qu’une seule bonne analyse, chacun peut avoir une perception des choses différentes et les stratégies seront surement aussi différentes.

    Vivement la suite ;)

  12. stef says:

    Merci pour cet article de qualité, comme certains commentaires plus haut, auriez vous des logiciels a conseiller pour le crawl ?

    Et pour le niveau de profondeur, a partir de combien trouvez vous cela élevé ? Même si je sais déjà que vous allez me répondre que ça dépend du site… Mais en moyenne ?

  13. jessyseonoob says:

    Super, ces articles, mais j’ai loupé la rubrique outils, tu fais tes graphiques avec quoi, tu utilises quoi pour le crawler et quoi pour le reporting ?

  14. Nicolas says:

    Pour évaluer les performances de mon site j’utilise surtout GtMetrix qui est bien pratique.

    Je ne sais jamais quoi mettre dans mon sitemap du coup je n’en fais plus (quand il s’agit d’un site avec des milliers de pages), c’est grave docteur ?

    Vivement la suite de ce dossier.

  15. Aurélien says:

    Hello Sylvain,

    Ton « dossier » est très bon. J’avais également fais un billet complet sur l’audit, qui marche plutôt pas mal, étant confortablement installé à la 1ère place sur la requête « Audit SEO ».

    Oui mais…

    Je dois te confesser une chose : si ce genre de billet exhaustif et détaillé ramène pas mal de trafic, au niveau des « retours » c’est plutôt très mauvais. Je te fais un copier coller du paragraphe que j’ai inséré dans mon article sur l’audit seo, inutile de le paraphraser pour expliquer le fond de ma pensée.

    Après mûres réflexions, j’ai pris la décision de retirer certains points de contrôle de la checklist ci-dessous. En effet, je constate avec le recul qu’en donnant la recette complète de l’audit (technique), beaucoup de personnes « naïves » pensent pouvoir analyser leur site par elles-mêmes, et prendre les bonnes directives qui s’imposent. Or si un bon audit technique doit effectivement se reposer sur une bonne checklist, le travail d’analyse et d’interprétation repose sur des éléments fondamentaux comme l’expérience, le savoir-faire, la faculté d’anticipation, la perception des algorithmes de Google, et j’en passe. Bref, c’est une affaire de professionnels.
    Ceux qui espèrent avoir la recette de l’audit « tout cuit », n’y trouveront certainement pas leur compte, et surtout cela fait du tort à mon business, et à celui de mes confrères. L’expertise et le conseil cela se paie, et c’est ce qui me fait vivre.

    Bref, je me rends compte que ça ne rend pas service aux bonnes personnes. Après chacun voit midi à sa porte ;)

  16. Jessy Grossi says:

    @noviseo : Checklist assez complète. C’est une bonne base même si il faut savoir interpréter avec justesse les résultats obtenus. Et pour ça, les études de cas sont toutes différentes. Ce serait compliqué d’en faire un article…

    Cependant, je ne suis pas bien sûr d’un point : « le www est-il bien redirigé vers la version sans www, ou vice-versa ? ».
    N’est-on pas censé rediriger une adresse sans www vers www pour justement éviter le duplicate content sur le domaine ?

    @lereferenceur : Utilise une première fois Xenu pour récupérer ta liste d’URL que tu soumets ensuite à Screaming Frog pour plus de variables. Voir la méthode.

  17. Sylvain says:

    @Tous ceux qui demandent : l’objectif de ce dossier n’était pas de faire une liste d’outils, au final vous les connaissez tous plus ou moins, je ne vais pas vous apprendre grand chose. Mais comme ça a l’air de vous tenir à coeur, je ferai une petite liste pour le dernier article…

    @leréférenceur : en effet, ce qui est présenté dans ce dossier sont simplement les points à vérifier, après il y a tout un travail de réflexion concernant les précos à apporter.

    @stef : comme tu le pressentais, je vais te répondre que ça dépend, et je ne peux même pas te donner une moyenne =) Sur un site énorme, 5 clics de la home est pas mal (on peut par exemple trouver mon nom sur Facebook à 6 clics de la home, sans être connecté), sur un petit site, 2 clics est peut-être déjà trop.

    @Nicolas : à toi de voir le degré d’importance que tu donnes au sitemap ;-)

    @Aurélien : je t’avoue que je n’avais pas pensé à ce biais là :s Pour l’instant, je laisse comme ça, mais peut-être que d’ici quelques semaines je prendrai la même décision que toi ;-)

    @Jessy : au final peu importe, que ce soit la version sans www qui soit redirigée vers celle avec www, ou celle avec qui soit redirigée vers la version sans ; ce qui compte c’est qu’il y ait une redirection en place ;-) Par exemple Noviseo est redirigé vers la version sans www et le blog s’en sort pas trop mal je crois =)

    PS : tu aurais pu mettre l’exemple de mon article qui explique comment utiliser Screaming Frog gratuitement :D http://noviseo.fr/2012/12/utiliser-gratuitement-screaming-frog-seo-spider/

  18. Lionel says:

    Comme nicolas, j’utilise GtMetrix. C’est gratuit et ça suffira à la plupart des webmasters à mon avis: cela met en avant les problèmes de caches, de css/js multiples, d’images non optimisées… etc, qui sont pour moi les paramètres les plus importants.
    Pour le niveau de profondeur des pages, j’avoue que je ne m’y intéressait pas alors que c’est surement important, je vais faire un effort dans le futur :)

  19. Heda says:

    waaoouuw merci pour cette suite encore plus intéressante, la suite est bien à la hauteur de l’article précédent contenant les pré-requis. merci

  20. Monica says:

    Allez pour le suspens de la checklist, je fais monter Web Site Auditor dans le hit-parade. Du moins j’essaye.
    Par contre effectivement, ce ne sont pas les outils qui font les artisans.
    Je m’interrogerais plus sur le mystère de la construction des URL, en espérant un développement de plus de 5(0) lignes…
    A+

  21. Jerome says:

    Par curiosité, tu utilises quoi pour voir les niveaux de profondeur des pages d’un site ? Idem pour le poids des fichiers même si j’en vois assez peu l’utilité pour le client. Screaming Frog fait tout ça ?

  22. Sylvain says:

    @Jérôme : yep, Screaming Frog fait tout ça :)

  23. www.raklink.net says:

    article vraiment interessant, moi qui fais un ancien referencement, je vois que ça a pas mal evoluer, et il faut aller de l’avance
    merci encore

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Veuillez utiliser votre nom ou votre pseudo. Tout commentaire ne respectant pas cette règle verra son lien supprimé.