Comment se débarrasser du contenu dupliqué ?

Le contenu dupliqué version caféLe contenu dupliqué (duplicate content en anglais, DC pour les intimes) fait partie des principaux problèmes que l’on peut rencontrer lorsqu’on souhaite positionner son site sur les moteurs de recherche. Il faut l’éviter à tous prix. Mais comment y arriver ?

Pas de paniques ! On va commencer par distinguer les différents types de contenus dupliqués, l’impact du DC sur le référencement et les moyens pour l’éviter.

Trois types de contenu dupliqué

Mais d’abord, c’est quoi le contenu dupliqué ? C’est tout simplement le fait de retrouver le même texte à plusieurs endroits différents sur la toile. Le contenu dupliqué se divise en trois grands thèmes :

Le duplicate content interne : vous avez une même page sur votre site web accessible via plusieurs URLs. Vous n’avez pas besoin d’aller chercher bien loin, jetez un oeil à www.votresite.com et à www.votresite.com/index.html... Résultat ? Google (qui n’est qu’une machine) ne se rend pas compte qu’il s’agit de la même page, mais il comprend bien qu’on retrouve le même texte via deux adresses différentes.

Le duplicate content externe : celui-là est fourbe, il s’agit purement et simplement de vol de contenu, du copier-coller tout bête. Un de vos concurrents a sûrement pensé que vous aviez une belle prose et qu’il ne pourrait faire mieux, alors il a récupéré votre joli texte. Ce concurrent n’a en général pas de chance, puisque ce sont toujours ses stagiaires qui font cette erreur, il n’est jamais au courant. Et mon oeil ?

Le contenu partiellement dupliqué : celui-ci peut être à la fois interne et externe. En interne, le contenu partiellement dupliqué apparait souvent avec les blogs : vous écrivez un article et la page d’accueil en reprend un extrait, il y a bien du duplicate content partiel. Vous avez plusieurs fois le même title ou la même meta description sur plusieurs pages de votre site ? Là encore, c’est du contenu partiellement dupliqué ! Et bien évidemment, un de vos concurrents (ou son stagiaire) peut encore voler une partie de votre texte (mais quelle idée vous avez d’écrire si bien, aussi ?)

L’impact du contenu dupliqué sur le référencement

Bon, on ne va pas vous le cacher plus longtemps, Google n’aime pas le contenu dupliqué. S’il détecte du DC, il va très vite sortir les sanctions.

Pour vulgariser, dans le cas de duplicate content interne, Google ne va pas savoir quelle page proposer à l’utilisateur parmi les deux (ou plus) pages dupliquées à l’intérieur de votre site. Il va donc en choisir une plus ou moins au hasard mais ne va pas la proposer dans les premiers résultats puisqu’il a un doute. Votre site sera donc relégué à une position bien inférieure et l’internaute cliquera sûrement sur un des premiers liens proposés dans la SERP.

Concernant le DC externe, le choix est beaucoup plus simple pour Google. Votre concurrent et vous-même avez chacun une page avec le même contenu. Google va comparer les deux sites et proposera à l’internaute celui qui possède le plus d’autorité. Aucun soucis donc si votre site est déjà bien installé par rapport à celui de votre concurrent, mais si c’est Le Monde qui récupère votre texte, c’est une autre histoire... Google ne s’embête pas à savoir qui a publié le contenu en premier. Il reconnait seulement celui qu’il a crawlé en premier.

Comment éviter le duplicate content ?

Il existe plusieurs façons de se débarrasser du contenu dupliqué en fonction du type de DC.
S’il s’agit de duplication interne, parce qu’une même page est accessible par différentes URLs par exemple, il va falloir commencer par repérer quelles pages sont dupliquées. Rien de plus simple : la plateforme Webmaster Tools de Google propose un outil qui met en exergue le contenu dupliqué. Une fois vos pages dupliquées repérées, vous pouvez mettre en place la balise canonical qui indiquera à Google quelle page est la page d’origine. Elle se présente de cette manière :

Dans le cas où la page d’accueil est accessible via plusieurs URL (comme dans l’exemple cité précédemment), je préconise une redirection 301 vers la page principale plutôt qu’une simple canonical.
Dans le cas d’une duplication externe, plusieurs outils gratuits sont disponibles pour repérer le contenu dupliqué comme Positeo, Plagium ou encore Copyscape. Une fois le plagiat repéré, il va falloir contacter le plagiaire. Tout est bon, l’e-mail, le courrier, le téléphone, etc. Pensez à faire des captures d’écrans de la page dupliquée et de votre page originale, ça peut toujours aider. Vous pouvez également signaler un vol de contenu auprès de Google via un formulaire prévu à cet effet. Si le voleur de contenu ne veut pas retirer son texte, vous pouvez toujours lui envoyer un petit recommandé en provenance de votre service juridique, ça fait toujours son petit effet.

Conclusion

Si vous êtes victime de duplication de contenu, qu’elle soit interne ou externe, ne vous inquiétez pas, les solutions existent bel et bien ! Évidemment, le meilleur moyen est d’éviter le DC dès le départ, ce qui est plus facile en interne. Dans le cas où vous êtes plagié, regardez le bon côté des choses : votre travail est reconnu et de qualité ! Comment ça, ça n’aide pas à faire passer la pilule ? C’est vrai, je vous l’accorde, mais il faut rester positif !

À lire également :
Écrire pour le web c'est communiquer
Référencer son site - rédiger les textes

Catégorie Référencement | Thématique .

33 réponses à Comment se débarrasser du contenu dupliqué ?

  1. Valentin says:

    C’est une très bonne idée… C’est vrai que le duplicate content est un « fléau » pour les webmasters… Moi j’ai opté pour une méthode personnelle assez efficace mais je testerais la votre aussi.

  2. marie says:

    Article sympa, je ne savais pas qu’en cas de duplicate interne, google rabaissait les deux pages. Je pensait que seule la page la plus populaire était gardée. Une info de plus dans le monde changeant du seo. Bonne continuation !

  3. Lucca says:

    Merci des conseils, je vais tout de suite les mettre en pratique. Comme le dit Valentin, le DC est un vrai fléau qu’il faut éviter absolument.

  4. Florian says:

    Hello Sylvain, très bon article comme d’habitude. Je me souviens en avoir rédigé un sur le même sujet pour présenter un outil qui ne fonctionne plus aujourd’hui. Ça s’appelait UN.CO.VER c’était un logiciel qui détectait les 3 types de DC, une vraie machine de guerre qui malheureusement n’existe plus.

    Sinon Aymeric a récemment développé un script de détection + générateur de mails de demande suppression qui fonctionne pas trop mal aussi : http://goo.gl/qkUJP

    Pour finir, il y a Lemoussel (dont c’est l’anniversaire aujourd’hui) qui va prochainement vendre un Plugin WP qui permettra de détecter automatiquement si un contenu est dupliqué. En somme un outil indispensable pour les blogs multi éditeurs type communiqués de presse, etc.

  5. Tristan says:

    Bienvenue sur Google… Heum, heum…
    Excusez moi mauvaise manipulation du contrôle-C / contrôle-V.
    Bon trêve de rigolade, c’est vrai que c’est assez impressionnant de voir à quel point les textes sur internet sont dupliqués, le pire c’est qu’on retrouve, à la manière du téléphone arabe, le même texte dupliqué sur plusieurs site qui au final n’a plus rien à voir avec l’original.

  6. Germain says:

    Merci Sylvain pour encore une fois un excellent article agréable à lire.
    Le contenu dupliqué est une réelle problématique désormais avec les dernières MAJ de Google.
    C’est vraiment dur d’y lutter déjà entre les pages de son site lorsqu’on a de nombreuses pages (notamment sur un site e-commerce) mais c’est encore plus difficile de le gérer quand on se fait piquer son contenu (merci au passage pour les 2-3 astuces ;) ).

  7. Germain says:

    Tu aurais pu aussi mentionné DupeCop qui est un excellent outil pour analyser le contenu dupliqué entre plusieurs pages en même temps.

  8. Sophie says:

    Il faut bien préciser que la duplication de contenu massive peut faire des dégâts fous sur un site jeune qui vient de lancer.

    Si l’on faisait la même chose sur fnac.com, ça serait moins vrai.

  9. Minh Chau says:

    Bonjour,

    Très bien ce billet ! Personnellement je dois lutter au quotidien pour lutter contre le contenu dupliqué interne. Je fais le maximum mais c’est un exercice très difficile après une insertion de 500 fiches immobilières. Même chose pour la création des balises « title », « h1″ etc…

  10. Sylvain says:

    @Valentin : par curiosité, quelle est ta méthode ? On sait jamais elle est peut-être meilleure que celles-ci ;)

    @Marie : j’en fait l’expérience actuellement en fait, j’aide une webdesigner à se positionner, certaines pages ont des title dupliqués et malheureusement je n’ai pas la main sur le code. Du coup, je ne boostais qu’une seule de ces pages, tout allait plutôt bien jusqu’à ce que Google indexe les autres pages avec le même title, du coup la page est passée de la 3ème à la 9ème page de résultats sur l’expression visée :/

    @Florian : en effet, dommage qu’il n’existe plus ! Tu as une idée de la raison, ou si on a des chances de le redécouvrir ? J’avais vu passer l’article d’Aymeric et je n’y avais pas prêté attention plus que ça puisqu’à l’époque je n’étais pas touché par le sujet, maintenant je vais sûrement m’y intéresser de plus près ;)

    @Germain : encore, pour le DC interne on a quand même pas mal de possibilités pour le « régler », surtout si on a la main mise sur le code, mais c’est vrai que pour le DC externe, c’est une autre paire de manche. Je ne connaissais pas DupeCop, je vais y jeter un oeil !

    @Sophie : je n’ai jamais pu le vérifier mais je pense que tu es dans le vrai, un site déjà bien en place craint sûrement moins ces problèmes.

  11. jeremy says:

    En effet le DC est vraiment le fléaux de ces derniers mois. Les outils en lignes cités dans l’article sont vraiment très bien, je n’en connaissais pas la motié. Je vais les bookmarké tout de suite !
    Merci des infos !

  12. lionel says:

    Bonjour Sylvain,

    L’article est très bon mais j’aurais souhaité que tu traites la duplication de contenu concernant deux langues différentes. Je souhaiterais connaitre ton avis sur 2 sites Web (1 sur ip us et l’autre sur ip fr) ayant quasiment le même contenu (même traduction).

    J’ai posé cette problématique à plusieurs SEO et je n’ai pas toujours les mêmes réponses.

    amicalement

  13. Sylvain says:

    @Lionel : Bonjour à toi, malheureusement je ne peux pas réellement t’aider sur le sujet puisque je n’y ai jamais été confronté. Dans l’idéal il vaudrait mieux ne pas avoir le même contenu sur les deux sites mais je sais que ce n’est pas toujours évident (budget ou envies du client). Peut-être qu’une solution possible serait de faire une canonical sur chaque page du premier domaine vers le second où le second disposerait d’une redirection vers lui-même ou vers le premier domaine en fonction de l’IP de l’utilisateur, mais ça me parait lourd comme solution. Quelles sont les réponses qui t’ont été proposées ?

    Quoique si les langues sont différentes, il ne devrait pas y avoir de problème, si ?

  14. lionel says:

    @Sylvain

    Personnellement j’optimise ce type de projet de la manière suivante : Je prends 2 ip (ex : ip us et ip fr) distinctes, 2 noms de domaine différents (1 pour chacune des langues) et 2 hébergeurs distincts (ex:ovh et dreamhost).

    Ensuite, j’évite la traduction Google et j’essaye de varier les contenus des colonnes de gauche ou de droite. Par contre, je garde les mêmes contenus traduits (title, h1, h2, p, …) des fiches produits où des fiches services sur les sites respectifs.

    amicalement

  15. Najat says:

    Article très intéressant. Moi même je suis victime du DC externe vu que d’autres sites prennent mon contenu mais j’essaye de « positiver » comme le suggère l’article parce que en tout cas sa prouve qu’on existe et qu’on nous observe.

  16. Maelly says:

    Le contenu dupliqué c’est quelque chose qui est souvent peu pris au sérieux et qui joue des mauvais tours la plupart du temps.
    Le plus dangereux c’est lorsqu’un site possède plusieurs noms de domaine et qu’aucune redirection n’est effectuée.
    En tout cas ton article est un excellent résumé.
    Petite question : le duplicate content externe est-il réellement dangereux pour le site qui a publié le contenu en premier ?

  17. Loic Helias says:

    Bien vu l’article Sylvain !
    Pas toujours évident de faire face au contenu dupliqué, d’autant que je suis tout à fait d’accord avec toi sur l’autorité du site et le duplicate.
    Je crois que 512 avait proposé une solution sympa il y a quelques temps avec une astuce de symbole russe ou je ne sais quoi.
    Perso, je n’avais pas testé, n’étant pas confronté à ce problème.
    Bonne soirée
    PS: je vais lancer un site de CP: smo4seo.com et je vais certainement en profiter pour tester ton thème seo friendly.

  18. xain says:

    Il faut se méfier des boutiques en ligne pour ça. J’en ai eu un paquet avec prestashop et les paramètres d’ordre de produits (par prix, date, ascendant, descendant), de numéros de pages, les pages accessibles par plusieurs url (avec ou sans la catégorie dans l’url).. Il faut apprendre à bien configurer Webmaster Tool pour ça, il m’a fallu du temps pour trouver la solution..

  19. Sylvain says:

    @Najat : J’ai été confronté à ce cas pas plus tard que cette semaine (d’où la publication de cet article), une prise de contact a suffit à faire supprimer l’article. Si jamais ça ne suffit pas, légalement le plagiaire n’est pas en règle, n’hésite pas à sortir cet argument ;) Plusieurs articles en parlent sur le blog AxeNet.

    @Maelly : Les sites qui m’ont plagié n’étaient jamais de gros sites donc je n’ai aucune certitude, mais j’imagine que si on retrouve un de tes textes sur Wikipedia, on le trouvera bien avant toi dans les résultats Google ;) Après, s’il s’agit d’un petit site pas forcément trusté, j’imagine que les risques sont moindres.

    @Loic : J’avais vu passer la solution de 512banque en effet il y a un petit moment, je n’ai pas testé non plus, mais pourquoi pas ? N’hésite pas pour le thème, il est là pour ça ;)

  20. Marc says:

    moi mon problème vient de certains annuaires qui me refusent des descriptions de mon site en prétextant du duplicate content alors que je les écris personnellement et que je sais donc pertinemment que chaque description est unique. Parfois je change 3 mots et ça passe, parfois je réécris plusieurs fois une nouvelle description et ca bloque toujours…je ne comprends pas comment ils procèdent pour affirmer cela…

  21. William says:

    Comme quoi cette licence sert de temps en temps à quelquechose ; ).

    Sinon saurais-tu comment on met une canonical sur un tumblr ?(j’ai repris des chroniques de disquesque j’avais posté pour les mettre sur le blog de l’asso Punk rock Mighty Worm que l’on bosse en p TUT)

    Parceque malgré mes nombreuses requêtes Google je n’ai pas trouvé la solution voulue.

  22. Simon says:

    Pas toujours simple de contacter l’auteur du site, car la majorité des plagieurs vont cacher au max leur identité. Merci pour cet excellent résumé en tout cas :)

  23. Sylvain says:

    @William : Après avoir cherché un peu de mon côté également, je n’ai pas trouvé la solution :/

  24. William says:

    Merci quand même !

  25. Marc says:

    La lutte contre le DC est un vrai calvaire… Après avoir épuisé toutes les solutions évoquées ici (sans effet) j’ai fini par me résoudre à réécrire mon contenu.

  26. jul says:

    Merci pour cette méthode, je pense la tester rapidement, en effet le contenu dupliqué est un vrai fléau sur le net

  27. eric says:

    Le DC mais quelle plaie, la preuve aujourd’hui, 8 articles de mon site ont été copiés/collés sur un autre site mais problème résolu dans les heures suivantes. Par contre pour le DC interne et pour éviter le DC Duplicate en général lorsque l’on écrit un article, un outil appelé Uncover était super bien mais malheureusement il ne fonctionne plus, si quelqu’un en connait un du même genre ça serait cool de le partager.
    L’entière originalité à quand même une limite ?

  28. Est ce que vous pourriez donner la balise canonical type s’il vous plait ?
    Car j’ai quelques problèmes avec le duplicate contente interne et dont j’aimerais m’en débarasser. Merci.

  29. Sylvain says:

    @My Dream Lingerie : La balise canonical se place entre les balises « head » dans le code HTML et se présente sous cette forme :

    En espérant avoir répondu à votre question :-)

  30. Anthony says:

    Merci pour les conseils, les sites de détection de DC.
    Perso j’utilise celui de positéo pour gérer boost your web et Google aussi.

    Existe t-il un moyen de vérifier tout un site ?
    Je contrôle aléatoirement de temps en temps quelques fiches mais jamais toute, j’en aurai pour des jours !

  31. Valériane says:

    Bonjour,

    Bon article, toutefois il ne répond pas entièrement à ma question.

    Je souhaite effectivement savoir l’impact que le contenu « presque » dupliqué a d’un point de vue SEO.

    Voilà, je publie sur mon site des informations pour les étudiants.
    Pour rendre cette information plus engageante pour les lecteurs, j’ai dupliqué le même article en changeant le lieu géographique.

    Par exemple, j’ai plusieurs articles qui changent comme ça : « Arizona students financial aids », « Illinois students financial aids »…etc
    Le contenu des articles lui ne diffère que par le nom des lieux géographiques mentionnés plusieurs fois dans l’article.
    Les mots clés de l’article changent bien sûr car j’espère que Google les affichera aux personnes qui recherchent de l’information dans leur région.

    Est-ce que cette méthode de faire est recommandée? Est-ce que Google va bien afficher mes articles aux personnes qui recherchent des informations avec la région?

    Merci pour votre réponse.

  32. location voiture says:

    Pas si simple dans le cas d’un contenu externe donc, procès si le webmaster du site en face qui vous a piqué votre texte ne veut rien savoir. Ce que je ne comprends pas c’est pourquoi google ne prend pas la date de création de son indexe … bien que de toute façon si c’est le monde, il sera indexé avant. grosse galère.
    PS je pense pas que le monde s’ »amuse » a de telles pratiques.

  33. walter says:

    Bonjour , merci pour cet article intéressant , je suis certainement concerné par la duplication car je tiens deux blogs en même temps , un sur wordpress et un sur blogspot . Sur le premier je présente mes peintures et sur le deuxième mes photo-montages , deux activités assez proches , et dans mes posts je fais souvent référence à mes débuts . Seulement voilà , je préfère bien distinguer ces deux activités et c’est pourquoi j’ai deux blogs . Mais je me pose la question du référencement et de la duplication …

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Veuillez utiliser votre nom ou votre pseudo. Tout commentaire ne respectant pas cette règle verra son lien supprimé.