Prévenir une duplication interne de contenu en SEO

Le contenu appartient aux trois principaux leviers du SEO, avec la technique et le netlinking. Les algorithmes se nourrissent de mots-clés et sélectionnent en première page les contenus jugés les plus pertinents, les plus intéressants et les plus fiables. Pour chaque requête, Google et ses concurrents doivent proposer des résultats variés pour répondre à une intention de recherche dans toute sa complexité. Un internaute, en effet, ne souhaite pas consulter dix pages similaires, mais obtenir dix propositions qui répondent à ses besoins, dont les informations se recoupent parfois, et se complètent souvent.

Parfois, un même site peut proposer sur plusieurs pages un contenu identique ou tout du moins similaire, pour des raisons techniques ou plus rarement une volonté éditoriale. Il est important de savoir que la duplication interne de contenu peut poser plusieurs problèmes en référencement naturel.

Une duplication interne d’origine technique

Plusieurs problèmes techniques peuvent expliquer une duplication interne de votre contenu, qui aura une conséquence péjorative sur votre référencement naturel.

Versions HTTP et HTTPS

Une mauvaise configuration peut entraîner une coexistence entre les versions HTTP et HTTPS de vos pages web. Les algorithmes des moteurs de recherche pourraient par exemple indexer à la fois les URL suivantes :

  • https://www.monsite.com/mapage.html
  • http://www.monsite.com/mapage.html

Une redirection 301 peut résoudre ce problème. Vous pouvez aussi compléter votre action par l’utilisation d’une balise <link rel=”canonical”>.

Versions avec et sans WWW

De nombreux sites sont disponibles par défaut avec le sous-domaine www (pour World Wide Web) : par exemple, https://www.monsite.com. Mais vous pouvez aussi ne pas en adopter, et proposer par défaut votre site à l’adresse https://monsite.com.

Une duplication interne est possible si une même page web est par exemple accessible aux adresses suivantes :

  • https://monsite.com/mapage.html
  • https://www.monsite.com/mapage.html

Une redirection 301 et l’utilisation d’une balise <link rel=”canonical”> peuvent là aussi résoudre ce problème.

Mauvaise gestion de la réécriture des URL

Sur certains CMS ou frameworks, ou lors de développements sur mesure, vous pouvez mal optimiser la réécriture de vos URL. La page est affichée quel que soit le contenu de l’URL, tant que l’identifiant unique est bien présent. Par exemple, on peut afficher le même contenu avec les URL suivantes :

  • https://monsite.com/mapersonnalisationofficielle-12345.html
  • https://monsite.com/blablabla-12345.html
  • https://monsite.com/ilyalongtemps-12345.html

Une erreur de lien interne, une personne mal intentionnée peuvent dupliquer certaines pages ou l’ensemble de votre site Internet.

Un correctif technique doit être appliqué par votre développeur web.

Mauvaise gestion des slashs en fin d’URL

Vous devez vous assurer que les moteurs de recherche n’indexe pas en double les URL avec et sans slash à la fin :

  • https://www.monsite.com/mapage/
  • http://www.monsite.com/mapage

Ici aussi, une redirection 301 et l’utilisation d’une balise <link rel=”canonical”> peuvent résoudre ce problème.

Vous serez attentif à utiliser dans vos menus la bonne URL. Par exemple, si vous retenez la version https://www.monsite.com/mapage/, vous mettrez dans votre menu l’adresse de la page avec slash à la fin.

Indexation des filtres et des tris

Un site web peut proposer à ses utilisateurs des fonctionnalités de tri ou de filtrage pour faciliter l’accès à certains pages ou certains produits. Mais le risque SEO est sérieux, si ces filtres ou ces tris peuvent être explorés et indexés par les moteurs de recherche. Il en résulterait de nombreuses pages très similaires, quasiment vides ou renvoyant dans un ordre différent les mêmes contenus. Les sites e-commerce sont particulièrement concernés par ce risque de duplication.

Vous devez bloquer l’exploration et l’indexation de ces pages filtrées ou triées pour éviter un risque de cannibalisation interne.

Indexation des pages de recherche interne

Certains sites proposent un moteur de recherche interne. Parfois, chaque requête génère une nouvelle URL. Vous risquez de vous retrouver avec des contenus (trop) similaires avec des pages existantes. Par exemple :

  • https://www.lemonde.fr/economie-mondiale/ (catégorie)
  • https://www.lemonde.fr/recherche/?search_keywords=economie+mondiale (recherche interne)

La meilleure stratégie consiste à bloquer l’indexation de ces pages.

Une duplication interne d’origine éditoriale

La gestion de votre stratégie éditoriale peut aussi provoquer une duplication ou une cannibalisation, avec des conséquences sur votre référencement naturel.

La création d’une page trop similaire à une page existante

Sur des sites où interviennent plusieurs rédacteurs, ou sur de gros sites, il peut arriver de créer une nouvelle page sans vérifier si d’autres contenus similaires n’existent pas. Par exemple, un site sur le tourisme à Paris peut créer une page de blog destinée au Musée des Invalides, alors qu’elle dispose déjà d’une page catégorie avec une offres d’excursions qui se positionne.

Afin de préserver votre SEO, je vous conseille de toujours vérifier si votre site accueille déjà une page sur cette thématique, et si celle-ci se positionne. Vous éviterez ainsi une cannibalisation en multipliant les pages qui travaillent la même expression.

Vous pouvez utiliser un outil spécialisé, ou simplement utiliser Google avec la commande de recherche site:

Vous aurez alors plusieurs options :

  • travailler l’URL existante sur l’expression ciblée (et ne pas créer de nouvelle page) ;
  • repositionner l’URL existante sur une nouvelle expression, et créer un nouveau contenu sur l’expression ciblée ;
  • créer un nouveau contenu, et rediriger l’ancien contenu.

Des pages qui partagent un même texte

Des annonces injectées, des pages de catégories peuvent partager un même texte. Le risque d’une duplication interne est alors réel. Plusieurs solutions sont possibles :

  • empêcher l’indexation des pages trop similaires (notamment conseillé si elles sont très vides et très nombreuses) ;
  • diversifier le contenu des pages similaires et réduire ainsi la similarité par l’agrégation de contenus ou de liens de votre site, l’ajout d’un texte unique, etc.

En fonction de la taille de votre site web et de vos ressources, vous devrez adopter la meilleure stratégie. Par exemple, injecter un texte unique est difficile, voire impossible, si votre site web compte des milliers de pages. Le content spinning peut alors vous aider, à condition que ce soit bien fait !

Éviter la duplication : les solutions SEO

Différentes solutions techniques et astuces vous permettent d’éviter une duplication. Voici les techniques que vous pouvez utiliser. N’hésitez pas à vous faire accompagner par un professionnel du référencement !

Google Search Console pour identifier les pages en double

Le rapport Pages en double sans URL canonique sélectionnée par l’utilisateur disponible dans la partie Couverture => Index de Google Search Console vous permet d’identifier des problèmes de duplication que l’on peut résoudre avec une balise <link rel=”canonical”>.

La redirection 301

Le code HTTP 301 permet de prévenir un navigateur web (ou un moteur de recherche) qu’une URL a définitivement changé de place. Vous pouvez configurer une redirection 301 de plusieurs façons :

En ajoutant une ligne dans le fichier .htaccess, vous effectuez une redirection d’URL à URL :

RedirectPermanent /vieille-page.html http://www.exemple.net/nouvelle-page.html

En installant une extension dans votre CMS préféré :

Vous pouvez aussi, toujours par le fichier .htaccess, ajouter des règles de réécriture grâce à RewriteEngine On. Ces règles de réécriture permettent de rediriger par exemple automatiquement la version http vers https, ou la version sans WWW vers la version avec WWW (ou l’inverse).

Des extensions peuvent répondre à ces problématiques.

La balise <link canonical>

Pour l’Église catholique, on distingue les 4 évangiles canoniques des évangiles apocryphes. Les évangiles canoniques sont reconnus par les autorités ecclésiastiques, et les apocryphes sont sujets à caution.

La balise canonical fonctionne de la même façon. Quand plusieurs URL partagent un même contenu, elles accueillent toutes entre les balises <HEAD></HEAD> la même balise <link canonical>. Ainsi, un moteur de recherche sait quelle page web il doit explorer et indexer.

Par exemple, les pages A, B et C partagent un contenu similaire, et vous voulez indexer la page A. Vous ajoutez sur ces trois URL la balise suivante :

<link rel="canonical" href="https://www.monsite.com/a.html"/>

La balise <meta robots>

Placée entre les balises <HEAD></HEAD>, elle permet d’empêcher l’indexation d’une URL :

<meta name="robots" content="noindex">

Vous devez en placer une sur chaque URL que vous ne souhaitez pas indexer. Vous pouvez l’ajouter à la main, directement dans le code source, ou utiliser une extension : par exemple, WordPress SEO, AllinOne SEO.

Vous pouvez aussi ajouter une directive, en demandant aux robots de ne pas suivre les liens présents sur la page :

<meta name="robots" content="noindex, nofollow">

Sélection d’outils SEO