Que faire en cas de pages en double sans URL canonique (canonical) sélectionnée par l’utilisateur ?

Publié le :

| Modifié le :

| Auteur : Benjamin Thiers

Dans Index (Google Search Console), la rubrique Pages (anciennement Couverture) vous apporte de précieuses informations pour améliorer le crawl et l’indexation de vos pages. Dans la partie “Non Indexées” (autrefois “Exclues”), vous trouverez notamment une ligne intitulée “Page en double sans URL canonique sélectionnée par l’utilisateur”. Comment traiter cette information, et améliorer votre référencement ? Découvrez une méthodologie clés en main pour résoudre cette situation !

Pourquoi des pages peuvent-elles être en double ?

Plusieurs URL peuvent être générées par votre CMS pour un même contenu ou un contenu très similaire.

Par exemple, une mauvaise gestion de l’URL rewriting peut entraîner la duplication des pages de votre site web. Cela arrive par exemple quand les URL avec et sans slash renvoient le même contenu. On a alors, par exemple :

  • https://www.benjaminthiers.net/boite-a-outils/
  • https://www.benjaminthiers.net/boite-a-outils

Le contenu est strictement identique, mais deux URL permettent d’y accéder.

Parfois, il s’agit d’un problème de protocole. Votre site est disponible par exemple avec et sans HTTPS, ou avec et sans www.

  • http://www.benjaminthiers.net
  • https://www.benjaminthiers.net
  • http://benjaminthiers.net
  • https://benjaminthiers.net

Vous pouvez aussi proposer des versions de vos URL avec des UTM ou des paramètres destinés à qualifier par exemple l’origine d’une visite :

  • https://www.benjaminthiers.net/boite-a-outils/?utm_campaign=seo&utm_medium=social
  • https://www.benjaminthiers.net/boite-a-outils/?utm_campaign=seo&utm_medium=ref

Cela arrive aussi dans le cas de pages catégories qui peuvent être triées ou filtrées. Par exemple, les URL suivantes peuvent être considérées comme similaires :

  • https://www.speedway.fr/2268-casque-moto
  • https://www.speedway.fr/2268-casque-moto?orderby=price&orderway=asc
  • https://www.speedway.fr/2268-casque-moto?orderby=new&orderway=desc
  • https://www.speedway.fr/2268-casque-moto?filters=15_408
  • etc.

Les différentes versions filtrées ou triées de la catégorie “Casques moto” sont alors très proches de la page d’origine, voire identiques pour les tris (seul l’ordre des produits change).

Ces pages sont remontées dans Google Search Console (GSC) dans Index > Couverture > Exclues, à la ligne Page en double sans URL canonique sélectionnée par l’utilisateur.

Pour aller plus loin : duplication interne de contenu en SEO

Pourquoi indexer des pages en double pose-t-il un problème SEO ?

Plusieurs pages en doublons envoient des signaux peu positifs pour votre référencement naturel.

Vous risquez une cannibalisation interne : les algorithmes ne sachant pas quelle page choisir, ils risquent de ne pas positionner la bonne page, de dégrader vos positions, ou de ne pas vous indexer et vous positionner du tout !

Vous laissez les moteurs de recherche visiter des pages non pertinentes, sans lui dire explicitement qu’elles ne sont pas pertinentes pour eux . Or, les algorithmes de Google optimisent de plus en plus le processus de crawl et d’indexation, afin d’économiser les ressources des serveurs. Faire perdre du temps et dépenser inutilement du budget de crawl n’est pas pertinent !

Vous pouvez corriger cette situation en utilisant plusieurs approches :

  • Ajouter des balises noindex sur les pages en double que vous ne souhaitez pas indexer.
  • Créer des redirections 301 avec les bonnes règles de réécriture (par exemple, rediriger les URL sans slash vers leur version avec slash, le sans www vers le www, le http vers le https, etc.).
  • Empêcher l’exploration de ces pages grâce au fichier robots.txt. Attention, elles peuvent quand même être visitées et indexées, malgré le robots.txt.
  • Utiliser des balises <link rel=”canonical”> pour signaler à un moteur de recherche que différentes URL renvoient le même contenu, et lui indiquer l’URL de référence.

C’est cette dernière solution que préconise Google Search Console en nous disant : Page en double sans URL canonique sélectionnée par l’utilisateur.

Exemple de redirection 301 sans www vers www

Comment fonctionne le principe de l’URL canonique ?

En mathématiques, le terme canonique désigne la “forme naturelle, intrinsèque, principale de certains êtres ou de certaines représentations” (source : Larousse). L’Eglise a repris ce terme pour désigner les textes de référence : les évangiles retenus dans la Bible sont les évangiles canoniques, les autres sont dits apocryphes.

Pour les moteurs de recherche, c’est le même principe qui prévaut : l’URL désignée comme canonique est celle qui fait référence, et qui doit être indexée.

Quand plusieurs pages sont en double ou sont très similaires, vous glissez la balise suivante entre les balises <HEAD> : <link rel=”canonical” href=”url_canonique”>.

Prenons l’exemple des pages suivantes :

  • https://www.speedway.fr/2268-casque-moto
  • https://www.speedway.fr/2268-casque-moto?orderby=price&orderway=asc
  • https://www.speedway.fr/2268-casque-moto?orderby=new&orderway=desc
  • https://www.speedway.fr/2268-casque-moto?filters=15_408

Elles accueillent toutes entre les balises <head></head> la même balise canonique : <link rel=”canonical” href=”https://www.speedway.fr/2268-casque-moto”>

Exemple de balises canonical
À gauche, le code source de https://www.speedway.fr/2268-casque-moto
À droite, le code source de https://www.speedway.fr/2268-casque-moto?filters=15_408

Si le Googlebot arrive sur https://www.speedway.fr/2268-casque-moto?filters=15_408, il sait que cette URL ne doit pas être indexée, mais qu’il doit choisir à la place https://www.speedway.fr/2268-casque-moto.

Comment corriger ces pages en double sans URL canonique exclues par Google ?

Vous avez la liste des pages en double dans le rapport Page en double sans URL canonique sélectionnée par l’utilisateur ? Vous devez simplement ajouter pour ces doublons une même balise <link rel=”canonical”>. Vous résoudrez ainsi le problème remonté par Google Search Console.

Attention : vous devez choisir la page la plus pertinente en canonique. Je vous invite notamment à vérifier que c’est bien la page maillée dans vos menus qui est choisie comme canonique. Si vous choisissez une URL qui n’envoie pas les bons signaux de pertinence, un moteur de recherche comme Google pourrait choisir de ne pas suivre la balise <link rel=”canonical”> et indexer une autre page à la place ! En utilisant la fonctionnalité “inspection de cette URL“, vous devriez découvrir l’URL canonique sélectionnée par Google. Cela vous aidera à choisir votre page officielle !

Non Indexées : autres motifs remontés