Fichier sitemap : les bonnes pratiques SEO

Le sitemap facilite l’exploration de vos contenus par les moteurs de recherche, en listant dans un fichier les URL destinées à être indexées et positionnées. Il existe plusieurs types de sitemaps :

  • les pages web
  • les images
  • les vidéos
  • les actualités
  • l’index de vos sitemaps (si vous en avez plusieurs)

Mais encore faut-il bien cet outil pour renforcer votre référencement ! Je vous partage des conseils pratiques pour améliorer vos positions sur Google, issus de mon expérience.

Intégrer le sitemap à une stratégie SEO

Le fichier sitemap est facultatif. Vous pouvez très bien obtenir l’indexation et le positionnement de vos pages web sans recourir à celui-ci. Toutefois, il peut faciliter l’exploration de vos URL, et accélérer notamment l’indexation de vos nouvelles pages.

Fichier sitemap et plan de site HTML ?

Vous ne devez pas confondre le fichier sitemap de la page HTML intitulée “Plan du Site” :

  • Le fichier sitemap a une vocation purement SEO, et indique à Google les pages et documents à explorer en vue d’une indexation.
  • La page HTML “Plan de site” liste les principales pages et catégories du site, elle peut jouer un rôle UX. Elle joue aussi un rôle SEO, car elle contribue au maillage interne en facilitant la navigation entre les pages du site (et en réduisant le niveau de profondeur).

Créer et soumettre un fichier sitemap

Vous êtes convaincu de l’utilité SEO de ce type d’élément ? Je vais vous donner les clés pour l’utiliser concrètement pour votre site web.

Les formats acceptés

Le fichier texte (extension .txt) est parfois utilisé pour lister des pages web. Il est très simple à utiliser, chaque ligne correspondant à une URL. Vous rencontrez cependant des limites dans les informations additionnelles, et vous ne pouvez par exemple pas ajouter la date de dernière modification ou la fréquence des modifications.

Le fichier XML (extension .xml) est ma solution préférée. L’Extensible Markup Language est un métalangage informatique de balisage qui ressemble au HTML (avec des balises qu’on ouvre et qu’on ferme). Il permet de réaliser tous les types de sitemaps (pages web, index, photos, vidéos, actualités), et permet d’ajouter différentes informations additionnelles. Par ailleurs, de nombreux plugins génèrent automatiquement votre fichier dans ce format, et vous trouverez des extensions gratuites pour tous les CMS dignes de ce nom.

Le flux RSS peut aussi être indiqué comme URL de sitemap. Ce choix est pertinent si vous possédez un site avec l’arrivée régulière de nouveaux contenus, et que vous souhaitez soumettre les dernières pages publiées.

Vous devez impérativement utiliser un encodage UTF-8, et uniquement des caractères ASCII. Les caractères ASCII étendus et certains codes de contrôle ou caractères spéciaux comme * et {} sont proscrits.

Exemple de format XML

Ce format est de loin le plus répandu, je vais donc me focaliser sur celui-ci. Voici un exemple de sitemap en XML pour des pages web.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>
      <loc>https://www.benjaminthiers.net/boite-a-outils/</loc>
      <lastmod>2023-04-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>

   <url>
      <loc>https://www.benjaminthiers.net/competences/</loc>
      <lastmod>2023-05-08</lastmod>
      <changefreq>daily</changefreq>
      <priority>0.7</priority>
   </url>

</urlset> 

Les balises et les champs en gras sont obligatoires :

  • <?xml version=”1.0″ encoding=”UTF-8″?> : placée en tête, cette balise précise la nature et la version du langage (XML, version 1.0) et le type d’encodage des caractères (UTF-8)
  • <urlset> : encadre les différentes URL remontées ;
  • <url> : cette balise permet d’introduire les informations liées à une seule URL ;
  • <loc> : chaque balise <url> doit obligatoirement contenir une balise <loc>, qui précise l’URL de la page.

Les autres balises contiennent des informations facultatives :

  • <lastmod> : date de dernière modification du contenu, de type YYYY-MM-DD ;
  • <changefreq> : fréquence habituelle de modification du contenu, avec comme valeurs possibles always (modifications très fréquentes), hourly (toutes les heures), daily (tous les jours), weekly (toutes les semaines), monthly (tous les mois), yearly (tous les ans), never (aucun changement) ;
  • <priority> : priorité relative de l’URL par rapport aux autres pages web, avec une valeur comprise entre 0,0 et 1,0).

Héberger votre fichier sitemap

Votre fichier doit forcément être hébergé sur votre propre site. Vous avez la liberté de le ranger dans le répertoire de votre choix, mais vous devez savoir qu’il ne concerne que les éléments des répertoires enfants.

Par exemple, le sitemap hébergé à l’adresse suivante https://www.benjaminthiers.net/boite-a-outils/sitemap.xml ne peut lister que les URL qui se situent dans le répertoire /boite-a-outils/ et les répertoires enfants de /boite-a-outils/.

Je vous conseille de l’héberger à la racine du site. Ainsi, tous les répertoires peuvent être pris en compte !

Soumettre votre fichier sitemap

Un sitemap peut être publié n’importe où sur votre site, mais ne concerne que les descendants du répertoire parent. Par conséquent, un sitemap publié à la racine du site peut affecter tous les fichiers du site. Cet emplacement est recommandé.

Deux solution vous permettent de communiquer l’URL de votre sitemap à un moteur de recherche.

Vous pouvez ajouter l’URL dans votre fichier robots.txt, en ajoutant la directive sitemap suivie de l’URL :

Sitemap: http://www.monsite.com/sitemap.xml

En fonction de l’user-agent spécifié, tous les moteurs de recherche peuvent avoir accès à cette information.

Vous vous focalisez sur le référencement Google ? Vous pouvez soumettre des sitemaps par Google Search Console : Indexation => Sitemaps

Dans le cas où vous avez plusieurs fichiers, vous pouvez soumettre uniquement l’URL de votre “Index de sitemaps”.

Les bonnes pratiques SEO pour votre sitemap de pages web

Vous savez dorénavant à quoi ressemble un sitemap pour les pages web au format XML. Découvrez maintenant les bonnes pratiques pour qu’il soit utile à votre référencement naturel !

N’ajoutez que les URL indexables

Le sitemap doit aider les robots des moteurs de recherche à découvrir les pages à explorer et à indexer sur votre site web. Vous devez y ajouter uniquement les pages :

  • avec un code d’état HTTP 200 ;
  • non bloquées par le robots.txt ;
  • non bloquées par une balise <meta name=”robots” content=”noindex”> ;
  • qui font référence à la version canonique quand plusieurs versions existent.

Votre fichier ne doit pas contenir :

  • d’URL avec une balise <meta name=”robots” content=”noindex”> ;
  • d’URL bloquées par le fichier robots.txt ;
  • de pages introuvables (404) ;
  • des pages qui font référence à une autre URL dans leur balise <link rel=”canonical”>
  • d’autres codes HTTP autres que 200.

Vous devez utiliser des URL absolues, sans paramètres de session, et faire attention au moindre caractère :

  • <loc>https://www.benjaminthiers.net/boite-a-outils/</loc> : valide
  • <loc>./boite-a-outils/</loc> : non valide
  • <loc>https://www.benjaminthiers.net/boite-a-outils/</loc> : valide
  • <loc>http://www.benjaminthiers.net/boite-a-outils/</loc> : non valide (http au lieu de https)
  • <loc>https://benjaminthiers.net/boite-a-outils/</loc> : non valide (manque les www)
  • <loc>http://www.benjaminthiers.net/boite-a-outils/?auth=benjamin</loc> : non valide (il y a un paramètre de session dans l’URL.

Les URL en 301 dans un sitemap ?

Les redirections permanentes ne devraient pas être présentes dans votre fichier sitemap. En effet, ces URL n’ont pas vocation à être indexées.

Cependant, il m’arrive de laisser l’ancienne URL quelques jours ou quelques semaines afin que Google l’explore une dernière fois et prenne en considération le changement définitif. Ainsi, j’évite que l’ancienne URL continue à exister dans l’index de Google en parallèle avec la nouvelle.

Vous devez nettoyer votre sitemap régulièrement pour retirer ces URL en erreur. C’est pourquoi le recours à une extension de génération automatique est fortement recommandée pour maintenir votre liste à jour.

Créez plusieurs sitemaps quand c’est nécessaire

Les sitemaps ne doivent pas dépasser les 50 000 URL et 50 Mo une fois décompressés. Votre site en contient plus ? Vous devrez créer plusieurs fichiers qui respectent tous cette limite.

Vous avez des pages web, des images, des vidéos, des actualités ? Créez un fichier par type de contenu. Vous utiliserez un index pour faciliter la navigation du googlebot et des autres robots d’exploration.

Indiquez les versions régionales ou linguistiques de vos pages web

Quand vous développez un site web à l’international, vous devez informer les moteurs de recherche des différentes versions régionales ou linguistiques de vos pages. Vous pouvez pour cela intégrer des balises HTML spécifiques entre les balises <head></head> de chaque page. Vous pouvez aussi utiliser un fichier sitemap pour obtenir le même résultat.

Pour chaque URL, vous devez préciser l’ensemble des versions existantes entre des balises <xhtml:link></link>. Par exemple, si vous avez une page francophone disponible en version anglophone, vous préciserez les deux versions. Ce qui donnera :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>
      <loc>https://www.monsite/fr/mapage.html</loc>
      <xhtml:link 
            rel="alternate"
            hreflang="fr"
            href="https://www.monsite/fr/mapage.html" />
      <xhtml:link 
            rel="alternate"
            hreflang="en"
            href="https://www.monsite/en/mypage.html" />
   </url>
   <url>
      <loc>https://www.monsite/en/mypage.html</loc>
      <xhtml:link 
            rel="alternate"
            hreflang="fr"
            href="https://www.monsite/fr/mapage.html" />
      <xhtml:link 
            rel="alternate"
            hreflang="en"
            href="https://www.monsite/en/mypage.html" />
   </url>

</urlset> 

Je vous invite à consulter mon dossier dédié au référencement international pour approfondir vos connaissances sur le sujet.

Les outils et extensions pour générer un fichier sitemap

Vous n’êtes évidemment pas obligé de coder vos sitemaps à la main. Vous pouvez aussi utiliser des solutions en ligne, ou préférer des fonctionnalités natives ou des extensions incluses dans le CMS de votre site internet.

Les outils de génération en ligne

Des outils en ligne vous permettent de générer votre fichier en quelques secondes :

  1. Vous saisissez l’URL de la page d’accueil de votre site web ;
  2. L’outil génère votre fichier, et vous le téléchargez depuis votre navigateur ;
  3. Vous hébergez le fichier sur votre site, et vous le soumettez aux moteurs de recherche.

De nombreux outils en ligne vous sont proposés. En voici quelques-uns :

Ces outils présentent une grosse limite : vous devez regénérer régulièrement votre fichier en vous rendant sur l’outil ! Je vous conseille d’utiliser une extension, qui va faire le job de manière automatique et régulière.

Les extensions pour votre CMS

De nombreuses extensions gratuites ou payantes permettent de générer facilement

Yoast SEO (WordPress / WooCommerce)

L’extension préférée des référenceurs et des éditeurs de sites sur WordPress propose une fonctionnalité de génération de sitemaps plutôt bien faite, avec la création d’un fichier par type de page.

Découvrez l’extension

Sitemap Generator for Google (WordPress / WooCommerce)

Vous ne voulez pas vous embarrasser avec d’autres éléments d’optimisation SEO ? Cette extension se focalise sur une seule fonctionnalité, et le fait bien en offrant différent paramètres.

Découvrez l’extension

JSitemap (Joomla)

Ce plugin permet de répondre aux enjeux SEO des utilisateurs du CMS Joomla, avec des fonctionnalités très complètes comprenant par exemple la gestion des balises canonical.

Découvrez l’extension

Faisons le point sur vos enjeux d’exploration

Vous rencontrez des difficultés dans l’exploration et l’indexation de vos pages web ? Dans le référencement depuis 2003, je connais les solutions pour améliorer l’exploration, l’indexation et le positionnement de l’ensemble de vos contenus.

Contactez-moi et nous propulserons ensemble votre site web en première page de Google !

Pour aller plus loin