Les outils de mesure d'audience permettent facilement d'identifier les pages à faible trafic. Cependant, ils ne sont d'aucune utilité pour identifier les pages avec aucun trafic. En effet la connaissance de l'existence d'une page par de tels outils nécessite que cette page ait été affichée au moins une fois.

Comment faire alors ? La méthode que je vous propose consiste à combiner dans Data Studio les données issues de Google Search Console et celles issues de votre sitemap XML (via Google Sheet). Bien entendu cela suppose que vos sitemaps XML soient correctement générés et exhaustifs. Dans mon dashboard, seules les pages catégories sont prises en compte, mais la méthode peut être utilisée pour l'intégralité de votre site.

La première chose à faire est de créer un document Google Sheets dans lequel vous allez importer votre sitemap grâce à la fonction ImportXML. La formule utilisée dans la colonne A est la suivante, à adapter en fonction de l'URL de votre sitemap :

=IMPORTXML("https://www.exemple.fr/sitemap/sitemap.xml";
"//*[local-name() ='url']/*[local-name() ='loc']")

Normalement vous devriez obtenir un listing des URLs présentes dans le sitemap. L'import peut être un peu long. C'est surtout un problème à la création du fichier car par la suite les données seront régulièrement mises à jour sans intervention de votre part, au moins toutes les 24h il me semble.

sitemap.png, août 2021

Une fois dans Data Studio, créez une source de données mixtes, en combinant votre feuille Google Sheets et vos données Search Console. La clé de jointure choisie pour les données Sheets doit être la colonne A, qui contient les URLs. La clé de jointure pour les données Search Console doit être la landing page. Dans les données Search Console, ajoutez les impressions et les URL clicks dans les métriques.

combinaison.png, août 2021

Créez maintenant un tableau dans Data Studio sur la base de ces données mixtes, avec en dimension vos URLs et en statistiques les impressions et clics issus de Search Console. N'oubliez pas de spécifier un tri des lignes par ordre de clics croissant, afin d'afficher en premier les pages à trafic nul. Vous devriez obtenir quelque chose qui ressemble à ceci :

tableau-zero-trafic.png, août 2021

L'ajout de filtres avancé est conseillé pour mieux explorer les données. Il vous sera alors possible de filtrer par répertoire, ou via des expressions régulières de filtrer par niveau d'arborescence. L'insertion d'un sélecteur de plages de date est également utile, bien que les 30 derniers jours par défaut soient de mon point de vue une bonne base pour identifier les pages à problème.