GET_URLS_FROM_SITEMAP
Extraire toutes les URLs d'un sitemap XML, gère les index de sitemap de manière récursive
=GET_URLS_FROM_SITEMAP(sitemapUrl)Retourne : string[][]
Aperçu
GET_URLS_FROM_SITEMAP récupère et analyse un sitemap XML, extrayant chaque URL qu'il contient et les renvoyant sous forme de liste verticale dans votre Google Sheet. Cette fonction est une pierre angulaire de tout flux de travail SEO technique, vous permettant d'inventorier rapidement toutes les pages qu'un site web a soumises aux moteurs de recherche pour l'indexation.
Paramètres
| Paramètre | Type | Requis | Description |
|---|---|---|---|
sitemapUrl | string | Oui | L'URL complète vers un sitemap XML ou un fichier d'index de sitemap |
Exemples
Extraire les URLs d'un sitemap standard
Récupère le sitemap et renvoie toutes les URLs sous forme de liste verticale à partir de la cellule où la formule est saisie.
=GET_URLS_FROM_SITEMAP("https://example.com/sitemap.xml")Sortie
| https://example.com/ |
| https://example.com/about |
| https://example.com/contact |
| https://example.com/blog |
Analyser un index de sitemap avec plusieurs sitemaps
Détecte automatiquement l'index de sitemap, suit chaque sitemap enfant, et renvoie toutes les URLs de chaque sitemap combinées.
=GET_URLS_FROM_SITEMAP("https://example.com/sitemap_index.xml")Sortie
| https://example.com/ |
| https://example.com/products/widget-a |
| https://example.com/products/widget-b |
| https://example.com/blog/post-1 |
Extraire d'un sous-sitemap spécifique
Cible un fichier de sitemap spécifique (par exemple, articles de blog uniquement) pour obtenir une liste ciblée d'URLs pour un type de contenu particulier.
=GET_URLS_FROM_SITEMAP("https://example.com/post-sitemap.xml")Sortie
| https://example.com/blog/seo-guide |
| https://example.com/blog/keyword-research |
| https://example.com/blog/link-building |
Cas d'Usage
Inventaire Complet du Site
Extrayez chaque URL indexée d'un site client avant de commencer un audit. Croisez avec les données de Google Search Console pour trouver les pages indexées mais pas dans le sitemap, ou dans le sitemap mais pas indexées.
Audit et Élagage de Contenu
Extrayez toutes les URLs d'articles d'un sitemap d'actualités pour évaluer les performances du contenu, identifier les pages minces ou obsolètes à élaguer, et prioriser les efforts de rafraîchissement du contenu.
Analyse de Contenu Concurrent
Analysez le sitemap d'un concurrent pour comprendre sa structure de site, son volume de contenu et ses modèles d'URLs. Découvrez les lacunes de contenu et les opportunités en comparant leurs pages aux vôtres.
Pré-vérification de Migration
Avant de migrer un site, extrayez toutes les URLs du sitemap actuel pour créer une feuille de calcul de mappage de redirections, garantissant que chaque page existante a une destination correspondante sur le nouveau site.
Surveillance du Catalogue E-commerce
Extrayez régulièrement les URLs de produits du sitemap pour surveiller la taille du catalogue, détecter les produits accidentellement supprimés, et garantir que tous les nouveaux produits sont correctement inclus dans le sitemap.
Vérification de Couverture SEO International
Analysez les sitemaps pour chaque version linguistique d'un site web pour vérifier que toutes les pages ont été traduites et incluses, identifiant les pages manquantes dans différents locales.
Conseils Pro
Après avoir extrait les URLs, utilisez GET_STATUS_CODE sur chacune pour créer un rapport complet de santé du site identifiant les pages cassées, les chaînes de redirection et les erreurs de serveur.
Combinez avec SCRAPE pour extraire la balise titre et la méta-description de chaque URL, construisant une feuille de calcul complète d'audit SEO on-page.
Utilisez des formules COUNTIF sur les URLs extraites pour analyser votre structure de site. Comptez les URLs par répertoire (par exemple, /blog/, /products/) pour comprendre la distribution du contenu.
Comparez les extractions de sitemap au fil du temps pour suivre la croissance de votre site et détecter toute page accidentellement supprimée du sitemap.
Vérifiez les sitemaps de vos concurrents pour découvrir leur stratégie de contenu et trouver des opportunités de sujets que vous pourriez manquer.
L'une des fonctionnalités les plus puissantes de cette fonction est sa capacité à gérer les fichiers d'index de sitemap de manière récursive. De nombreux grands sites web divisent leurs sitemaps en plusieurs fichiers référencés par un seul index de sitemap. Lorsque vous fournissez une URL d'index de sitemap, la fonction le détecte automatiquement, suit chaque sitemap référencé, et extrait les URLs de tous, renvoyant une liste complète sans aucun effort manuel.
Cette fonction se combine exceptionnellement bien avec d'autres fonctions d'Unlimited Sheets. Une fois que vous avez extrait la liste complète des URLs, vous pouvez utiliser GET_STATUS_CODE pour auditer chaque page à la recherche d'erreurs, SCRAPE pour extraire des éléments SEO on-page comme les titres et les méta-descriptions, ou GET_SEARCH_VOLUME_FROM_GOOGLE pour rechercher des mots-clés liés à chaque page. Cela rend possible la création d'audits SEO complets entièrement dans Google Sheets.
La fonction prend en charge les sitemaps XML standard conformes au protocole sitemaps.org, y compris les index de sitemap, les sitemaps réguliers et les sitemaps d'actualités. Elle gère les sitemaps compressés (gzip) lorsque le serveur fournit un encodage de contenu approprié. Pour les sites web avec des dizaines de milliers d'URLs, les résultats sont renvoyés progressivement au fur et à mesure que les sitemaps sont analysés.
Erreurs Courantes
#ERROR!Cause : L'URL ne pointe pas vers un sitemap XML valide, ou le serveur a bloqué la demande.
Solution : Vérifiez que l'URL mène à un sitemap XML valide en l'ouvrant dans votre navigateur. Assurez-vous que l'URL se termine par .xml et que le serveur répond avec du contenu XML.
#VALUE!Cause : L'URL fournie n'est pas correctement formatée ou manque le protocole.
Solution : Assurez-vous que l'URL inclut "https://" ou "http://" et qu'il s'agit d'une URL complète et valide pointant vers le fichier de sitemap.
Questions Fréquentes
Oui, la fonction détecte automatiquement les fichiers d'index de sitemap et récupère récursivement tous les sitemaps enfants, renvoyant une liste combinée de chaque URL trouvée dans tous les sitemaps.
La fonction peut gérer des sitemaps de toute taille. Cependant, Google Sheets a une limite de cellules, donc les sitemaps extrêmement volumineux (plus de 100 000 URLs) peuvent nécessiter un traitement par segments ou une exportation vers une feuille séparée.
Oui, vous pouvez extraire des URLs de tout sitemap accessible publiquement. La plupart des sites web rendent leurs sitemaps publiquement disponibles à /sitemap.xml ou les référencent dans leur fichier robots.txt.
Si aucun sitemap n'existe à l'URL spécifiée, la fonction renverra une erreur. Essayez de vérifier le fichier robots.txt du site (généralement à /robots.txt) pour l'emplacement du sitemap, ou recherchez des chemins communs comme /sitemap.xml, /sitemap_index.xml, ou /sitemap/
La fonction se concentre sur l'extraction de la liste d'URLs pour une simplicité et une utilisabilité maximales. Les URLs renvoyées sont les valeurs <loc> du XML du sitemap.
La plupart des sites web placent leur sitemap à /sitemap.xml. Vous pouvez également vérifier le fichier robots.txt (par exemple, https://example.com/robots.txt) qui contient souvent une directive Sitemap: pointant vers l'emplacement du sitemap.
Oui, la fonction peut gérer les sitemaps compressés avec gzip (.xml.gz) tant que le serveur fournit des en-têtes d'encodage de contenu appropriés.
Fonctions Associées
Commencez à utiliser GET_URLS_FROM_SITEMAP aujourd'hui
Installez Unlimited Sheets pour obtenir GET_URLS_FROM_SITEMAP et 41 autres fonctions puissantes dans Google Sheets.