Question 1

Comment trouver le bon sélecteur CSS pour le contenu que je veux extraire ?

Accepted Answer

Ouvrez la page web cible dans Chrome ou Firefox, faites un clic droit sur l'élément que vous voulez extraire et sélectionnez "Inspecter" ou "Inspecter l'élément". Cela ouvre les outils de développement du navigateur avec l'élément HTML mis en évidence. Vous pouvez faire un clic droit sur l'élément mis en évidence dans le panneau Éléments et choisir "Copier > Copier le sélecteur" pour obtenir un sélecteur CSS généré automatiquement. Pour des sélecteurs plus fiables, recherchez des noms de classe uniques ou des IDs sur l'élément. Par exemple, si vous voyez

29,99€

, votre sélecteur serait ".product-price". Évitez les sélecteurs auto-générés trop spécifiques avec de nombreux éléments imbriqués, car ils se cassent facilement lorsque la mise en page de la page change.

Question 2

Quelle est la différence entre extraire le contenu texte et un attribut ?

Accepted Answer

Par défaut, SCRAPE_BY_CSS_PATH renvoie le contenu texte visible de l'élément correspondant, qui est ce qu'un utilisateur voit sur la page. Lorsque vous spécifiez un paramètre d'attribut, il extrait la valeur de cet attribut HTML à la place. Par exemple, une balise anchor Cliquez ici renverrait "Cliquez ici" sans attribut, mais renverrait "https://example.com" si vous définissez l'attribut sur "href". Les attributs courants incluent "href" pour les liens, "src" pour les images, "alt" pour les descriptions d'images, "content" pour les balises meta et tout attribut personnalisé "data-*".

Question 3

Quand dois-je activer le rendu JavaScript (renderJs) ?

Accepted Answer

Activez renderJs lorsque le contenu que vous voulez extraire est chargé dynamiquement via JavaScript. Les signes que vous en avez besoin incluent : la fonction renvoie des résultats vides ou "Aucune correspondance trouvée" même si vous pouvez voir le contenu dans votre navigateur ; le site web est une application monopage construite avec React, Vue, Angular ou des frameworks similaires ; le contenu se charge après le défilement ou après un délai ; ou la page affiche un spinner de chargement avant que le contenu n'apparaisse. Le mode standard est plus rapide et moins cher, donc essayez sans renderJs d'abord et activez-le uniquement si nécessaire.

Question 4

Puis-je extraire plusieurs éléments différents de la même page en un seul appel ?

Accepted Answer

Chaque appel à SCRAPE_BY_CSS_PATH cible un sélecteur CSS, mais ce sélecteur peut correspondre à plusieurs éléments du même type (tous renvoyés en lignes). Pour extraire différents types d'éléments (par exemple, à la fois des titres et des prix), effectuez des appels de fonction séparés avec différents sélecteurs. Vous pouvez combiner des sélecteurs CSS avec des virgules pour correspondre à plusieurs types d'éléments en un seul appel, par exemple ".title, .price", mais les résultats seront entrelacés. Pour l'extraction de données structurées où vous devez garder les titres associés à leurs prix, utilisez des colonnes séparées avec un sélecteur par colonne.

Question 5

Y a-t-il une limite au nombre d'éléments pouvant être renvoyés ?

Accepted Answer

La fonction renvoie jusqu'à 500 éléments correspondants par appel. Si la page contient plus de 500 éléments correspondants, seuls les 500 premiers sont renvoyés. Pour la plupart des cas d'usage, c'est largement suffisant. Si vous devez extraire des pages avec un nombre extrêmement important d'éléments, envisagez d'utiliser des sélecteurs CSS plus spécifiques pour réduire les résultats, ou utilisez des paramètres de pagination si le site web cible les prend en charge.

Question 6

Comment extraire du contenu qui nécessite une authentification ou une connexion ?

Accepted Answer

SCRAPE_BY_CSS_PATH accède aux pages en tant que visiteur anonyme sans cookies ni données de session. Il ne peut pas extraire de contenu derrière des murs de connexion, des paywalls ou des barrières d'authentification. Le scraper ne prend pas en charge l'envoi de cookies, d'en-têtes ou d'identifiants. Pour du contenu authentifié, vous devriez trouver une API publique pour ce service ou utiliser une source de données alternative. Certains sites web offrent des APIs JSON publiques ou des flux RSS qui peuvent fournir les données dont vous avez besoin sans authentification.

Question 7

La fonction respecte-t-elle robots.txt ?

Accepted Answer

Le scraper effectue des requêtes HTTP similaires à un navigateur web et ne vérifie ni n'applique automatiquement les règles robots.txt. Cependant, vous devriez examiner et respecter le fichier robots.txt du site web cible et les conditions d'utilisation avant d'extraire. Une extraction excessive peut conduire au blocage de votre IP. Utilisez la fonction de manière responsable, évitez d'extraire à haute fréquence et respectez les limites de taux. Unlimited Sheets applique sa propre limitation de taux pour prévenir les abus.

Question 8

Puis-je utiliser cette fonction avec IMPORTXML ou IMPORTHTML de Google Sheets ?

Accepted Answer

SCRAPE_BY_CSS_PATH est une fonction autonome qui remplace le besoin d'IMPORTXML ou IMPORTHTML dans de nombreux cas. Contrairement à IMPORTXML, elle utilise des sélecteurs CSS (qui sont plus intuitifs pour la plupart des utilisateurs) plutôt que des expressions XPath. Contrairement à IMPORTHTML, elle peut cibler n'importe quel élément de la page, pas seulement les tableaux et les listes. Vous pouvez utiliser SCRAPE_BY_CSS_PATH aux côtés des fonctions natives de Google Sheets dans la même feuille de calcul sans conflits.

Paramètre	Type	Requis	Description
`url`	string	Oui	L'URL complète de la page web à extraire (doit inclure https:// ou http://).
`selector`	string	Oui	Sélecteur CSS ciblant le(s) élément(s) à extraire. Supporte la syntaxe CSS standard incluant les classes (.class), les IDs (#id), les éléments (h1), les attributs ([data-price]), les combinateurs (div > p) et les pseudo-sélecteurs (li:first-child).
`attribute`	string	Non	Attribut HTML optionnel à extraire au lieu du contenu texte. Valeurs courantes : "href" (URLs de liens), "src" (sources d'images/scripts), "alt" (texte alternatif d'image), "data-*" (attributs de données personnalisés), "content" (valeurs de balises meta).
`renderJs`	boolean	Non	Optionnel. Définir sur TRUE pour rendre JavaScript avant l'extraction. Requis pour les applications monopages et le contenu chargé dynamiquement. Plus lent et utilise plus de crédits que le mode standard.

SCRAPE_BY_CSS_PATH

Aperçu

Paramètres

Exemples

Extraire le titre principal d'une page

Obtenir toutes les URLs des liens de navigation

Extraire les prix des produits d'une page e-commerce

Extraire la méta description pour un audit SEO

Extraire des listes de produits rendues en JavaScript

Cas d'Usage

Surveillance des Prix Concurrents

Audit des Titres et Balises Meta SEO

Agrégation d'Offres d'Emploi

Suivi des Annonces Immobilières

Collecte de Données pour la Recherche Académique

Preuve Sociale et Surveillance des Avis

Conseils Pro

Erreurs Courantes

Questions Fréquentes

Fonctions Associées

SCRAPE_BY_XPATH

SCRAPE_BY_REGEX

AI_SCRAPE

Commencez à utiliser SCRAPE_BY_CSS_PATH aujourd'hui