Question 1

Quelle est la différence entre les sélecteurs CSS et XPath ?

Accepted Answer

Les sélecteurs CSS et XPath ciblent tous deux les éléments HTML, mais ils diffèrent par leurs capacités. Les sélecteurs CSS sont plus simples et fonctionnent bien pour sélectionner des éléments par classe, ID ou nom de balise (par exemple, ".price", "#header", "h1"). XPath est plus puissant et peut : remonter dans l'arbre du document (sélectionner un parent en fonction d'un enfant), filtrer par contenu texte (//a[contains(text(), "Acheter")]), utiliser des conditions logiques (and/or), sélectionner par position (//li[3]) et utiliser des fonctions comme string-length() et normalize-space(). Utilisez les sélecteurs CSS pour une extraction simple et XPath lorsque vous avez besoin de capacités de requête avancées.

Question 2

SCRAPE_BY_XPATH rend-il toujours JavaScript ?

Accepted Answer

Oui. Contrairement à SCRAPE_BY_CSS_PATH qui offre le rendu JavaScript comme paramètre optionnel, SCRAPE_BY_XPATH utilise toujours un navigateur sans interface qui exécute complètement JavaScript avant d'évaluer l'expression XPath. Cela signifie qu'il fonctionne de manière fiable sur tous les types de sites web, y compris les applications monopages, mais il est plus lent que SCRAPE_BY_CSS_PATH en mode standard (sans JS). Si la vitesse est une priorité et que la page cible ne nécessite pas de rendu JavaScript, envisagez d'utiliser SCRAPE_BY_CSS_PATH à la place.

Question 3

Comment extraire une valeur d'attribut avec XPath ?

Accepted Answer

Ajoutez /@nomAttribut à votre expression XPath. Par exemple, pour obtenir toutes les sources d'images : "//img/@src". Pour obtenir les attributs href des liens : "//a/@href". Pour obtenir la valeur d'un attribut de données personnalisé : "//div/@data-product-id". Vous pouvez également combiner l'extraction d'attributs avec des filtres : "//a[@class='external']/@href" obtient les valeurs href uniquement des liens avec la classe "external".

Question 4

Puis-je utiliser XPath pour sélectionner des éléments par leur contenu texte ?

Accepted Answer

Oui, c'est l'une des fonctionnalités les plus puissantes de XPath. Utilisez text() pour correspondre au contenu texte : "//a[text()='Cliquez ici']" correspond aux liens avec le texte exact "Cliquez ici". Utilisez contains() pour les correspondances partielles : "//p[contains(text(), 'prix')]" correspond aux paragraphes contenant le mot "prix". Utilisez starts-with() pour la correspondance de préfixe : "//div[starts-with(@class, 'product-')]" correspond aux divs dont la classe commence par "product-". Ces sélecteurs basés sur le texte ne sont pas disponibles avec les sélecteurs CSS.

Question 5

Pourquoi mon XPath renvoie-t-il des résultats vides alors que je peux voir l'élément dans le navigateur ?

Accepted Answer

Les causes courantes incluent : (1) L'élément est à l'intérieur d'une iframe, qui est un document séparé que XPath ne peut pas atteindre. (2) L'élément est à l'intérieur d'un composant Shadow DOM, qui crée un arbre DOM encapsulé. (3) La syntaxe XPath a une erreur, comme des guillemets incorrects ou des problèmes d'espace de noms. (4) La page utilise des noms de classe dynamiques qui changent à chaque chargement (courant avec les bibliothèques CSS-in-JS). Testez votre XPath dans la console du navigateur en utilisant document.evaluate() ou le raccourci $x() : $x("//votre/xpath/ici") pour vérifier qu'il correspond aux éléments attendus.

Question 6

Comment gérer les pages qui utilisent différents espaces de noms (comme XHTML ou SVG) ?

Accepted Answer

La plupart des pages HTML modernes ne nécessitent pas de gestion des espaces de noms, et le scraper les traite comme du HTML standard. Cependant, si vous rencontrez des problèmes d'espace de noms (typiquement avec des documents XML ou XHTML stricts), essayez d'utiliser la fonction local-name() dans votre XPath : "//*[local-name()='div']" au lieu de "//div". Cela ignore les préfixes d'espace de noms et correspond aux éléments uniquement par leur nom de balise local.

Question 7

Quelles sont les fonctions XPath utiles que je peux utiliser ?

Accepted Answer

XPath fournit de nombreuses fonctions intégrées : position() renvoie l'index de l'élément (//li[position()<=3] obtient les 3 premiers éléments de liste) ; last() sélectionne le dernier élément ((//p)[last()]) ; count() compte les éléments (//ul[count(li)>5] sélectionne les listes avec plus de 5 éléments) ; normalize-space() supprime les espaces blancs ; translate() convertit les caractères ; concat() joint les chaînes ; et not() nie les conditions (//div[not(@class="hidden")] sélectionne les divs visibles). Ces fonctions peuvent être combinées pour des requêtes complexes.

Paramètre	Type	Requis	Description
`url`	string	Oui	L'URL complète de la page web à extraire (doit inclure https:// ou http://).
`xpath`	string	Oui	Expression XPath ciblant le(s) élément(s) à extraire. Exemples : "//h1" (tous les éléments h1), "//div[@class='content']" (divs avec la classe "content"), "//a/@href" (toutes les URLs de liens), "//table//tr/td[2]" (deuxième colonne de toutes les lignes de tableau).

SCRAPE_BY_XPATH

Aperçu

Paramètres

Exemples

Extraire le titre principal d'une page

Obtenir tous les liens contenant un texte spécifique

Extraire la deuxième colonne d'un tableau de données

Extraire les noms de produits d'éléments avec des attributs de données spécifiques

Obtenir le dernier paragraphe d'une page

Cas d'Usage

Extraction de Données Financières

Collecte de Données Gouvernementales

Audits de Migration de Contenu

Comparaison de Fonctionnalités Concurrentes

Surveillance des Actualités et Médias

Conseils Pro

Erreurs Courantes

Questions Fréquentes

Fonctions Associées

SCRAPE_BY_CSS_PATH

SCRAPE_BY_REGEX

AI_SCRAPE

Commencez à utiliser SCRAPE_BY_XPATH aujourd'hui