Question 1

Comment écrire des motifs regex dans les formules Google Sheets ?

Accepted Answer

Dans les formules Google Sheets, les chaînes sont entourées de guillemets doubles. Étant donné que regex utilise des barres obliques inverses pour les caractères spéciaux (\d pour les chiffres, \s pour les espaces blancs), et que l'analyseur de formules Sheets n'interprète pas les barres obliques inverses comme des caractères d'échappement à l'intérieur des chaînes, vous les écrivez comme des barres obliques inverses simples : "\d+" correspond à un ou plusieurs chiffres. Si vous voyez un comportement inattendu, essayez le motif avec removeHtml défini sur TRUE pour simplifier le contenu correspondant. Testez votre regex sur regex101.com avant de l'utiliser dans la fonction.

Question 2

Quelle est la différence entre le groupe 0 et le groupe 1 ?

Accepted Answer

Le groupe 0 (par défaut) renvoie tout le texte correspondant. Le groupe 1 renvoie uniquement le texte à l'intérieur du premier ensemble de parenthèses dans votre motif. Par exemple, avec le motif "Prix: (\€[0-9,]+)" appliqué au texte "Prix: 29,99€", le groupe 0 renvoie "Prix: 29,99€" et le groupe 1 renvoie "29,99€". C'est utile lorsque vous devez correspondre à un motif pour le contexte mais extraire seulement une partie de celui-ci. Vous pouvez avoir plusieurs groupes de capture (groupe 2, groupe 3, etc.) en ajoutant plus de sections entre parenthèses à votre motif.

Question 3

Quand dois-je utiliser removeHtml ?

Accepted Answer

Activez removeHtml (définir sur TRUE) lorsque : (1) Le texte que vous voulez faire correspondre est divisé entre plusieurs balises HTML, comme un prix affiché comme "€29,99". (2) Les balises HTML interfèrent avec vos correspondances de motif. (3) Vous voulez correspondre uniquement au contenu texte visible, en ignorant tout le balisage. (4) Votre regex est conçu pour du texte brut, pas du HTML. Laissez-le sur FALSE lorsque vous devez spécifiquement correspondre aux attributs HTML, aux noms de balises ou à la structure de balisage.

Question 4

Puis-je utiliser des indicateurs regex comme la correspondance insensible à la casse ?

Accepted Answer

Le moteur regex prend en charge les indicateurs en ligne en utilisant la syntaxe (?indicateurs) au début de votre motif. Utilisez "(?i)" pour la correspondance insensible à la casse, "(?s)" pour le mode ligne unique (le point correspond aux nouvelles lignes), et "(?m)" pour le mode multiligne. Par exemple, "(?i)prix:\s*\€[0-9,]+" correspond aux variantes "Prix:", "PRIX:" et "prix:". Vous pouvez combiner des indicateurs : "(?im)" active à la fois les modes insensible à la casse et multiligne.

Question 5

Pourquoi mon regex correspond-il aux balises HTML au lieu du texte que je veux ?

Accepted Answer

Par défaut, le regex est appliqué au code HTML source brut, qui inclut toutes les balises, attributs et balisages. Par exemple, un motif comme "[A-Z][a-z]+" destiné à correspondre aux mots capitalisés pourrait également correspondre aux noms de balises comme "Div" ou "Span". Définissez removeHtml sur TRUE pour supprimer d'abord toutes les balises HTML, afin que votre regex ne voie que le contenu texte visible. Alternativement, rendez votre regex plus spécifique pour exclure les motifs HTML.

Question 6

Y a-t-il une limite à la complexité de mon regex ?

Accepted Answer

Le moteur regex prend en charge la syntaxe complète compatible PCRE, y compris les lookaheads, les lookbehinds, les groupes non capturants, les quantificateurs paresseux et les classes de caractères. Cependant, les motifs extrêmement complexes avec un retour en arrière excessif (comme les quantificateurs imbriqués comme "(a+)+") peuvent provoquer des erreurs de délai d'attente. Gardez les motifs aussi simples et spécifiques que possible. Si vous vous trouvez à écrire des motifs regex très longs, envisagez d'utiliser SCRAPE_BY_CSS_PATH ou SCRAPE_BY_XPATH pour réduire le contenu d'abord, puis utilisez regex sur le résultat.

Question 7

Comment SCRAPE_BY_REGEX se compare-t-il à REGEXEXTRACT dans Google Sheets ?

Accepted Answer

REGEXEXTRACT est une fonction native de Google Sheets qui applique un regex au texte déjà dans votre feuille de calcul. SCRAPE_BY_REGEX récupère une page web et applique le regex au contenu de la page, combinant la récupération web et l'extraction en une seule étape. Vous pourriez obtenir des résultats similaires en utilisant SCRAPE_BY_CSS_PATH pour obtenir le texte de la page puis REGEXEXTRACT sur le résultat, mais SCRAPE_BY_REGEX est plus efficace car il traite tout côté serveur en une seule requête et peut renvoyer plusieurs correspondances.

Question 8

Le motif regex peut-il correspondre sur plusieurs lignes ?

Accepted Answer

Par défaut, le point (.) en regex ne correspond pas aux caractères de nouvelle ligne. Si vous devez correspondre sur plusieurs lignes, utilisez l'indicateur en ligne "(?s)" au début de votre motif pour activer le mode ligne unique, où le point correspond à n'importe quel caractère y compris les nouvelles lignes. Par exemple, "(?s)

.*?

" correspond à un div et tout son contenu sur plusieurs lignes. L'indicateur (?m) fait en sorte que ^ et $ correspondent au début/fin de chaque ligne plutôt qu'à toute la chaîne.

Paramètre	Type	Requis	Description
`url`	string	Oui	L'URL complète de la page web à extraire (doit inclure https:// ou http://).
`regex`	string	Oui	Motif d'expression régulière à faire correspondre au contenu de la page. Utilisez la syntaxe regex standard. Les barres obliques inverses doivent être doublées dans les formules Sheets (par exemple, "\\d+" pour les chiffres).
`removeHtml`	boolean	Non (FALSE)	Optionnel. Définir sur TRUE pour supprimer toutes les balises HTML avant d'appliquer le regex, ne laissant que le contenu texte visible. Par défaut FALSE (regex appliqué au code HTML source brut).
`group`	number	Non (0)	Optionnel. Le groupe de capture à renvoyer. 0 renvoie la correspondance complète, 1 renvoie le premier groupe de capture, 2 le deuxième, etc. Par défaut 0.
`renderJs`	boolean	Non	Optionnel. Définir sur TRUE pour rendre JavaScript avant d'appliquer le regex. Requis pour le contenu chargé dynamiquement. Plus lent que le mode standard.

SCRAPE_BY_REGEX

Aperçu

Paramètres

Exemples

Extraire tous les prix d'une page

Extraire les adresses e-mail d'une page de contact

Extraire des valeurs en utilisant un groupe de capture

Extraire les numéros de téléphone des listes d'entreprises

Cas d'Usage

Surveillance des Prix sur Plusieurs Détaillants

Génération de Leads à partir d'Annuaires d'Entreprises

Extraction de SKU de Catalogues de Produits

Extraction de Références de Documents Juridiques

Suivi des Numéros de Version et Changelogs

Collecte de Données de Profils de Réseaux Sociaux

Conseils Pro

Erreurs Courantes

Questions Fréquentes

Fonctions Associées

SCRAPE_BY_CSS_PATH

SCRAPE_BY_XPATH

AI_SCRAPE

Commencez à utiliser SCRAPE_BY_REGEX aujourd'hui