Question 1

Come scrivo pattern regex nelle formule di Google Sheets?

Accepted Answer

Nelle formule di Google Sheets, le stringhe sono racchiuse tra virgolette doppie. Poiché regex usa barre inverse per caratteri speciali (\d per cifre, \s per spazi bianchi), e il parser di formule di Sheets non interpreta le barre inverse come caratteri di escape all'interno delle stringhe, le scrivi come singole barre inverse: "\d+" corrisponde a una o più cifre. Se vedi comportamenti inaspettati, prova il pattern con removeHtml impostato su TRUE per semplificare il contenuto da corrispondere. Testa il tuo regex su regex101.com prima di usarlo nella funzione.

Question 2

Qual è la differenza tra gruppo 0 e gruppo 1?

Accepted Answer

Il gruppo 0 (predefinito) restituisce l'intero testo corrispondente. Il gruppo 1 restituisce solo il testo all'interno del primo set di parentesi nel tuo pattern. Ad esempio, con il pattern "Prezzo: (€[0-9.]+)" applicato al testo "Prezzo: €29.99", il gruppo 0 restituisce "Prezzo: €29.99" e il gruppo 1 restituisce "€29.99". Questo è utile quando devi corrispondere a un pattern per contesto ma estrarre solo parte di esso. Puoi avere più gruppi di cattura (gruppo 2, gruppo 3, ecc.) aggiungendo più sezioni tra parentesi al tuo pattern.

Question 3

Quando dovrei usare removeHtml?

Accepted Answer

Abilita removeHtml (imposta su TRUE) quando: (1) Il testo che vuoi corrispondere è diviso su più tag HTML, come un prezzo visualizzato come "€29.99". (2) I tag HTML stanno interferendo con le corrispondenze del tuo pattern. (3) Vuoi corrispondere solo contro il contenuto di testo visibile, ignorando tutto il markup. (4) Il tuo regex è progettato per testo semplice, non HTML. Lascialo su FALSE quando devi specificamente corrispondere ad attributi HTML, nomi di tag o struttura del markup.

Question 4

Posso usare flag regex come corrispondenza case-insensitive?

Accepted Answer

Il motore regex supporta flag inline usando la sintassi (?flags) all'inizio del tuo pattern. Usa "(?i)" per corrispondenza case-insensitive, "(?s)" per modalità single-line (punto corrisponde a newline), e "(?m)" per modalità multiline. Ad esempio, "(?i)prezzo:\s*€[0-9.]+" corrisponde alle varianti "Prezzo:", "PREZZO:" e "prezzo:". Puoi combinare flag: "(?im)" abilita entrambe le modalità case-insensitive e multiline.

Question 5

Perché il mio regex corrisponde ai tag HTML invece del testo che voglio?

Accepted Answer

Per impostazione predefinita, il regex viene applicato al sorgente HTML grezzo, che include tutti i tag, attributi e markup. Ad esempio, un pattern come "[A-Z][a-z]+" destinato a corrispondere a parole maiuscole potrebbe anche corrispondere a nomi di tag come "Div" o "Span". Imposta removeHtml su TRUE per rimuovere prima tutti i tag HTML, così il tuo regex vede solo il contenuto di testo visibile. In alternativa, rendi il tuo regex più specifico per escludere pattern HTML.

Question 6

C'è un limite a quanto complesso può essere il mio regex?

Accepted Answer

Il motore regex supporta sintassi completa compatibile con PCRE inclusi lookahead, lookbehind, gruppi non di cattura, quantificatori lazy e classi di caratteri. Tuttavia, pattern estremamente complessi con backtracking eccessivo (come quantificatori annidati come "(a+)+") possono causare errori di timeout. Mantieni i pattern il più semplici e specifici possibile. Se ti trovi a scrivere pattern regex molto lunghi, considera l'uso di SCRAPE_BY_CSS_PATH o SCRAPE_BY_XPATH per restringere prima il contenuto, poi usa regex sul risultato.

Question 7

Come si confronta SCRAPE_BY_REGEX con REGEXEXTRACT in Google Sheets?

Accepted Answer

REGEXEXTRACT è una funzione nativa di Google Sheets che applica un regex a testo già nel tuo foglio di calcolo. SCRAPE_BY_REGEX recupera una pagina web e applica il regex al contenuto della pagina, combinando recupero web ed estrazione in un singolo passaggio. Potresti ottenere risultati simili usando SCRAPE_BY_CSS_PATH per ottenere il testo della pagina e poi REGEXEXTRACT sul risultato, ma SCRAPE_BY_REGEX è più efficiente poiché elabora tutto lato server in una richiesta e può restituire più corrispondenze.

Question 8

Il pattern regex può corrispondere su più righe?

Accepted Answer

Per impostazione predefinita, il punto (.) nel regex non corrisponde ai caratteri newline. Se hai bisogno di corrispondere su interruzioni di riga, usa il flag inline "(?s)" all'inizio del tuo pattern per abilitare la modalità single-line, dove il punto corrisponde a qualsiasi carattere inclusi i newline. Ad esempio, "(?s)

.*?

" corrisponde a un div e tutto il suo contenuto su più righe. Il flag (?m) fa sì che ^ e $ corrispondano all'inizio/fine di ogni riga piuttosto che all'intera stringa.

Parametro	Tipo	Obbligatorio	Descrizione
`url`	string	Sì	L'URL completo della pagina web da estrarre (deve includere https:// o http://).
`regex`	string	Sì	Pattern di espressione regolare da corrispondere contro il contenuto della pagina. Usa sintassi regex standard. Le barre inverse devono essere doppie nelle formule Sheets (ad es. "\\d+" per le cifre).
`removeHtml`	boolean	No (FALSE)	Facoltativo. Imposta su TRUE per rimuovere tutti i tag HTML prima di applicare il regex, lasciando solo il contenuto di testo visibile. Per impostazione predefinita è FALSE (regex applicato al sorgente HTML grezzo).
`group`	number	No (0)	Facoltativo. Il gruppo di cattura da restituire. 0 restituisce la corrispondenza completa, 1 restituisce il primo gruppo di cattura, 2 il secondo, ecc. Per impostazione predefinita è 0.
`renderJs`	boolean	No	Facoltativo. Imposta su TRUE per renderizzare JavaScript prima di applicare il regex. Richiesto per contenuto caricato dinamicamente. Più lento rispetto alla modalità standard.

SCRAPE_BY_REGEX

Panoramica

Parametri

Esempi

Estrarre tutti i prezzi da una pagina

Estrarre indirizzi email da una pagina di contatto

Estrarre valori usando un gruppo di cattura

Estrarre numeri di telefono da elenchi aziendali

Casi d'Uso

Monitoraggio Prezzi su Più Rivenditori

Lead Generation da Directory Aziendali

Estrazione SKU Catalogo Prodotti

Estrazione Riferimenti Documenti Legali

Tracciamento Numeri Versione e Changelog

Raccolta Dati Profili Social Media

Suggerimenti Professionali

Errori Comuni

Domande Frequenti

Funzioni Correlate

SCRAPE_BY_CSS_PATH

SCRAPE_BY_XPATH

AI_SCRAPE

Inizia a usare SCRAPE_BY_REGEX oggi