Question 1

Come trovo il selettore CSS giusto per il contenuto che voglio estrarre?

Accepted Answer

Apri la pagina web target in Chrome o Firefox, fai clic destro sull'elemento che vuoi estrarre e seleziona "Ispeziona" o "Ispeziona elemento". Questo apre gli strumenti per sviluppatori del browser con l'elemento HTML evidenziato. Puoi fare clic destro sull'elemento evidenziato nel pannello Elementi e scegliere "Copia > Copia selettore" per ottenere un selettore CSS auto-generato. Per selettori più affidabili, cerca nomi di classe univoci o ID sull'elemento. Ad esempio, se vedi

$29.99

, il tuo selettore sarebbe ".product-price". Evita selettori auto-generati eccessivamente specifici con molti elementi annidati, poiché si rompono facilmente quando il layout della pagina cambia.

Question 2

Qual è la differenza tra estrarre contenuto di testo e un attributo?

Accepted Answer

Per impostazione predefinita, SCRAPE_BY_CSS_PATH restituisce il contenuto di testo visibile dell'elemento corrispondente, che è ciò che un utente vede sulla pagina. Quando specifichi un parametro attributo, estrae il valore di quell'attributo HTML invece. Ad esempio, un tag anchor Clicca qui restituirebbe "Clicca qui" senza un attributo, ma restituirebbe "https://example.com" se imposti l'attributo su "href". Gli attributi comuni includono "href" per i link, "src" per le immagini, "alt" per le descrizioni delle immagini, "content" per i meta tag e qualsiasi attributo personalizzato "data-*".

Question 3

Quando dovrei abilitare il rendering JavaScript (renderJs)?

Accepted Answer

Abilita renderJs quando il contenuto che vuoi estrarre viene caricato dinamicamente tramite JavaScript. I segnali che ne hai bisogno includono: la funzione restituisce risultati vuoti o "Nessuna corrispondenza trovata" anche se puoi vedere il contenuto nel tuo browser; il sito web è un'applicazione a pagina singola costruita con React, Vue, Angular o framework simili; il contenuto si carica dopo lo scorrimento o dopo un ritardo; oppure la pagina mostra uno spinner di caricamento prima che appaia il contenuto. La modalità standard è più veloce ed economica, quindi prova senza renderJs prima e abilitalo solo se necessario.

Question 4

Posso estrarre più elementi diversi dalla stessa pagina in una chiamata?

Accepted Answer

Ogni chiamata a SCRAPE_BY_CSS_PATH punta a un selettore CSS, ma quel selettore può corrispondere a più elementi dello stesso tipo (tutti restituiti come righe). Per estrarre diversi tipi di elementi (ad es. sia titoli che prezzi), effettua chiamate di funzione separate con diversi selettori. Puoi combinare selettori CSS con virgole per corrispondere a più tipi di elementi in una chiamata, ad esempio ".title, .price", ma i risultati saranno interlacciati. Per l'estrazione di dati strutturati in cui è necessario mantenere i titoli accoppiati con i loro prezzi, usa colonne separate con un selettore per colonna.

Question 5

C'è un limite a quanti elementi possono essere restituiti?

Accepted Answer

La funzione restituisce fino a 500 elementi corrispondenti per chiamata. Se la pagina contiene più di 500 elementi corrispondenti, vengono restituiti solo i primi 500. Per la maggior parte dei casi d'uso questo è più che sufficiente. Se devi estrarre pagine con numeri estremamente grandi di elementi, considera l'utilizzo di selettori CSS più specifici per restringere i risultati, oppure usa parametri di paginazione se il sito web di destinazione li supporta.

Question 6

Come estraggo contenuto che richiede autenticazione o login?

Accepted Answer

SCRAPE_BY_CSS_PATH accede alle pagine come visitatore anonimo senza cookie o dati di sessione. Non può estrarre contenuto dietro muri di login, paywall o barriere di autenticazione. Lo scraper non supporta l'invio di cookie, header o credenziali. Per contenuti autenticati, dovresti trovare un'API pubblica per quel servizio o usare una fonte dati alternativa. Alcuni siti web offrono API JSON pubbliche o feed RSS che possono fornire i dati di cui hai bisogno senza autenticazione.

Question 7

La funzione rispetta robots.txt?

Accepted Answer

Lo scraper effettua richieste HTTP simili a un browser web e non controlla né applica automaticamente le regole robots.txt. Tuttavia, dovresti rivedere e rispettare il file robots.txt del sito web target e i termini di servizio prima di estrarre. L'estrazione eccessiva può portare al blocco del tuo IP. Usa la funzione responsabilmente, evita di estrarre ad alta frequenza e rispetta i limiti di velocità. Unlimited Sheets applica il proprio rate limiting per prevenire abusi.

Question 8

Posso usare questa funzione con IMPORTXML o IMPORTHTML di Google Sheets?

Accepted Answer

SCRAPE_BY_CSS_PATH è una funzione autonoma che sostituisce la necessità di IMPORTXML o IMPORTHTML in molti casi. A differenza di IMPORTXML, usa selettori CSS (che sono più intuitivi per la maggior parte degli utenti) piuttosto che espressioni XPath. A differenza di IMPORTHTML, può puntare a qualsiasi elemento sulla pagina, non solo tabelle e liste. Puoi usare SCRAPE_BY_CSS_PATH insieme alle funzioni native di Google Sheets nello stesso foglio di calcolo senza conflitti.

Parametro	Tipo	Obbligatorio	Descrizione
`url`	string	Sì	L'URL completo della pagina web da estrarre (deve includere https:// o http://).
`selector`	string	Sì	Selettore CSS che punta all'elemento/agli elementi da estrarre. Supporta la sintassi CSS standard incluse classi (.class), ID (#id), elementi (h1), attributi ([data-price]), combinatori (div > p) e pseudo-selettori (li:first-child).
`attribute`	string	No	Attributo HTML facoltativo da estrarre invece del contenuto di testo. Valori comuni: "href" (URL dei link), "src" (sorgenti immagine/script), "alt" (testo alternativo immagine), "data-*" (attributi dati personalizzati), "content" (valori meta tag).
`renderJs`	boolean	No	Facoltativo. Imposta su TRUE per renderizzare JavaScript prima di estrarre. Richiesto per applicazioni a pagina singola e contenuto caricato dinamicamente. Più lento e usa più crediti rispetto alla modalità standard.

SCRAPE_BY_CSS_PATH

Panoramica

Parametri

Esempi

Estrarre l'intestazione principale da una pagina

Ottenere tutti gli URL dei link di navigazione

Estrarre prezzi di prodotti da una pagina e-commerce

Estrarre meta description per audit SEO

Estrarre elenchi di prodotti renderizzati con JavaScript

Casi d'Uso

Monitoraggio Prezzi Concorrenti

Audit Titoli SEO e Meta Tag

Aggregazione Offerte di Lavoro

Tracciamento Annunci Immobiliari

Raccolta Dati per Ricerca Accademica

Prova Sociale e Monitoraggio Recensioni

Suggerimenti Professionali

Errori Comuni

Domande Frequenti

Funzioni Correlate

SCRAPE_BY_XPATH

SCRAPE_BY_REGEX

AI_SCRAPE

Inizia a usare SCRAPE_BY_CSS_PATH oggi