Question 1

Qual è la differenza tra selettori CSS e XPath?

Accepted Answer

I selettori CSS e XPath entrambi puntano agli elementi HTML, ma differiscono nelle capacità. I selettori CSS sono più semplici e funzionano bene per selezionare elementi per classe, ID o nome tag (ad es. ".price", "#header", "h1"). XPath è più potente e può: attraversare verso l'alto l'albero del documento (selezionare un genitore basato su un figlio), filtrare per contenuto di testo (//a[contains(text(), "Acquista")]), usare condizioni logiche (and/or), selezionare per posizione (//li[3]) e usare funzioni come string-length() e normalize-space(). Usa selettori CSS per estrazione semplice e XPath quando hai bisogno di capacità di query avanzate.

Question 2

SCRAPE_BY_XPATH esegue sempre il rendering di JavaScript?

Accepted Answer

Sì. A differenza di SCRAPE_BY_CSS_PATH che offre il rendering JavaScript come parametro opzionale, SCRAPE_BY_XPATH usa sempre un browser headless che esegue completamente JavaScript prima di valutare l'espressione XPath. Questo significa che funziona in modo affidabile su tutti i tipi di siti web incluse applicazioni a pagina singola, ma è più lento di SCRAPE_BY_CSS_PATH in modalità standard (non-JS). Se la velocità è una priorità e la pagina target non richiede rendering JavaScript, considera invece l'uso di SCRAPE_BY_CSS_PATH.

Question 3

Come estraggo un valore di attributo con XPath?

Accepted Answer

Aggiungi /@nomeAttributo alla tua espressione XPath. Ad esempio, per ottenere tutte le sorgenti immagine: "//img/@src". Per ottenere attributi href dai link: "//a/@href". Per ottenere il valore di un attributo dati personalizzato: "//div/@data-product-id". Puoi anche combinare l'estrazione di attributi con filtri: "//a[@class='external']/@href" ottiene valori href solo dai link con la classe "external".

Question 4

Posso usare XPath per selezionare elementi in base al loro contenuto di testo?

Accepted Answer

Sì, questa è una delle funzionalità più potenti di XPath. Usa text() per corrispondere al contenuto di testo: "//a[text()='Clicca qui']" corrisponde ai link con il testo esatto "Clicca qui". Usa contains() per corrispondenze parziali: "//p[contains(text(), 'prezzo')]" corrisponde ai paragrafi contenenti la parola "prezzo". Usa starts-with() per corrispondenza di prefisso: "//div[starts-with(@class, 'product-')]" corrisponde ai div la cui classe inizia con "product-". Questi selettori basati su testo non sono disponibili con i selettori CSS.

Question 5

Perché il mio XPath restituisce risultati vuoti quando posso vedere l'elemento nel browser?

Accepted Answer

Le cause comuni includono: (1) L'elemento è all'interno di un iframe, che è un documento separato che XPath non può raggiungere. (2) L'elemento è all'interno di un componente Shadow DOM, che crea un albero DOM incapsulato. (3) La sintassi XPath ha un errore, come virgolette errate o problemi di namespace. (4) La pagina usa nomi di classe dinamici che cambiano ad ogni caricamento (comune con librerie CSS-in-JS). Testa il tuo XPath nella console del browser usando document.evaluate() o la scorciatoia $x(): $x("//tuo/xpath/qui") per verificare che corrisponda agli elementi attesi.

Question 6

Come gestisco pagine che usano namespace diversi (come XHTML o SVG)?

Accepted Answer

La maggior parte delle pagine HTML moderne non richiede gestione di namespace, e lo scraper le elabora come HTML standard. Tuttavia, se incontri problemi di namespace (tipicamente con documenti XML o XHTML strict), prova ad usare la funzione local-name() nel tuo XPath: "//*[local-name()='div']" invece di "//div". Questo ignora i prefissi di namespace e corrisponde agli elementi solo per il loro nome di tag locale.

Question 7

Quali sono alcune funzioni XPath utili che posso usare?

Accepted Answer

XPath fornisce molte funzioni integrate: position() restituisce l'indice dell'elemento (//li[position()<=3] ottiene i primi 3 elementi della lista); last() seleziona l'ultimo elemento ((//p)[last()]); count() conta gli elementi (//ul[count(li)>5] seleziona liste con più di 5 elementi); normalize-space() rimuove gli spazi bianchi; translate() converte caratteri; concat() unisce stringhe; e not() nega condizioni (//div[not(@class="hidden")] seleziona div visibili). Queste funzioni possono essere combinate per query complesse.

Parametro	Tipo	Obbligatorio	Descrizione
`url`	string	Sì	L'URL completo della pagina web da estrarre (deve includere https:// o http://).
`xpath`	string	Sì	Espressione XPath che punta all'elemento/agli elementi da estrarre. Esempi: "//h1" (tutti gli elementi h1), "//div[@class='content']" (div con classe "content"), "//a/@href" (tutti gli URL dei link), "//table//tr/td[2]" (seconda colonna di tutte le righe della tabella).

SCRAPE_BY_XPATH

Panoramica

Parametri

Esempi

Estrarre l'intestazione principale da una pagina

Ottenere tutti i link contenenti testo specifico

Estrarre la seconda colonna da una tabella dati

Estrarre nomi di prodotti da elementi con attributi dati specifici

Ottenere l'ultimo paragrafo in una pagina

Casi d'Uso

Estrazione Dati Finanziari

Raccolta Dati Governativi

Audit Migrazione Contenuti

Confronto Funzionalità Concorrenti

Monitoraggio Notizie e Media

Suggerimenti Professionali

Errori Comuni

Domande Frequenti

Funzioni Correlate

SCRAPE_BY_CSS_PATH

SCRAPE_BY_REGEX

AI_SCRAPE

Inizia a usare SCRAPE_BY_XPATH oggi