Question 1

Qual é a diferença entre seletores CSS e XPath?

Accepted Answer

Seletores CSS e XPath ambos direcionam elementos HTML, mas diferem em capacidades. Seletores CSS são mais simples e funcionam bem para selecionar elementos por classe, ID ou nome de tag (por exemplo, ".price", "#header", "h1"). XPath é mais poderoso e pode: percorrer para cima na árvore do documento (selecionar um pai baseado em um filho), filtrar por conteúdo de texto (//a[contains(text(), "Comprar")]), usar condições lógicas (and/or), selecionar por posição (//li[3]) e usar funções como string-length() e normalize-space(). Use seletores CSS para extração simples e XPath quando você precisa de capacidades de consulta avançadas.

Question 2

SCRAPE_BY_XPATH sempre renderiza JavaScript?

Accepted Answer

Sim. Ao contrário de SCRAPE_BY_CSS_PATH que oferece renderização de JavaScript como parâmetro opcional, SCRAPE_BY_XPATH sempre usa um navegador headless que executa completamente JavaScript antes de avaliar a expressão XPath. Isso significa que funciona confiavelmente em todos os tipos de sites incluindo aplicações de página única, mas é mais lento que SCRAPE_BY_CSS_PATH em modo padrão (sem JS). Se velocidade é uma prioridade e a página alvo não requer renderização de JavaScript, considere usar SCRAPE_BY_CSS_PATH.

Question 3

Como extraio um valor de atributo com XPath?

Accepted Answer

Adicione /@nomeAtributo à sua expressão XPath. Por exemplo, para obter todas as fontes de imagem: "//img/@src". Para obter atributos href de links: "//a/@href". Para obter o valor de um atributo de dados personalizado: "//div/@data-product-id". Você também pode combinar extração de atributos com filtros: "//a[@class='external']/@href" obtém valores href apenas de links com a classe "external".

Question 4

Posso usar XPath para selecionar elementos pelo seu conteúdo de texto?

Accepted Answer

Sim, este é um dos recursos mais poderosos do XPath. Use text() para corresponder conteúdo de texto: "//a[text()='Clique aqui']" corresponde a links com o texto exato "Clique aqui". Use contains() para correspondências parciais: "//p[contains(text(), 'preço')]" corresponde a parágrafos contendo a palavra "preço". Use starts-with() para correspondência de prefixo: "//div[starts-with(@class, 'product-')]" corresponde a divs cuja classe começa com "product-". Esses seletores baseados em texto não estão disponíveis com seletores CSS.

Question 5

Por que meu XPath retorna resultados vazios quando posso ver o elemento no navegador?

Accepted Answer

Causas comuns incluem: (1) O elemento está dentro de um iframe, que é um documento separado que o XPath não pode alcançar. (2) O elemento está dentro de um componente Shadow DOM, que cria uma árvore DOM encapsulada. (3) A sintaxe XPath tem um erro, como aspas incorretas ou problemas de namespace. (4) A página usa nomes de classe dinâmicos que mudam em cada carregamento (comum com bibliotecas CSS-in-JS). Teste seu XPath no console do navegador usando document.evaluate() ou o atalho $x(): $x("//seu/xpath/aqui") para verificar se corresponde aos elementos esperados.

Question 6

Como lido com páginas que usam diferentes namespaces (como XHTML ou SVG)?

Accepted Answer

A maioria das páginas HTML modernas não requer tratamento de namespace, e o scraper as processa como HTML padrão. No entanto, se você encontrar problemas de namespace (tipicamente com documentos XML ou XHTML estritos), tente usar a função local-name() no seu XPath: "//*[local-name()='div']" em vez de "//div". Isso ignora prefixos de namespace e corresponde elementos apenas pelo seu nome de tag local.

Question 7

Quais são algumas funções XPath úteis que posso usar?

Accepted Answer

XPath fornece muitas funções integradas: position() retorna índice de elemento (//li[position()<=3] obtém os primeiros 3 itens de lista); last() seleciona o último elemento ((//p)[last()]); count() conta elementos (//ul[count(li)>5] seleciona listas com mais de 5 itens); normalize-space() remove espaços em branco extras; translate() converte caracteres; concat() junta strings; e not() nega condições (//div[not(@class="hidden")] seleciona divs visíveis). Essas funções podem ser combinadas para consultas complexas.

Parâmetro	Tipo	Obrigatório	Descrição
`url`	string	Sim	A URL completa da página web a ser extraída (deve incluir https:// ou http://).
`xpath`	string	Sim	Expressão XPath direcionada ao(s) elemento(s) a extrair. Exemplos: "//h1" (todos os elementos h1), "//div[@class='content']" (divs com classe "content"), "//a/@href" (todas as URLs de links), "//table//tr/td[2]" (segunda coluna de todas as linhas da tabela).

SCRAPE_BY_XPATH

Visão Geral

Parâmetros

Exemplos

Extrair o título principal de uma página

Obter todos os links contendo texto específico

Extrair segunda coluna de uma tabela de dados

Extrair nomes de produtos de elementos com atributos de dados específicos

Obter o último parágrafo em uma página

Casos de Uso

Extração de Dados Financeiros

Coleta de Dados Governamentais

Auditorias de Migração de Conteúdo

Comparação de Recursos de Concorrentes

Monitoramento de Notícias e Mídia

Dicas Profissionais

Erros Comuns

Perguntas Frequentes

Funções Relacionadas

SCRAPE_BY_CSS_PATH

SCRAPE_BY_REGEX

AI_SCRAPE

Comece a usar SCRAPE_BY_XPATH hoje