Question 1

Como encontro o seletor CSS correto para o conteúdo que quero extrair?

Accepted Answer

Abra a página web alvo no Chrome ou Firefox, clique com o botão direito no elemento que deseja extrair e selecione "Inspecionar" ou "Inspecionar elemento". Isso abre as ferramentas de desenvolvedor do navegador com o elemento HTML destacado. Você pode clicar com o botão direito no elemento destacado no painel Elementos e escolher "Copiar > Copiar seletor" para obter um seletor CSS gerado automaticamente. Para seletores mais confiáveis, procure por nomes de classe únicos ou IDs no elemento. Por exemplo, se você vir

R$29.99

, seu seletor seria ".product-price". Evite seletores auto-gerados muito específicos com muitos elementos aninhados, pois eles quebram facilmente quando o layout da página muda.

Question 2

Qual é a diferença entre extrair conteúdo de texto e um atributo?

Accepted Answer

Por padrão, SCRAPE_BY_CSS_PATH retorna o conteúdo de texto visível do elemento correspondente, que é o que um usuário vê na página. Quando você especifica um parâmetro de atributo, ele extrai o valor daquele atributo HTML. Por exemplo, uma tag anchor Clique aqui retornaria "Clique aqui" sem um atributo, mas retornaria "https://example.com" se você definir o atributo como "href". Atributos comuns incluem "href" para links, "src" para imagens, "alt" para descrições de imagens, "content" para meta tags e quaisquer atributos personalizados "data-*".

Question 3

Quando devo habilitar a renderização de JavaScript (renderJs)?

Accepted Answer

Habilite renderJs quando o conteúdo que você deseja extrair é carregado dinamicamente via JavaScript. Sinais de que você precisa incluem: a função retorna resultados vazios ou "Nenhuma correspondência encontrada" mesmo que você possa ver o conteúdo no seu navegador; o site é uma aplicação de página única construída com React, Vue, Angular ou frameworks similares; o conteúdo carrega após rolar ou após um atraso; ou a página mostra um spinner de carregamento antes do conteúdo aparecer. O modo padrão é mais rápido e econômico, então tente sem renderJs primeiro e habilite apenas se necessário.

Question 4

Posso extrair múltiplos elementos diferentes da mesma página em uma chamada?

Accepted Answer

Cada chamada para SCRAPE_BY_CSS_PATH direciona um seletor CSS, mas esse seletor pode corresponder a múltiplos elementos do mesmo tipo (todos retornados como linhas). Para extrair diferentes tipos de elementos (por exemplo, tanto títulos quanto preços), faça chamadas de função separadas com seletores diferentes. Você pode combinar seletores CSS com vírgulas para corresponder a múltiplos tipos de elementos em uma chamada, por exemplo ".title, .price", mas os resultados serão intercalados. Para extração de dados estruturados onde você precisa manter títulos emparelhados com seus preços, use colunas separadas com um seletor por coluna.

Question 5

Existe um limite de quantos elementos podem ser retornados?

Accepted Answer

A função retorna até 500 elementos correspondentes por chamada. Se a página contiver mais de 500 elementos correspondentes, apenas os primeiros 500 são retornados. Para a maioria dos casos de uso isso é mais do que suficiente. Se você precisar extrair páginas com números extremamente grandes de elementos, considere usar seletores CSS mais específicos para reduzir os resultados, ou use parâmetros de paginação se o site alvo os suportar.

Question 6

Como extraio conteúdo que requer autenticação ou login?

Accepted Answer

SCRAPE_BY_CSS_PATH acessa páginas como um visitante anônimo sem cookies ou dados de sessão. Não pode extrair conteúdo atrás de muros de login, paywalls ou barreiras de autenticação. O scraper não suporta envio de cookies, headers ou credenciais. Para conteúdo autenticado, você precisaria encontrar uma API pública para esse serviço ou usar uma fonte de dados alternativa. Alguns sites oferecem APIs JSON públicas ou feeds RSS que podem fornecer os dados que você precisa sem autenticação.

Question 7

A função respeita robots.txt?

Accepted Answer

O scraper faz requisições HTTP similares a um navegador web e não verifica nem aplica automaticamente as regras do robots.txt. No entanto, você deve revisar e respeitar o arquivo robots.txt do site alvo e os termos de serviço antes de extrair. Extração excessiva pode levar ao bloqueio do seu IP. Use a função responsavelmente, evite extrair em alta frequência e respeite os limites de taxa. Unlimited Sheets aplica sua própria limitação de taxa para prevenir abusos.

Question 8

Posso usar esta função com IMPORTXML ou IMPORTHTML do Google Sheets?

Accepted Answer

SCRAPE_BY_CSS_PATH é uma função independente que substitui a necessidade de IMPORTXML ou IMPORTHTML em muitos casos. Ao contrário de IMPORTXML, ela usa seletores CSS (que são mais intuitivos para a maioria dos usuários) em vez de expressões XPath. Ao contrário de IMPORTHTML, pode direcionar qualquer elemento na página, não apenas tabelas e listas. Você pode usar SCRAPE_BY_CSS_PATH junto com funções nativas do Google Sheets na mesma planilha sem conflitos.

Parâmetro	Tipo	Obrigatório	Descrição
`url`	string	Sim	A URL completa da página web a ser extraída (deve incluir https:// ou http://).
`selector`	string	Sim	Seletor CSS direcionado ao(s) elemento(s) a extrair. Suporta sintaxe CSS padrão incluindo classes (.class), IDs (#id), elementos (h1), atributos ([data-price]), combinadores (div > p) e pseudo-seletores (li:first-child).
`attribute`	string	Não	Atributo HTML opcional a extrair no lugar do conteúdo de texto. Valores comuns: "href" (URLs de links), "src" (fontes de imagem/script), "alt" (texto alternativo de imagem), "data-*" (atributos de dados personalizados), "content" (valores de meta tags).
`renderJs`	boolean	Não	Opcional. Defina como TRUE para renderizar JavaScript antes de extrair. Necessário para aplicações de página única e conteúdo carregado dinamicamente. Mais lento e usa mais créditos que o modo padrão.

SCRAPE_BY_CSS_PATH

Visão Geral

Parâmetros

Exemplos

Extrair o título principal de uma página

Obter todas as URLs de links de navegação

Extrair preços de produtos de uma página de e-commerce

Extrair meta description para auditoria de SEO

Extrair listagens de produtos renderizadas com JavaScript

Casos de Uso

Monitoramento de Preços de Concorrentes

Auditoria de Títulos e Meta Tags de SEO

Agregação de Vagas de Emprego

Rastreamento de Anúncios Imobiliários

Coleta de Dados para Pesquisa Acadêmica

Prova Social e Monitoramento de Avaliações

Dicas Profissionais

Erros Comuns

Perguntas Frequentes

Funções Relacionadas

SCRAPE_BY_XPATH

SCRAPE_BY_REGEX

AI_SCRAPE

Comece a usar SCRAPE_BY_CSS_PATH hoje