Question 1

Como escrevo padrões regex em fórmulas do Google Sheets?

Accepted Answer

Em fórmulas do Google Sheets, strings são cercadas por aspas duplas. Como regex usa barras invertidas para caracteres especiais (\d para dígitos, \s para espaços em branco), e o analisador de fórmulas do Sheets não interpreta barras invertidas como caracteres de escape dentro de strings, você as escreve como barras invertidas simples: "\d+" corresponde a um ou mais dígitos. Se você está vendo comportamento inesperado, tente o padrão com removeHtml definido como TRUE para simplificar o conteúdo sendo correspondido. Teste seu regex em regex101.com antes de usá-lo na função.

Question 2

Qual é a diferença entre grupo 0 e grupo 1?

Accepted Answer

Grupo 0 (o padrão) retorna todo o texto correspondente. Grupo 1 retorna apenas o texto dentro do primeiro conjunto de parênteses no seu padrão. Por exemplo, com o padrão "Preço: (R\$[0-9,]+)" aplicado ao texto "Preço: R$29,99", grupo 0 retorna "Preço: R$29,99" e grupo 1 retorna "R$29,99". Isso é útil quando você precisa corresponder a um padrão para contexto mas apenas extrair parte dele. Você pode ter múltiplos grupos de captura (grupo 2, grupo 3, etc.) adicionando mais seções entre parênteses ao seu padrão.

Question 3

Quando devo usar removeHtml?

Accepted Answer

Habilite removeHtml (defina como TRUE) quando: (1) O texto que você quer corresponder está dividido em múltiplas tags HTML, como um preço exibido como "R$29,99". (2) Tags HTML estão interferindo com suas correspondências de padrão. (3) Você quer corresponder apenas ao conteúdo de texto visível, ignorando toda marcação. (4) Seu regex é projetado para texto plano, não HTML. Deixe como FALSE quando você especificamente precisa corresponder a atributos HTML, nomes de tags ou estrutura de marcação.

Question 4

Posso usar flags de regex como correspondência insensível a maiúsculas?

Accepted Answer

O motor regex suporta flags inline usando a sintaxe (?flags) no início do seu padrão. Use "(?i)" para correspondência insensível a maiúsculas, "(?s)" para modo de linha única (ponto corresponde a quebras de linha), e "(?m)" para modo multilinha. Por exemplo, "(?i)preço:\s*R\$[0-9,]+" corresponde a variantes de "Preço:", "PREÇO:" e "preço:". Você pode combinar flags: "(?im)" habilita tanto modo insensível a maiúsculas quanto multilinha.

Question 5

Por que meu regex corresponde a tags HTML em vez do texto que quero?

Accepted Answer

Por padrão, o regex é aplicado ao código HTML fonte bruto, que inclui todas as tags, atributos e marcação. Por exemplo, um padrão como "[A-Z][a-z]+" destinado a corresponder a palavras capitalizadas também pode corresponder a nomes de tags como "Div" ou "Span". Defina removeHtml como TRUE para remover todas as tags HTML primeiro, para que seu regex veja apenas o conteúdo de texto visível. Alternativamente, torne seu regex mais específico para excluir padrões HTML.

Question 6

Existe um limite para quão complexo meu regex pode ser?

Accepted Answer

O motor regex suporta sintaxe completa compatível com PCRE incluindo lookaheads, lookbehinds, grupos sem captura, quantificadores preguiçosos e classes de caracteres. No entanto, padrões extremamente complexos com backtracking excessivo (como quantificadores aninhados como "(a+)+") podem causar erros de timeout. Mantenha os padrões tão simples e específicos quanto possível. Se você se encontrar escrevendo padrões regex muito longos, considere usar SCRAPE_BY_CSS_PATH ou SCRAPE_BY_XPATH para reduzir o conteúdo primeiro, então use regex no resultado.

Question 7

Como SCRAPE_BY_REGEX se compara a REGEXEXTRACT no Google Sheets?

Accepted Answer

REGEXEXTRACT é uma função nativa do Google Sheets que aplica um regex a texto já na sua planilha. SCRAPE_BY_REGEX busca uma página web e aplica o regex ao conteúdo da página, combinando busca web e extração em um único passo. Você poderia alcançar resultados similares usando SCRAPE_BY_CSS_PATH para obter o texto da página e então REGEXEXTRACT no resultado, mas SCRAPE_BY_REGEX é mais eficiente pois processa tudo no lado do servidor em uma requisição e pode retornar múltiplas correspondências.

Question 8

O padrão regex pode corresponder através de múltiplas linhas?

Accepted Answer

Por padrão, o ponto (.) em regex não corresponde a caracteres de quebra de linha. Se você precisa corresponder através de quebras de linha, use a flag inline "(?s)" no início do seu padrão para habilitar o modo de linha única, onde ponto corresponde a qualquer caractere incluindo quebras de linha. Por exemplo, "(?s)

.*?

" corresponde a uma div e todo seu conteúdo através de múltiplas linhas. A flag (?m) faz ^ e $ corresponderem ao início/fim de cada linha em vez da string inteira.

Parâmetro	Tipo	Obrigatório	Descrição
`url`	string	Sim	A URL completa da página web a ser extraída (deve incluir https:// ou http://).
`regex`	string	Sim	Padrão de expressão regular para corresponder ao conteúdo da página. Use sintaxe regex padrão. Barras invertidas devem ser duplicadas em fórmulas do Sheets (por exemplo, "\\d+" para dígitos).
`removeHtml`	boolean	Não (FALSE)	Opcional. Defina como TRUE para remover todas as tags HTML antes de aplicar o regex, deixando apenas conteúdo de texto visível. O padrão é FALSE (regex aplicado ao código HTML fonte).
`group`	number	Não (0)	Opcional. O grupo de captura a retornar. 0 retorna a correspondência completa, 1 retorna o primeiro grupo de captura, 2 o segundo, etc. O padrão é 0.
`renderJs`	boolean	Não	Opcional. Defina como TRUE para renderizar JavaScript antes de aplicar o regex. Necessário para conteúdo carregado dinamicamente. Mais lento que o modo padrão.

SCRAPE_BY_REGEX

Visão Geral

Parâmetros

Exemplos

Extrair todos os preços de uma página

Extrair endereços de e-mail de uma página de contato

Extrair valores usando um grupo de captura

Extrair números de telefone de listagens de empresas

Casos de Uso

Monitoramento de Preços em Múltiplos Varejistas

Geração de Leads de Diretórios de Empresas

Extração de SKU de Catálogos de Produtos

Extração de Referências de Documentos Legais

Rastreamento de Números de Versão e Changelogs

Coleta de Dados de Perfis de Redes Sociais

Dicas Profissionais

Erros Comuns

Perguntas Frequentes

Funções Relacionadas

SCRAPE_BY_CSS_PATH

SCRAPE_BY_XPATH

AI_SCRAPE

Comece a usar SCRAPE_BY_REGEX hoje