Question 1

¿Cómo escribo patrones regex en fórmulas de Google Sheets?

Accepted Answer

En fórmulas de Google Sheets, los strings se encierran entre comillas dobles. Dado que regex usa barras invertidas para caracteres especiales (\d para dígitos, \s para espacios en blanco), y el analizador de fórmulas de Sheets no interpreta las barras invertidas como caracteres de escape dentro de strings, las escribes como barras invertidas simples: "\d+" coincide con uno o más dígitos. Si ves comportamiento inesperado, intenta el patrón con removeHtml establecido en TRUE para simplificar el contenido que se está coincidiendo. Prueba tu regex en regex101.com antes de usarlo en la función.

Question 2

¿Cuál es la diferencia entre grupo 0 y grupo 1?

Accepted Answer

El grupo 0 (por defecto) devuelve todo el texto coincidente. El grupo 1 devuelve solo el texto dentro del primer conjunto de paréntesis en tu patrón. Por ejemplo, con el patrón "Precio: (\$[0-9.]+)" aplicado al texto "Precio: $29.99", el grupo 0 devuelve "Precio: $29.99" y el grupo 1 devuelve "$29.99". Esto es útil cuando necesitas coincidir con un patrón para contexto pero solo extraer parte de él. Puedes tener múltiples grupos de captura (grupo 2, grupo 3, etc.) agregando más secciones entre paréntesis a tu patrón.

Question 3

¿Cuándo debo usar removeHtml?

Accepted Answer

Habilita removeHtml (establece en TRUE) cuando: (1) El texto que quieres coincidir está dividido en múltiples etiquetas HTML, como un precio mostrado como "$29.99". (2) Las etiquetas HTML están interfiriendo con las coincidencias de tu patrón. (3) Quieres coincidir contra solo el contenido de texto visible, ignorando todo el marcado. (4) Tu regex está diseñado para texto plano, no HTML. Déjalo como FALSE cuando específicamente necesites coincidir con atributos HTML, nombres de etiquetas o estructura de marcado.

Question 4

¿Puedo usar flags de regex como coincidencia insensible a mayúsculas?

Accepted Answer

El motor regex soporta flags en línea usando la sintaxis (?flags) al comienzo de tu patrón. Usa "(?i)" para coincidencia insensible a mayúsculas, "(?s)" para modo de línea única (punto coincide con saltos de línea), y "(?m)" para modo multilínea. Por ejemplo, "(?i)precio:\s*\$[0-9.]+" coincide con variantes de "Precio:", "PRECIO:" y "precio:". Puedes combinar flags: "(?im)" habilita tanto modo insensible a mayúsculas como multilínea.

Question 5

¿Por qué mi regex coincide con etiquetas HTML en lugar del texto que quiero?

Accepted Answer

Por defecto, el regex se aplica al código HTML fuente sin procesar, que incluye todas las etiquetas, atributos y marcado. Por ejemplo, un patrón como "[A-Z][a-z]+" destinado a coincidir con palabras capitalizadas también podría coincidir con nombres de etiquetas como "Div" o "Span". Establece removeHtml en TRUE para eliminar primero todas las etiquetas HTML, para que tu regex solo vea el contenido de texto visible. Alternativamente, haz tu regex más específico para excluir patrones HTML.

Question 6

¿Hay un límite de qué tan complejo puede ser mi regex?

Accepted Answer

El motor regex soporta sintaxis completa compatible con PCRE incluyendo lookaheads, lookbehinds, grupos sin captura, cuantificadores perezosos y clases de caracteres. Sin embargo, patrones extremadamente complejos con backtracking excesivo (como cuantificadores anidados como "(a+)+") pueden causar errores de timeout. Mantén los patrones tan simples y específicos como sea posible. Si te encuentras escribiendo patrones regex muy largos, considera usar SCRAPE_BY_CSS_PATH o SCRAPE_BY_XPATH para reducir el contenido primero, luego usa regex en el resultado.

Question 7

¿Cómo se compara SCRAPE_BY_REGEX con REGEXEXTRACT en Google Sheets?

Accepted Answer

REGEXEXTRACT es una función nativa de Google Sheets que aplica un regex a texto ya en tu hoja de cálculo. SCRAPE_BY_REGEX obtiene una página web y aplica el regex al contenido de la página, combinando obtención web y extracción en un solo paso. Podrías lograr resultados similares usando SCRAPE_BY_CSS_PATH para obtener el texto de la página y luego REGEXEXTRACT en el resultado, pero SCRAPE_BY_REGEX es más eficiente ya que procesa todo del lado del servidor en una solicitud y puede devolver múltiples coincidencias.

Question 8

¿Puede el patrón regex coincidir a través de múltiples líneas?

Accepted Answer

Por defecto, el punto (.) en regex no coincide con caracteres de salto de línea. Si necesitas coincidir a través de saltos de línea, usa el flag en línea "(?s)" al inicio de tu patrón para habilitar el modo de línea única, donde el punto coincide con cualquier carácter incluyendo saltos de línea. Por ejemplo, "(?s)

.*?

" coincide con un div y todo su contenido a través de múltiples líneas. El flag (?m) hace que ^ y $ coincidan con el inicio/fin de cada línea en lugar de todo el string.

Parámetro	Tipo	Requerido	Descripción
`url`	string	Sí	La URL completa de la página web a extraer (debe incluir https:// o http://).
`regex`	string	Sí	Patrón de expresión regular para coincidir contra el contenido de la página. Usa sintaxis regex estándar. Las barras invertidas deben duplicarse en fórmulas de Sheets (por ejemplo, "\\d+" para dígitos).
`removeHtml`	boolean	No (FALSE)	Opcional. Establece en TRUE para eliminar todas las etiquetas HTML antes de aplicar el regex, dejando solo contenido de texto visible. Por defecto es FALSE (regex aplicado al código HTML fuente).
`group`	number	No (0)	Opcional. El grupo de captura a devolver. 0 devuelve la coincidencia completa, 1 devuelve el primer grupo de captura, 2 el segundo, etc. Por defecto es 0.
`renderJs`	boolean	No	Opcional. Establece en TRUE para renderizar JavaScript antes de aplicar el regex. Requerido para contenido cargado dinámicamente. Más lento que el modo estándar.

SCRAPE_BY_REGEX

Descripción General

Parámetros

Ejemplos

Extraer todos los precios de una página

Extraer direcciones de correo electrónico de una página de contacto

Extraer valores usando un grupo de captura

Extraer números de teléfono de listados de negocios

Casos de Uso

Monitoreo de Precios en Múltiples Minoristas

Generación de Leads desde Directorios de Negocios

Extracción de SKU de Catálogos de Productos

Extracción de Referencias de Documentos Legales

Seguimiento de Números de Versión y Registros de Cambios

Recopilación de Datos de Perfiles de Redes Sociales

Consejos Profesionales

Errores Comunes

Preguntas Frecuentes

Funciones Relacionadas

SCRAPE_BY_CSS_PATH

SCRAPE_BY_XPATH

AI_SCRAPE

Comienza a usar SCRAPE_BY_REGEX hoy