Question 1

¿Cómo encuentro el selector CSS correcto para el contenido que quiero extraer?

Accepted Answer

Abre la página web objetivo en Chrome o Firefox, haz clic derecho en el elemento que quieres extraer y selecciona "Inspeccionar" o "Inspeccionar elemento". Esto abre las herramientas de desarrollador del navegador con el elemento HTML resaltado. Puedes hacer clic derecho en el elemento resaltado en el panel de Elementos y elegir "Copiar > Copiar selector" para obtener un selector CSS auto-generado. Para selectores más confiables, busca nombres de clase únicos o IDs en el elemento. Por ejemplo, si ves

$29.99

, tu selector sería ".product-price". Evita selectores auto-generados demasiado específicos con muchos elementos anidados, ya que se rompen fácilmente cuando el diseño de la página cambia.

Question 2

¿Cuál es la diferencia entre extraer contenido de texto y un atributo?

Accepted Answer

Por defecto, SCRAPE_BY_CSS_PATH devuelve el contenido de texto visible del elemento coincidente, que es lo que un usuario ve en la página. Cuando especificas un parámetro de atributo, extrae el valor de ese atributo HTML en su lugar. Por ejemplo, una etiqueta anchor Haz clic aquí devolvería "Haz clic aquí" sin un atributo, pero devolvería "https://example.com" si estableces el atributo en "href". Los atributos comunes incluyen "href" para enlaces, "src" para imágenes, "alt" para descripciones de imágenes, "content" para meta etiquetas y cualquier atributo personalizado "data-*".

Question 3

¿Cuándo debo habilitar el renderizado de JavaScript (renderJs)?

Accepted Answer

Habilita renderJs cuando el contenido que quieres extraer se carga dinámicamente vía JavaScript. Las señales de que lo necesitas incluyen: la función devuelve resultados vacíos o "No se encontraron coincidencias" aunque puedas ver el contenido en tu navegador; el sitio web es una aplicación de página única construida con React, Vue, Angular o frameworks similares; el contenido se carga después de desplazarse o después de un retraso; o la página muestra un spinner de carga antes de que aparezca el contenido. El modo estándar es más rápido y económico, así que intenta sin renderJs primero y solo habilítalo si es necesario.

Question 4

¿Puedo extraer múltiples elementos diferentes de la misma página en una llamada?

Accepted Answer

Cada llamada a SCRAPE_BY_CSS_PATH apunta a un selector CSS, pero ese selector puede coincidir con múltiples elementos del mismo tipo (todos devueltos como filas). Para extraer diferentes tipos de elementos (por ejemplo, tanto títulos como precios), haz llamadas de función separadas con diferentes selectores. Puedes combinar selectores CSS con comas para coincidir con múltiples tipos de elementos en una llamada, por ejemplo ".title, .price", pero los resultados estarán intercalados. Para extracción de datos estructurados donde necesitas mantener los títulos emparejados con sus precios, usa columnas separadas con un selector por columna.

Question 5

¿Hay un límite de cuántos elementos se pueden devolver?

Accepted Answer

La función devuelve hasta 500 elementos coincidentes por llamada. Si la página contiene más de 500 elementos coincidentes, solo se devuelven los primeros 500. Para la mayoría de casos de uso esto es más que suficiente. Si necesitas extraer páginas con números extremadamente grandes de elementos, considera usar selectores CSS más específicos para reducir los resultados, o usa parámetros de paginación si el sitio web objetivo los soporta.

Question 6

¿Cómo extraigo contenido que requiere autenticación o inicio de sesión?

Accepted Answer

SCRAPE_BY_CSS_PATH accede a las páginas como un visitante anónimo sin cookies ni datos de sesión. No puede extraer contenido detrás de muros de inicio de sesión, paywalls o barreras de autenticación. El scraper no soporta enviar cookies, headers o credenciales. Para contenido autenticado, necesitarías encontrar una API pública para ese servicio o usar una fuente de datos alternativa. Algunos sitios web ofrecen APIs JSON públicas o feeds RSS que pueden proporcionar los datos que necesitas sin autenticación.

Question 7

¿La función respeta robots.txt?

Accepted Answer

El scraper hace solicitudes HTTP similares a un navegador web y no verifica ni aplica automáticamente las reglas de robots.txt. Sin embargo, debes revisar y respetar el archivo robots.txt del sitio web objetivo y los términos de servicio antes de extraer. La extracción excesiva puede llevar a que tu IP sea bloqueada. Usa la función responsablemente, evita extraer a alta frecuencia y respeta los límites de tasa. Unlimited Sheets aplica su propia limitación de tasa para prevenir abusos.

Question 8

¿Puedo usar esta función con IMPORTXML o IMPORTHTML de Google Sheets?

Accepted Answer

SCRAPE_BY_CSS_PATH es una función independiente que reemplaza la necesidad de IMPORTXML o IMPORTHTML en muchos casos. A diferencia de IMPORTXML, usa selectores CSS (que son más intuitivos para la mayoría de usuarios) en lugar de expresiones XPath. A diferencia de IMPORTHTML, puede apuntar a cualquier elemento en la página, no solo tablas y listas. Puedes usar SCRAPE_BY_CSS_PATH junto con funciones nativas de Google Sheets en la misma hoja de cálculo sin conflictos.

Parámetro	Tipo	Requerido	Descripción
`url`	string	Sí	La URL completa de la página web a extraer (debe incluir https:// o http://).
`selector`	string	Sí	Selector CSS dirigido al/los elemento(s) a extraer. Soporta sintaxis CSS estándar incluyendo clases (.class), IDs (#id), elementos (h1), atributos ([data-price]), combinadores (div > p) y pseudo-selectores (li:first-child).
`attribute`	string	No	Atributo HTML opcional a extraer en lugar del contenido de texto. Valores comunes: "href" (URLs de enlaces), "src" (fuentes de imagen/script), "alt" (texto alternativo de imagen), "data-*" (atributos de datos personalizados), "content" (valores de meta etiquetas).
`renderJs`	boolean	No	Opcional. Establece en TRUE para renderizar JavaScript antes de extraer. Requerido para aplicaciones de página única y contenido cargado dinámicamente. Más lento y usa más créditos que el modo estándar.

SCRAPE_BY_CSS_PATH

Descripción General

Parámetros

Ejemplos

Extraer el encabezado principal de una página

Obtener todas las URLs de enlaces de navegación

Extraer precios de productos de una página de e-commerce

Extraer meta descripción para auditoría SEO

Extraer listados de productos renderizados con JavaScript

Casos de Uso

Monitoreo de Precios de Competidores

Auditoría de Títulos y Meta Etiquetas SEO

Agregación de Ofertas de Empleo

Seguimiento de Listados Inmobiliarios

Recopilación de Datos para Investigación Académica

Prueba Social y Monitoreo de Reseñas

Consejos Profesionales

Errores Comunes

Preguntas Frecuentes

Funciones Relacionadas

SCRAPE_BY_XPATH

SCRAPE_BY_REGEX

AI_SCRAPE

Comienza a usar SCRAPE_BY_CSS_PATH hoy