Question 1

¿Cuál es la diferencia entre selectores CSS y XPath?

Accepted Answer

Los selectores CSS y XPath ambos apuntan a elementos HTML, pero difieren en capacidades. Los selectores CSS son más simples y funcionan bien para seleccionar elementos por clase, ID o nombre de etiqueta (por ejemplo, ".price", "#header", "h1"). XPath es más poderoso y puede: atravesar hacia arriba en el árbol del documento (seleccionar un padre basado en un hijo), filtrar por contenido de texto (//a[contains(text(), "Comprar")]), usar condiciones lógicas (and/or), seleccionar por posición (//li[3]) y usar funciones como string-length() y normalize-space(). Usa selectores CSS para extracción simple y XPath cuando necesites capacidades de consulta avanzadas.

Question 2

¿SCRAPE_BY_XPATH siempre renderiza JavaScript?

Accepted Answer

Sí. A diferencia de SCRAPE_BY_CSS_PATH que ofrece renderizado de JavaScript como parámetro opcional, SCRAPE_BY_XPATH siempre usa un navegador sin interfaz que ejecuta completamente JavaScript antes de evaluar la expresión XPath. Esto significa que funciona confiablemente en todos los tipos de sitios web incluyendo aplicaciones de página única, pero es más lento que SCRAPE_BY_CSS_PATH en modo estándar (sin JS). Si la velocidad es una prioridad y la página objetivo no requiere renderizado de JavaScript, considera usar SCRAPE_BY_CSS_PATH en su lugar.

Question 3

¿Cómo extraigo un valor de atributo con XPath?

Accepted Answer

Agrega /@nombreAtributo a tu expresión XPath. Por ejemplo, para obtener todas las fuentes de imagen: "//img/@src". Para obtener atributos href de enlaces: "//a/@href". Para obtener el valor de un atributo de datos personalizado: "//div/@data-product-id". También puedes combinar extracción de atributos con filtros: "//a[@class='external']/@href" obtiene valores href solo de enlaces con la clase "external".

Question 4

¿Puedo usar XPath para seleccionar elementos por su contenido de texto?

Accepted Answer

Sí, esta es una de las características más poderosas de XPath. Usa text() para coincidir contenido de texto: "//a[text()='Haz clic aquí']" coincide con enlaces con el texto exacto "Haz clic aquí". Usa contains() para coincidencias parciales: "//p[contains(text(), 'precio')]" coincide con párrafos que contienen la palabra "precio". Usa starts-with() para coincidencia de prefijo: "//div[starts-with(@class, 'product-')]" coincide con divs cuya clase comienza con "product-". Estos selectores basados en texto no están disponibles con selectores CSS.

Question 5

¿Por qué mi XPath devuelve resultados vacíos cuando puedo ver el elemento en el navegador?

Accepted Answer

Las causas comunes incluyen: (1) El elemento está dentro de un iframe, que es un documento separado que el XPath no puede alcanzar. (2) El elemento está dentro de un componente Shadow DOM, que crea un árbol DOM encapsulado. (3) La sintaxis XPath tiene un error, como comillas incorrectas o problemas de espacio de nombres. (4) La página usa nombres de clase dinámicos que cambian en cada carga (común con bibliotecas CSS-in-JS). Prueba tu XPath en la consola del navegador usando document.evaluate() o el atajo $x(): $x("//tu/xpath/aqui") para verificar que coincide con los elementos esperados.

Question 6

¿Cómo manejo páginas que usan diferentes espacios de nombres (como XHTML o SVG)?

Accepted Answer

La mayoría de páginas HTML modernas no requieren manejo de espacios de nombres, y el scraper las procesa como HTML estándar. Sin embargo, si encuentras problemas de espacios de nombres (típicamente con documentos XML o XHTML estrictos), intenta usar la función local-name() en tu XPath: "//*[local-name()='div']" en lugar de "//div". Esto ignora prefijos de espacios de nombres y coincide elementos solo por su nombre de etiqueta local.

Question 7

¿Cuáles son algunas funciones XPath útiles que puedo usar?

Accepted Answer

XPath proporciona muchas funciones integradas: position() devuelve índice de elemento (//li[position()<=3] obtiene los primeros 3 elementos de lista); last() selecciona el último elemento ((//p)[last()]); count() cuenta elementos (//ul[count(li)>5] selecciona listas con más de 5 elementos); normalize-space() recorta espacios en blanco; translate() convierte caracteres; concat() une strings; y not() niega condiciones (//div[not(@class="hidden")] selecciona divs visibles). Estas funciones pueden combinarse para consultas complejas.

Parámetro	Tipo	Requerido	Descripción
`url`	string	Sí	La URL completa de la página web a extraer (debe incluir https:// o http://).
`xpath`	string	Sí	Expresión XPath dirigida al/los elemento(s) a extraer. Ejemplos: "//h1" (todos los elementos h1), "//div[@class='content']" (divs con clase "content"), "//a/@href" (todas las URLs de enlaces), "//table//tr/td[2]" (segunda columna de todas las filas de tabla).

SCRAPE_BY_XPATH

Descripción General

Parámetros

Ejemplos

Extraer el encabezado principal de una página

Obtener todos los enlaces que contienen texto específico

Extraer segunda columna de una tabla de datos

Extraer nombres de productos de elementos con atributos de datos específicos

Obtener el último párrafo en una página

Casos de Uso

Extracción de Datos Financieros

Recopilación de Datos Gubernamentales

Auditorías de Migración de Contenido

Comparación de Características de Competidores

Monitoreo de Noticias y Medios

Consejos Profesionales

Errores Comunes

Preguntas Frecuentes

Funciones Relacionadas

SCRAPE_BY_CSS_PATH

SCRAPE_BY_REGEX

AI_SCRAPE

Comienza a usar SCRAPE_BY_XPATH hoy