Question 1

Was ist der Unterschied zwischen CSS-Selektoren und XPath?

Accepted Answer

CSS-Selektoren und XPath zielen beide auf HTML-Elemente ab, unterscheiden sich jedoch in ihren Fähigkeiten. CSS-Selektoren sind einfacher und funktionieren gut für die Auswahl von Elementen nach Klasse, ID oder Tag-Name (z. B. ".price", "#header", "h1"). XPath ist leistungsfähiger und kann: im Dokumentbaum nach oben navigieren (ein Elternelement basierend auf einem Kind auswählen), nach Textinhalt filtern (//a[contains(text(), "Kaufen")]), logische Bedingungen verwenden (and/or), nach Position auswählen (//li[3]) und Funktionen wie string-length() und normalize-space() verwenden. Verwende CSS-Selektoren für einfache Extraktion und XPath, wenn du erweiterte Abfragefähigkeiten benötigst.

Question 2

Rendert SCRAPE_BY_XPATH immer JavaScript?

Accepted Answer

Ja. Im Gegensatz zu SCRAPE_BY_CSS_PATH, das JavaScript-Rendering als optionalen Parameter bietet, verwendet SCRAPE_BY_XPATH immer einen Headless-Browser, der JavaScript vollständig ausführt, bevor der XPath-Ausdruck ausgewertet wird. Das bedeutet, es funktioniert zuverlässig auf allen Arten von Websites, einschließlich Single-Page-Anwendungen, ist aber langsamer als SCRAPE_BY_CSS_PATH im Standard-(Nicht-JS-)Modus. Wenn Geschwindigkeit eine Priorität ist und die Zielseite kein JavaScript-Rendering erfordert, erwäge stattdessen SCRAPE_BY_CSS_PATH zu verwenden.

Question 3

Wie extrahiere ich einen Attributwert mit XPath?

Accepted Answer

Hänge /@attributName an deinen XPath-Ausdruck an. Um zum Beispiel alle Bildquellen zu erhalten: "//img/@src". Um href-Attribute von Links zu erhalten: "//a/@href". Um den Wert eines benutzerdefinierten Datenattributs zu erhalten: "//div/@data-product-id". Du kannst auch Attributextraktion mit Filtern kombinieren: "//a[@class='external']/@href" erhält href-Werte nur von Links mit der Klasse "external".

Question 4

Kann ich XPath verwenden, um Elemente nach ihrem Textinhalt auszuwählen?

Accepted Answer

Ja, das ist eine der mächtigsten Funktionen von XPath. Verwende text(), um Textinhalt zu matchen: "//a[text()='Hier klicken']" matched Links mit dem exakten Text "Hier klicken". Verwende contains() für Teilübereinstimmungen: "//p[contains(text(), 'preis')]" matched Absätze, die das Wort "preis" enthalten. Verwende starts-with() für Präfix-Matching: "//div[starts-with(@class, 'product-')]" matched divs, deren Klasse mit "product-" beginnt. Diese textbasierten Selektoren sind mit CSS-Selektoren nicht verfügbar.

Question 5

Warum gibt mein XPath leere Ergebnisse zurück, wenn ich das Element im Browser sehen kann?

Accepted Answer

Häufige Ursachen sind: (1) Das Element befindet sich innerhalb eines iframe, das ein separates Dokument ist, das der XPath nicht erreichen kann. (2) Das Element befindet sich innerhalb einer Shadow-DOM-Komponente, die einen gekapselten DOM-Baum erstellt. (3) Die XPath-Syntax hat einen Fehler, wie falsche Anführungszeichen oder Namespace-Probleme. (4) Die Seite verwendet dynamische Klassennamen, die sich bei jedem Laden ändern (häufig bei CSS-in-JS-Bibliotheken). Teste dein XPath in der Browser-Konsole mit document.evaluate() oder dem $x()-Shortcut: $x("//dein/xpath/hier"), um zu überprüfen, ob es die erwarteten Elemente matched.

Question 6

Wie gehe ich mit Seiten um, die verschiedene Namespaces verwenden (wie XHTML oder SVG)?

Accepted Answer

Die meisten modernen HTML-Seiten erfordern keine Namespace-Behandlung, und der Scraper verarbeitet sie als Standard-HTML. Wenn du jedoch auf Namespace-Probleme stößt (typischerweise bei XML- oder XHTML-Strict-Dokumenten), versuche die local-name()-Funktion in deinem XPath zu verwenden: "//*[local-name()='div']" anstelle von "//div". Dies ignoriert Namespace-Präfixe und matched Elemente nur nach ihrem lokalen Tag-Namen.

Question 7

Welche nützlichen XPath-Funktionen kann ich verwenden?

Accepted Answer

XPath bietet viele integrierte Funktionen: position() gibt den Element-Index zurück (//li[position()<=3] erhält die ersten 3 Listenelemente); last() wählt das letzte Element aus ((//p)[last()]); count() zählt Elemente (//ul[count(li)>5] wählt Listen mit mehr als 5 Elementen aus); normalize-space() trimmt Leerzeichen; translate() konvertiert Zeichen; concat() verbindet Strings; und not() negiert Bedingungen (//div[not(@class="hidden")] wählt sichtbare divs aus). Diese Funktionen können für komplexe Abfragen kombiniert werden.

Parameter	Typ	Erforderlich	Beschreibung
`url`	string	Ja	Die vollständige URL der zu scrapenden Webseite (muss https:// oder http:// enthalten).
`xpath`	string	Ja	XPath-Ausdruck, der auf die zu extrahierenden Elemente abzielt. Beispiele: "//h1" (alle h1-Elemente), "//div[@class='content']" (divs mit Klasse "content"), "//a/@href" (alle Link-URLs), "//table//tr/td[2]" (zweite Spalte aller Tabellenzeilen).

SCRAPE_BY_XPATH

Übersicht

Parameter

Beispiele

Hauptüberschrift einer Seite extrahieren

Alle Links mit spezifischem Text abrufen

Zweite Spalte aus einer Datentabelle extrahieren

Produktnamen aus Elementen mit spezifischen Datenattributen extrahieren

Letzten Absatz auf einer Seite abrufen

Anwendungsfälle

Extraktion von Finanzdaten

Regierungsdatenerfassung

Audits für Content-Migration

Vergleich von Wettbewerber-Features

Nachrichten- und Medienmonitoring

Profi-Tipps

Häufige Fehler

Häufig Gestellte Fragen

Verwandte Funktionen

SCRAPE_BY_CSS_PATH

SCRAPE_BY_REGEX

AI_SCRAPE

Beginnen Sie noch heute mit SCRAPE_BY_XPATH