Question 1

Wie finde ich den richtigen CSS-Selektor für den Inhalt, den ich scrapen möchte?

Accepted Answer

Öffne die Ziel-Webseite in Chrome oder Firefox, klicke mit der rechten Maustaste auf das Element, das du scrapen möchtest, und wähle "Untersuchen" oder "Element untersuchen". Dies öffnet die Browser-Entwicklertools mit dem hervorgehobenen HTML-Element. Du kannst mit der rechten Maustaste auf das hervorgehobene Element im Elements-Panel klicken und "Copy > Copy selector" wählen, um einen automatisch generierten CSS-Selektor zu erhalten. Für zuverlässigere Selektoren suche nach eindeutigen Klassennamen oder IDs auf dem Element. Wenn du beispielsweise

29,99 €

siehst, wäre dein Selektor ".product-price". Vermeide zu spezifische automatisch generierte Selektoren mit vielen verschachtelten Elementen, da diese leicht brechen, wenn sich das Seitenlayout ändert.

Question 2

Was ist der Unterschied zwischen dem Scrapen von Textinhalt und einem Attribut?

Accepted Answer

Standardmäßig gibt SCRAPE_BY_CSS_PATH den sichtbaren Textinhalt des übereinstimmenden Elements zurück, also das, was ein Benutzer auf der Seite sieht. Wenn du einen Attributparameter angibst, extrahiert es stattdessen den Wert dieses HTML-Attributs. Zum Beispiel würde ein Anker-Tag Hier klicken ohne Attribut "Hier klicken" zurückgeben, aber "https://example.com" zurückgeben, wenn du das Attribut auf "href" setzt. Häufige Attribute sind "href" für Links, "src" für Bilder, "alt" für Bildbeschreibungen, "content" für Meta-Tags und beliebige "data-*" benutzerdefinierte Attribute.

Question 3

Wann sollte ich JavaScript-Rendering (renderJs) aktivieren?

Accepted Answer

Aktiviere renderJs, wenn der Inhalt, den du scrapen möchtest, dynamisch über JavaScript geladen wird. Anzeichen dafür, dass du es benötigst, sind: Die Funktion gibt leere Ergebnisse oder "Keine Übereinstimmungen gefunden" zurück, obwohl du den Inhalt in deinem Browser sehen kannst; die Website ist eine Single-Page-Anwendung, die mit React, Vue, Angular oder ähnlichen Frameworks erstellt wurde; der Inhalt lädt nach dem Scrollen oder nach einer Verzögerung; oder die Seite zeigt einen Lade-Spinner, bevor Inhalte erscheinen. Der Standardmodus ist schneller und günstiger, also versuche es zuerst ohne renderJs und aktiviere es nur bei Bedarf.

Question 4

Kann ich mehrere verschiedene Elemente von derselben Seite in einem Aufruf scrapen?

Accepted Answer

Jeder Aufruf von SCRAPE_BY_CSS_PATH zielt auf einen CSS-Selektor ab, aber dieser Selektor kann mit mehreren Elementen desselben Typs übereinstimmen (alle werden als Zeilen zurückgegeben). Um verschiedene Arten von Elementen zu scrapen (z. B. sowohl Titel als auch Preise), führe separate Funktionsaufrufe mit unterschiedlichen Selektoren aus. Du kannst CSS-Selektoren mit Kommas kombinieren, um mehrere Elementtypen in einem Aufruf zu matchen, zum Beispiel ".title, .price", aber die Ergebnisse werden verschachtelt. Für strukturierte Datenextraktion, bei der du Titel mit ihren Preisen gepaart halten musst, verwende separate Spalten mit einem Selektor pro Spalte.

Question 5

Gibt es eine Begrenzung, wie viele Elemente zurückgegeben werden können?

Accepted Answer

Die Funktion gibt bis zu 500 übereinstimmende Elemente pro Aufruf zurück. Wenn die Seite mehr als 500 übereinstimmende Elemente enthält, werden nur die ersten 500 zurückgegeben. Für die meisten Anwendungsfälle ist dies mehr als ausreichend. Wenn du Seiten mit extrem großen Mengen an Elementen scrapen musst, erwäge spezifischere CSS-Selektoren zu verwenden, um die Ergebnisse einzugrenzen, oder verwende Paginierungsparameter, wenn die Ziel-Website diese unterstützt.

Question 6

Wie scrape ich Inhalte, die Authentifizierung oder Login erfordern?

Accepted Answer

SCRAPE_BY_CSS_PATH greift auf Seiten als anonymer Besucher ohne Cookies oder Sitzungsdaten zu. Es kann keine Inhalte hinter Login-Mauern, Paywalls oder Authentifizierungsbarrieren scrapen. Der Scraper unterstützt nicht das Senden von Cookies, Headern oder Anmeldeinformationen. Für authentifizierte Inhalte müsstest du eine öffentliche API für diesen Dienst finden oder eine alternative Datenquelle verwenden. Einige Websites bieten öffentliche JSON-APIs oder RSS-Feeds an, die die benötigten Daten ohne Authentifizierung bereitstellen können.

Question 7

Respektiert die Funktion robots.txt?

Accepted Answer

Der Scraper macht HTTP-Anfragen ähnlich einem Webbrowser und prüft oder erzwingt nicht automatisch robots.txt-Regeln. Du solltest jedoch die robots.txt-Datei und die Nutzungsbedingungen der Ziel-Website überprüfen und respektieren, bevor du scrapst. Übermäßiges Scraping kann dazu führen, dass deine IP blockiert wird. Verwende die Funktion verantwortungsvoll, vermeide Scraping mit hoher Frequenz und respektiere Ratenlimits. Unlimited Sheets wendet eigene Ratenbegrenzungen an, um Missbrauch zu verhindern.

Question 8

Kann ich diese Funktion mit Google Sheets IMPORTXML oder IMPORTHTML verwenden?

Accepted Answer

SCRAPE_BY_CSS_PATH ist eine eigenständige Funktion, die in vielen Fällen die Notwendigkeit von IMPORTXML oder IMPORTHTML ersetzt. Im Gegensatz zu IMPORTXML verwendet sie CSS-Selektoren (die für die meisten Benutzer intuitiver sind) anstelle von XPath-Ausdrücken. Im Gegensatz zu IMPORTHTML kann sie jedes Element auf der Seite anzielen, nicht nur Tabellen und Listen. Du kannst SCRAPE_BY_CSS_PATH zusammen mit nativen Google Sheets-Funktionen im selben Spreadsheet ohne Konflikte verwenden.

Parameter	Typ	Erforderlich	Beschreibung
`url`	string	Ja	Die vollständige URL der zu scrapenden Webseite (muss https:// oder http:// enthalten).
`selector`	string	Ja	CSS-Selektor, der auf die zu extrahierenden Elemente abzielt. Unterstützt Standard-CSS-Syntax einschließlich Klassen (.class), IDs (#id), Elementen (h1), Attributen ([data-price]), Kombinatoren (div > p) und Pseudo-Selektoren (li:first-child).
`attribute`	string	Nein	Optionales HTML-Attribut, das anstelle des Textinhalts extrahiert werden soll. Häufige Werte: "href" (Link-URLs), "src" (Bild-/Script-Quellen), "alt" (Bild-Alternativtext), "data-*" (benutzerdefinierte Datenattribute), "content" (Meta-Tag-Werte).
`renderJs`	boolean	Nein	Optional. Auf TRUE setzen, um JavaScript vor dem Scraping zu rendern. Erforderlich für Single-Page-Anwendungen und dynamisch geladene Inhalte. Langsamer und verbraucht mehr Credits als der Standardmodus.

SCRAPE_BY_CSS_PATH

Übersicht

Parameter

Beispiele

Hauptüberschrift einer Seite extrahieren

Alle Navigations-Link-URLs abrufen

Produktpreise von einer E-Commerce-Seite scrapen

Meta-Description für SEO-Audit extrahieren

JavaScript-gerenderte Produktlisten scrapen

Anwendungsfälle

Wettbewerber-Preisüberwachung

SEO-Titel- und Meta-Tag-Audit

Stellenanzeigen-Aggregation

Verfolgung von Immobilienanzeigen

Akademische Forschungsdatenerfassung

Social Proof und Review-Monitoring

Profi-Tipps

Häufige Fehler

Häufig Gestellte Fragen

Verwandte Funktionen

SCRAPE_BY_XPATH

SCRAPE_BY_REGEX

AI_SCRAPE

Beginnen Sie noch heute mit SCRAPE_BY_CSS_PATH