Question 1

Wie schreibe ich Regex-Muster in Google Sheets-Formeln?

Accepted Answer

In Google Sheets-Formeln werden Strings in doppelte Anführungszeichen gesetzt. Da Regex Backslashes für Sonderzeichen verwendet (\d für Ziffern, \s für Leerzeichen) und der Sheets-Formel-Parser Backslashes nicht als Escape-Zeichen innerhalb von Strings interpretiert, schreibst du sie als einzelne Backslashes: "\d+" matched eine oder mehrere Ziffern. Wenn du unerwartetes Verhalten siehst, versuche das Muster mit removeHtml auf TRUE zu setzen, um den zu matchenden Inhalt zu vereinfachen. Teste dein Regex auf regex101.com, bevor du es in der Funktion verwendest.

Question 2

Was ist der Unterschied zwischen Gruppe 0 und Gruppe 1?

Accepted Answer

Gruppe 0 (Standard) gibt den gesamten gematchten Text zurück. Gruppe 1 gibt nur den Text innerhalb des ersten Klammerpaars in deinem Muster zurück. Zum Beispiel würde mit dem Muster "Preis: (\$[0-9.]+)", angewendet auf den Text "Preis: $29.99", Gruppe 0 "Preis: $29.99" und Gruppe 1 "$29.99" zurückgeben. Dies ist nützlich, wenn du ein Muster für Kontext matchen musst, aber nur einen Teil davon extrahieren möchtest. Du kannst mehrere Erfassungsgruppen haben (Gruppe 2, Gruppe 3 usw.), indem du mehr geklammerte Abschnitte zu deinem Muster hinzufügst.

Question 3

Wann sollte ich removeHtml verwenden?

Accepted Answer

Aktiviere removeHtml (auf TRUE setzen), wenn: (1) Der Text, den du matchen möchtest, über mehrere HTML-Tags verteilt ist, wie ein Preis, der als "$29.99" angezeigt wird. (2) HTML-Tags deine Muster-Matches stören. (3) Du nur gegen den sichtbaren Textinhalt matchen möchtest und alle Markups ignorierst. (4) Dein Regex für Klartext, nicht HTML, entworfen ist. Lass es FALSE, wenn du speziell HTML-Attribute, Tag-Namen oder Markup-Struktur matchen musst.

Question 4

Kann ich Regex-Flags wie Groß-/Kleinschreibung-insensitives Matching verwenden?

Accepted Answer

Die Regex-Engine unterstützt Inline-Flags mit der (?flags)-Syntax am Anfang deines Musters. Verwende "(?i)" für Groß-/Kleinschreibung-insensitives Matching, "(?s)" für Single-Line-Modus (Punkt matched Zeilenumbrüche) und "(?m)" für Multiline-Modus. Zum Beispiel matched "(?i)preis:\s*\$[0-9.]+" Varianten von "Preis:", "PREIS:" und "preis:". Du kannst Flags kombinieren: "(?im)" aktiviert sowohl Groß-/Kleinschreibung-insensitiven als auch Multiline-Modus.

Question 5

Warum matched mein Regex HTML-Tags anstelle des gewünschten Texts?

Accepted Answer

Standardmäßig wird das Regex auf den rohen HTML-Quellcode angewendet, der alle Tags, Attribute und Markups enthält. Zum Beispiel könnte ein Muster wie "[A-Z][a-z]+", das großgeschriebene Wörter matchen soll, auch Tag-Namen wie "Div" oder "Span" matchen. Setze removeHtml auf TRUE, um zuerst alle HTML-Tags zu entfernen, sodass dein Regex nur den sichtbaren Textinhalt sieht. Alternativ mache dein Regex spezifischer, um HTML-Muster auszuschließen.

Question 6

Gibt es eine Grenze, wie komplex mein Regex sein kann?

Accepted Answer

Die Regex-Engine unterstützt vollständige PCRE-kompatible Syntax einschließlich Lookaheads, Lookbehinds, nicht erfassende Gruppen, Lazy-Quantifizierer und Zeichenklassen. Allerdings können extrem komplexe Muster mit exzessivem Backtracking (wie verschachtelte Quantifizierer wie "(a+)+") Timeout-Fehler verursachen. Halte Muster so einfach und spezifisch wie möglich. Wenn du sehr lange Regex-Muster schreibst, erwäge SCRAPE_BY_CSS_PATH oder SCRAPE_BY_XPATH zu verwenden, um den Inhalt zuerst einzugrenzen, und dann Regex auf das Ergebnis anzuwenden.

Question 7

Wie vergleicht sich SCRAPE_BY_REGEX mit REGEXEXTRACT in Google Sheets?

Accepted Answer

REGEXEXTRACT ist eine native Google Sheets-Funktion, die ein Regex auf Text anwendet, der bereits in deinem Spreadsheet ist. SCRAPE_BY_REGEX ruft eine Webseite ab und wendet das Regex auf den Seiteninhalt an, wobei Web-Abruf und Extraktion in einem einzigen Schritt kombiniert werden. Du könntest ähnliche Ergebnisse erzielen, indem du SCRAPE_BY_CSS_PATH verwendest, um den Seitentext zu erhalten, und dann REGEXEXTRACT auf das Ergebnis anwendest, aber SCRAPE_BY_REGEX ist effizienter, da es alles serverseitig in einer Anfrage verarbeitet und mehrere Übereinstimmungen zurückgeben kann.

Question 8

Kann das Regex-Muster über mehrere Zeilen matchen?

Accepted Answer

Standardmäßig matched der Punkt (.) in Regex keine Zeilenumbruchzeichen. Wenn du über Zeilenumbrüche hinweg matchen musst, verwende das Inline-Flag "(?s)" am Anfang deines Musters, um den Single-Line-Modus zu aktivieren, bei dem der Punkt jedes Zeichen einschließlich Zeilenumbrüchen matched. Zum Beispiel matched "(?s)

.*?

" ein div und seinen gesamten Inhalt über mehrere Zeilen hinweg. Das (?m)-Flag lässt ^ und $ den Anfang/Ende jeder Zeile matchen anstelle des gesamten Strings.

Parameter	Typ	Erforderlich	Beschreibung
`url`	string	Ja	Die vollständige URL der zu scrapenden Webseite (muss https:// oder http:// enthalten).
`regex`	string	Ja	Reguläres Ausdrucksmuster, das auf den Seiteninhalt angewendet wird. Verwende Standard-Regex-Syntax. Backslashes müssen in Sheets-Formeln verdoppelt werden (z. B. "\\d+" für Ziffern).
`removeHtml`	boolean	Nein (FALSE)	Optional. Auf TRUE setzen, um alle HTML-Tags vor dem Anwenden des Regex zu entfernen, sodass nur sichtbarer Textinhalt übrig bleibt. Standard ist FALSE (Regex wird auf rohen HTML-Quellcode angewendet).
`group`	number	Nein (0)	Optional. Die zurückzugebende Erfassungsgruppe. 0 gibt die vollständige Übereinstimmung zurück, 1 gibt die erste Erfassungsgruppe zurück, 2 die zweite usw. Standard ist 0.
`renderJs`	boolean	Nein	Optional. Auf TRUE setzen, um JavaScript vor dem Anwenden des Regex zu rendern. Erforderlich für dynamisch geladene Inhalte. Langsamer als der Standardmodus.

SCRAPE_BY_REGEX

Übersicht

Parameter

Beispiele

Alle Preise von einer Seite extrahieren

E-Mail-Adressen von einer Kontaktseite extrahieren

Werte mit einer Erfassungsgruppe extrahieren

Telefonnummern aus Geschäftsverzeichnissen extrahieren

Anwendungsfälle

Preisüberwachung bei mehreren Händlern

Lead-Generierung aus Geschäftsverzeichnissen

Produktkatalog-SKU-Extraktion

Extraktion von Rechtsdokument-Referenzen

Versionsnummer- und Changelog-Tracking

Social-Media-Profildatenerfassung

Profi-Tipps

Häufige Fehler

Häufig Gestellte Fragen

Verwandte Funktionen

SCRAPE_BY_CSS_PATH

SCRAPE_BY_XPATH

AI_SCRAPE

Beginnen Sie noch heute mit SCRAPE_BY_REGEX