Regex in Python, alles zwischen <tr und </tr>

« Vorherige1Nächste »

Status: Ungelöst | Ubuntu-Version: Ubuntu 19.04 (Disco Dingo)
Antworten |

caiusjuliuscaesar

Anmeldungsdatum:
20. Januar 2009

Beiträge: 307

Zitieren

9. Juli 2019 19:36

Hallo,

ich suche in Python einen Regex, der alle Zeichen zwischen "<tr" (ja, ohne >) und "</tr>", jeweils ohne Anführungszeichen aus html_content heraussucht und in tag_zeilen als Array abspeichert.

z. B. so (aber das funktioniert nicht):

1	tag_zeilen = re.findall('(?<=<tr).*?(?=</tr>)', str(html_content))

Ich vermute, das Problem ist, daß der Inhalt sich über mehrere Zeilen erstreckt. Kann das sein? Wie kann ich den obigen Ausdruck so erweitern, daß er Zeilenwechsel ignoriert?

Grüße und danke,

CJC

NORACSA

Anmeldungsdatum:
31. Januar 2010

Beiträge: 180

Zitieren

9. Juli 2019 19:55 (zuletzt bearbeitet: 9. Juli 2019 19:58)

Gibts einen speziellen Grund wieso du Lookbehind verwendest und vorallem wieso du nur die bekannten Teile gruppierst aber nicht den Rest?

<tr(.*?)</tr>

wäre wohl die sinnvollere Regex!

Probier mal das:

regex = r"<tr.*?</tr>"

test_str = ("<tr>\n\n"
	"</tr>")

matches = re.finditer(regex, test_str, re.MULTILINE | re.DOTALL)

Bzw. wenn du testen willst ist regex101.com eine sehr gute Seite! ☺

caiusjuliuscaesar

(Themenstarter)

Anmeldungsdatum:
20. Januar 2009

Beiträge: 307

Zitieren

9. Juli 2019 20:23

Hallo,

erst einmal danke.

Dein Code mit finditer:

1
2
3

         regex = r"<tr.*?</tr>"
         tag_zeilen = re.finditer(regex, str(html_content), re.MULTILINE | re.DOTALL)
         print(dateiname , "TagZeilen", len(tag_zeilen))

führt bei mir zu der Fehlermeldung:

1	TypeError: object of type 'callable_iterator' has no len()

Füge ich den regex in meinen Code ein, kommt zwar keine Fehlermeldung, aber auch nicht das erwünschte Ergebnis. Deswegen ein Beispiel dessen, was ich untersuche:

			<tr style="page-break-inside: avoid">
				<td style="border-left: medium none; border-right: 1.0pt solid black; border-top: 1.0pt solid black; border-bottom: 1.0pt solid black; padding-left: 5.4pt; padding-right: 5.4pt; padding-top: 0in; padding-bottom: 0in">
				<p class="MsoNormal"><b>
				<span ">
				Name</span></b></td>
				<td style="border-left: medium none; border-right: 1.0pt solid black; border-top: 1.0pt solid black; border-bottom: 1.0pt solid black; padding-left: 5.4pt; padding-right: 5.4pt; padding-top: 0in; padding-bottom: 0in">
				<p class="MsoNormal"><b>
				<span ">
				Vorname</span></b></td>
				<td style="border-left: medium none; border-right: 1.0pt solid black; border-top: 1.0pt solid black; border-bottom: 1.0pt solid black; padding-left: 5.4pt; padding-right: 5.4pt; padding-top: 0in; padding-bottom: 0in">
				<p class="MsoNormal"><b>
				<span ">
				Ort &amp; Kreis</span></b></td>
			</tr>

Eigentlich will ich an die Inhalte der Zellen (<td>...</td>), aber ich dachte, ich versuche es mal Schritt für Schritt.

Gibts einen speziellen Grund wieso du Lookbehind verwendest und vorallem wieso du nur die bekannten Teile gruppierst aber nicht den Rest?

Das verstehe ich nicht.

Gruß, CJC

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11179

Wohnort: München

Zitieren

9. Juli 2019 20:41

re.finditer() gibt einen Iterator zurück, der hat keine bekannte Länge. Mit re.findall() bekommst du eine Liste mit allen Treffern, die dann auch eine bekannte Länge hat.

Da man HTML nicht zuverlässig mit Regulären Ausdrücken parsen kann, würde ich das das lieber mit einem HTML-Parser wie BeautifulSoup 4 machen (Paket python3-bs4):

#!/usr/bin/env python3
from bs4 import BeautifulSoup

# hier html_content definieren
soup = BeautifulSoup(html_content, 'html.parser')
tds = soup.find_all('td')

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »