html-Umlaute in UTF-8 Umlaute umwandeln

« Vorherige1Nächste »

Status: Gelöst | Ubuntu-Version: Ubuntu 19.04 (Disco Dingo)
Antworten |

caiusjuliuscaesar

Anmeldungsdatum:
20. Januar 2009

Beiträge: 307

Zitieren

8. Juli 2019 17:25

Hallo,

wie kann ich in einer Konsole in einem Verzeichnis in allen html-Dateien die deutschen html-Umlaute in UTF8 umwandeln?

Also z. B. Ä –→ Ä Ö –→ Ö Ü –→ Ü ä –→ ä ö –→ ö ü –→ ü ß –→ ß

Gruß und danke, CJC

ChickenLipsRfun2eat Team-Icon

Anmeldungsdatum:
6. Dezember 2009

Beiträge: 12067

Zitieren

8. Juli 2019 17:52

Hallo!

Schau mal, ob unter Zeichensatz-Konverter etwas für dich dabei ist. Oder geht es um so ne "Hausaufgabe" und es soll eine Lösung her? Bash? Python? C? C++?

caiusjuliuscaesar

(Themenstarter)

Anmeldungsdatum:
20. Januar 2009

Beiträge: 307

Zitieren

8. Juli 2019 19:44

Nein, keine Hausaufgabe. Am liebsten ein Shellscript. Vllt. mit sed.

Etwa so:

find  ./*.html -exec sed -i s/'&Auml;'/'Ä'/g  {} \;
find  ./*.html -exec sed -i s/'&Uuml;'/'Ü'/g  {} \;
find  ./*.html -exec sed -i s/'&Öuml;'/'Ö'/g  {} \;
find  ./*.html -exec sed -i s/'&äuml;'/'ä'/g  {} \;
find  ./*.html -exec sed -i s/'&üuml;'/'ü'/g  {} \;
find  ./*.html -exec sed -i s/'&öuml;'/'ö'/g  {} \;
find  ./*.html -exec sed -i s/'&szlig;'/'ß'/g  {} \;

Es gibt nur auch noch viele Sonderzeichen, wie Accent Grave usw. Ich dachte, da gäbs schon was zum Umwandeln.

Bei den Konvertern habe ich nichts gefunden, das hatte ich vorher schon gesehen.

Gruß, CJC

caiusjuliuscaesar

(Themenstarter)

Anmeldungsdatum:
20. Januar 2009

Beiträge: 307

Zitieren

8. Juli 2019 19:56

Und noch die Französischen:

find  ./*.html -exec sed -i s/'&Agrave;'/'À'/g  {} \;
find  ./*.html -exec sed -i s/'&Aacute;'/'Á'/g  {} \;
find  ./*.html -exec sed -i s/'&Acirc;'/'Â'/g  {} \;
find  ./*.html -exec sed -i s/'&Ugrave;'/'Ù'/g  {} \;
find  ./*.html -exec sed -i s/'&Uacute;'/'Ú'/g  {} \;
find  ./*.html -exec sed -i s/'&Ucirc;'/'Û'/g  {} \;
find  ./*.html -exec sed -i s/'&Egrave;'/'È'/g  {} \;
find  ./*.html -exec sed -i s/'&Eacute;'/'É'/g  {} \;
find  ./*.html -exec sed -i s/'&Ecirc;'/'Ê'/g  {} \;
find  ./*.html -exec sed -i s/'&agrave;'/'à'/g  {} \;
find  ./*.html -exec sed -i s/'&aacute;'/'á'/g  {} \;
find  ./*.html -exec sed -i s/'&acirc;'/'â'/g  {} \;
find  ./*.html -exec sed -i s/'&ugrave;'/'ù'/g  {} \;
find  ./*.html -exec sed -i s/'&uacute;'/'ú'/g  {} \;
find  ./*.html -exec sed -i s/'&ucirc;'/'û'/g  {} \;
find  ./*.html -exec sed -i s/'&egrave;'/'è'/g  {} \;
find  ./*.html -exec sed -i s/'&eacute;'/'é'/g  {} \;
find  ./*.html -exec sed -i s/'&ecirc;'/'ê'/g  {} \;
find  ./*.html -exec sed -i s/'&Ccedil;'/'Ç'/g  {} \;
find  ./*.html -exec sed -i s/'&ccedil;'/'ç'/g  {} \;

ChickenLipsRfun2eat Team-Icon

Anmeldungsdatum:
6. Dezember 2009

Beiträge: 12067

Zitieren

9. Juli 2019 13:11

Hallo!

Fertiges wäre dann sowas wie der Python - XML-Parser, der bietet Methoden Elemente mittels toString oder toStringList an ein Encoding für den Output zu setzen.

In der Bash müsstest du dir sowas wahrscheinlich basteln, keine Ahnung ☺

pfad="/what/ever/"

arrhtml=('&Auml;' '&auml;' '&...' '&szlig')
arrutf8=('Ä' 'ä' '...' 'ß')
for file in $(find "$pfad" -type f -iname "*.html" -print);
do
  for i in ${!arrhtml[@]} #hint: arrays sind nullbasiert!
    do
      echo sed -i s/$arrhtml[i]/$arrutf8[i]/g "$file" 
    done;
done;

Wobei mir die Lösung nicht gefallen würde, die Datei 100 mal zu beschreiben. Ist zwar interessant, aber sowas würde ich nicht in der bash lösen ☺

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11181

Wohnort: München

Zitieren

9. Juli 2019 13:43

Es sollte genügen die Datei einmal mit BeautifulSoup4 (Paket python3-bs4) zu parsen und dann wieder rausschreiben zu lassen:

#!/usr/bin/env python3
from bs4 import BeautifulSoup
import sys

for html_file in sys.argv[1:]:
    with open(html_file) as f:
        html_doc = f.read()
    soup = BeautifulSoup(html_doc, 'html.parser')
    with open(html_file, 'w') as f:
        print(soup.prettify(formatter='minimal'), file=f)

Wenn man alle escapten Zeichen ersetzen lassen will (z.B. '<' und >), kann man formatter=None nutzen, das Ergebnis ist dann aber kein valides HTML mehr. Wenn man sich nur für den Text im Dokument aber nicht für die Struktur interessiert, kann man statt soup.prettify(formatter='minimal') auch soup.get_text() nutzen.

caiusjuliuscaesar

(Themenstarter)

Anmeldungsdatum:
20. Januar 2009

Beiträge: 307

Zitieren

9. Juli 2019 19:40

Vielen Dank!

Zwar bin ich schon mit meinem sed-Script glücklich geworden, aber ich merke mir den Rest. Mit beautiful-soap wollte ich sowieso schon mal arbeiten.

Gruß, CJC

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 12834

Zitieren

15. Juli 2019 23:11 (zuletzt bearbeitet: 15. Juli 2019 23:12)

Es sollte noch einfacher mit tidy gehen. Versuch mal

1	tidy -w 120 -i -utf8 --vertical-space yes datei.html

Und dann, zum Ändern am Platz Option -m. Für größere Mengen:

1	tidy -w 120 -i -utf8 --vertical-space yes -m *.html

oder auch für einen ganzen Baum

1	find -type f -name '*.html' -exec tidy -w 120 -i -utf8 --vertical-space yes -m {} +

iwlf

Anmeldungsdatum:
15. Dezember 2011

Beiträge: 3

Zitieren

27. Oktober 2019 19:34

rklm schrieb:

Es sollte noch einfacher mit tidy gehen. Versuch mal

Hallo,

ich bekomme es nicht hin, dass tidy die &Xuml; lässt, auf

https://infohound.net/tidy/

habe ich alle Char encoding probiert, bei Advanched sind nun sehr viele Möglichkeiten, was muss ich stellen, das ü ä ... bleibt?

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 12834

Zitieren

27. Oktober 2019 22:34

iwlf schrieb:

habe ich alle Char encoding probiert, bei Advanched sind nun sehr viele Möglichkeiten, was muss ich stellen, das ü ä ... bleibt?

Das brauchst Du nicht. Für jeden XML- und HTML-Parser ist es egal, ob Du "ä" oder "ä" da stehen hast.

Cranvil

Anmeldungsdatum:
9. März 2019

Beiträge: 990

Zitieren

28. Oktober 2019 20:46

iwlf schrieb:

ich bekomme es nicht hin, dass tidy die &Xuml; lässt, auf

Schau dir die Option --preserve-entities in der manpage zu tidy an. Die sollte grundsätzlich erstmal das machen, was du willst.

Ich stimme mit rklm überein: Erstens kann man heutzutage erwarten, dass HTML- und XML-Parser sowohl mit HTML Entities als auch mit den regulären Zeichen klarkommen, Zweitens spricht heutzutage nichts dagegen, die Dokumente in UTF-8-Kodierung zu speichern, auszuliefern (z.B. mittels HTTP-Header) und auszuzeichnen (<meta charset="utf-8"> ist hier gemeint). Da kann dann jeder seine landes- und sprachtypischen Zeichen reinfallen lassen und du musst nicht mit einer Referenztabelle für die zuvor erwähnten Entities rumarbeiten. Und es spart je nach Situation ein paar Byte Speicher pro Zeichen. 😉

https://infohound.net/tidy/

Diese Website bietet die oben angegebene Option offenbar nicht (auch nicht unter Advanced).

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »