Hallo,
wie kann ich in einer Konsole in einem Verzeichnis in allen html-Dateien die deutschen html-Umlaute in UTF8 umwandeln?
Also z. B. Ä –→ Ä Ö –→ Ö Ü –→ Ü ä –→ ä ö –→ ö ü –→ ü ß –→ ß
Gruß und danke, CJC
Anmeldungsdatum: Beiträge: 307 |
Hallo, wie kann ich in einer Konsole in einem Verzeichnis in allen html-Dateien die deutschen html-Umlaute in UTF8 umwandeln? Also z. B. Ä –→ Ä Ö –→ Ö Ü –→ Ü ä –→ ä ö –→ ö ü –→ ü ß –→ ß Gruß und danke, CJC |
||||||
Anmeldungsdatum: Beiträge: 12067 |
Hallo! Schau mal, ob unter Zeichensatz-Konverter etwas für dich dabei ist. Oder geht es um so ne "Hausaufgabe" und es soll eine Lösung her? Bash? Python? C? C++? |
||||||
(Themenstarter)
Anmeldungsdatum: Beiträge: 307 |
Nein, keine Hausaufgabe. Am liebsten ein Shellscript. Vllt. mit sed. Etwa so:
Es gibt nur auch noch viele Sonderzeichen, wie Accent Grave usw. Ich dachte, da gäbs schon was zum Umwandeln. Bei den Konvertern habe ich nichts gefunden, das hatte ich vorher schon gesehen. Gruß, CJC |
||||||
(Themenstarter)
Anmeldungsdatum: Beiträge: 307 |
Und noch die Französischen:
|
||||||
Anmeldungsdatum: Beiträge: 12067 |
Hallo! Fertiges wäre dann sowas wie der Python - XML-Parser, der bietet Methoden Elemente mittels toString oder toStringList an ein Encoding für den Output zu setzen. In der Bash müsstest du dir sowas wahrscheinlich basteln, keine Ahnung ☺
Wobei mir die Lösung nicht gefallen würde, die Datei 100 mal zu beschreiben. Ist zwar interessant, aber sowas würde ich nicht in der bash lösen ☺ |
||||||
Anmeldungsdatum: Beiträge: 11181 Wohnort: München |
Es sollte genügen die Datei einmal mit BeautifulSoup4 (Paket python3-bs4) zu parsen und dann wieder rausschreiben zu lassen:
Wenn man alle escapten Zeichen ersetzen lassen will (z.B. '<' und |
||||||
(Themenstarter)
Anmeldungsdatum: Beiträge: 307 |
Vielen Dank! Zwar bin ich schon mit meinem sed-Script glücklich geworden, aber ich merke mir den Rest. Mit beautiful-soap wollte ich sowieso schon mal arbeiten. Gruß, CJC |
||||||
Projektleitung
Anmeldungsdatum: Beiträge: 12834 |
Es sollte noch einfacher mit
Und dann, zum Ändern am Platz Option -m. Für größere Mengen:
oder auch für einen ganzen Baum
|
||||||
Anmeldungsdatum: Beiträge: 3 |
Hallo, ich bekomme es nicht hin, dass tidy die &Xuml; lässt, auf habe ich alle Char encoding probiert, bei Advanched sind nun sehr viele Möglichkeiten, was muss ich stellen, das ü ä ... bleibt? |
||||||
Projektleitung
Anmeldungsdatum: Beiträge: 12834 |
|||||||
Anmeldungsdatum: Beiträge: 990 |
Schau dir die Option Ich stimme mit rklm überein: Erstens kann man heutzutage erwarten, dass HTML- und XML-Parser sowohl mit HTML Entities als auch mit den regulären Zeichen klarkommen, Zweitens spricht heutzutage nichts dagegen, die Dokumente in UTF-8-Kodierung zu speichern, auszuliefern (z.B. mittels HTTP-Header) und auszuzeichnen ( Diese Website bietet die oben angegebene Option offenbar nicht (auch nicht unter Advanced). |