ubuntuusers.de

RTF in HTML umwandeln

Status: Ungelöst | Ubuntu-Version: Ubuntu 16.04 (Xenial Xerus)
Antworten |

Axel-Erfurt

Anmeldungsdatum:
18. Mai 2016

Beiträge: 1347

Gibt es ein Programm mit dem man RTF (oder ODT) in HTML umwandeln kann ohne das die Formatierung verloren geht?

Sowohl unrtf als auch LibreOffice Writer entfernen Tabs und Leerzeichen wenn dies am Anfang einer Zeile stehen.

Auch Tabs oder mehrere Leerzeichen zwischen Worten werden entfernt.

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11261

Wohnort: München

Nacktes HTML sieht nicht so wirklich vor, dass man Text mit Tabs und Spaces formatiert. Man kann Text z.B. in einen <pre> Tag packen (aber dann funktionieren die HTML-Auszeichnungen nicht mehr) oder css-Attribute setzen, damit der Whitespace nicht zusammengefasst wird.

Tabs und Spaces zur Einrückung sind bei anderen Sachen als plain text eher schlechter Stil (dafür gibt es ja z.B. Einzüge und Tabellen) - warum brauchst du die als Formatierungselement?

Axel-Erfurt

(Themenstarter)

Anmeldungsdatum:
18. Mai 2016

Beiträge: 1347

seahawk1986 schrieb:

Tabs und Spaces zur Einrückung sind bei anderen Sachen als plain text eher schlechter Stil (dafür gibt es ja z.B. Einzüge und Tabellen) - warum brauchst du die als Formatierungselement?

Es sind halt alte RTF Dateien.

hakel

Anmeldungsdatum:
13. August 2009

Beiträge: 23336

Nacktes HTML sieht nicht so wirklich vor, dass man Text mit Tabs und Spaces formatiert.

Genau, deshalb können die bekannten Tools das eigentlich gar nicht leisten.

Aber such' mal weiter, ich bin da echt neugierig und dankbar! Die Phase hatte ich auch mal vor langer Zeit, vielleicht hat sich da ja etwas in den letzten Jahren getan.

P.S. Libre liefert übrigens den "genialsten" HTML Schrott ab. 👍

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11261

Wohnort: München

Axel-Erfurt schrieb:

Es sind halt alte RTF Dateien.

hakel schrieb:

Aber such' mal weiter, ich bin da echt neugierig und dankbar! Die Phase hatte ich auch mal vor langer Zeit, vielleicht hat sich da ja etwas in den letzten Jahren getan.

MS Word ist relativ gut darin RTF und Office-Dokumente in relativ "normal" aussehende, aber hoch komplexe HTML-Dateien umzuwandeln - Word erhält da über Styling-Optionen für Klassen visuell die Einrückungen mit Tabs und mehrfachen Leerzeichen (die Tabs werden naturgemäß durch Spaces ersetzt, weil HTML die nicht als Zeichen vorsieht) - allerdings hat man dann für eine RTF-Datei mit 5 Zeilen Text über 750 Zeilen HTML-Code 🙄

Falls da keiner mehr etwas an den RTF-Dateien ändern muss, würde ich einfach PDF-Dateien daraus machen, dann ist die Formatierung fest. Sonst muss man sich halt genau überlegen, welche durch andere Mittel ersetzbare Funktion die Tabs und Spaces im Dokument für die Formatierung haben und das entsprechend auszeichnen. Automatisierung klappt da nur sinnvoll, wenn man Regel aufstellen kann, wann ein Tab bzw. mehrere Leerzeichen eine bestimmte Funktion haben.

Axel-Erfurt

(Themenstarter)

Anmeldungsdatum:
18. Mai 2016

Beiträge: 1347

hakel schrieb:

P.S. Libre liefert übrigens den "genialsten" HTML Schrott ab. 👍

Das kann ich nicht bestätigen, das Ergebnis ist bei Libre, unrtf und Ted das gleiche.

hakel

Anmeldungsdatum:
13. August 2009

Beiträge: 23336

Ich glaube das letzte Mal habe ich es mit 14.04 versucht, Libre als Editor zu nutzen. Da gab es auch noch einen Bug mit Bildern kostenlos dazu, schön wenn es jetzt besser klappt. 👍

Das mit dem Aufblasen ist, halt auch nicht jedermanns Sache.

PDF, CSS und Notepad++ ☹

MS Word ist relativ gut darin RTF und Office-Dokumente in relativ "normal" aussehende, aber hoch komplexe HTML-Dateien

Das iat natürlich traurig ...

Axel-Erfurt

(Themenstarter)

Anmeldungsdatum:
18. Mai 2016

Beiträge: 1347

Da mir die Farben des Textes egal sind habe ich es in Text konvertiert und mit Python in HTML gewandelt.

1
2
3
4
5
6
7
8
#!/usr/bin/python
# -- coding: utf-8 --

datei = open("/tmp/Test.txt","r")
with open("/tmp/Test.html", "w") as e:
    for zeilen in datei.readlines():
        zeile = zeilen.replace("  ", "&nbsp;&nbsp;")
        e.write("<p>" + zeile + "</p>")

umbhaki Team-Icon

Supporter
Avatar von umbhaki

Anmeldungsdatum:
30. Mai 2010

Beiträge: 2606

Wohnort: Düren/Rhld

hakel schrieb:

P.S. Libre liefert übrigens den "genialsten" HTML Schrott ab. 👍

Habt ihr es schon mal mit Writer2xhtml versucht? Nach meiner – allerdings ziemlich laienhaften – Wahrnehmung funktioniert das besser als der Original-LibO-Export. Das habe ich gerade mit zwei Writer-Dateien ausprobiert, die auch Bilder enthielten. Beide sehen sowohl mit Pale Moon als auch mit Vivaldi in der Writer2xhtml-Version besser aus als in der LibO-Version.

Wenn man genauer guckt, gibt es da beträchtliche Unterschiede. Tabs übernimmt allerdings auch Writr2xhtml nicht, aber doppelte Leerzeichen bleiben erhalten (wenn man das in den Einstellungen so vorsieht).

Vegeta

Avatar von Vegeta

Anmeldungsdatum:
29. April 2006

Beiträge: 7943

Schon mal Pandoc ausprobiert?

Axel-Erfurt

(Themenstarter)

Anmeldungsdatum:
18. Mai 2016

Beiträge: 1347

Vegeta schrieb:

Schon mal Pandoc ausprobiert?

Pandoc kann weder RTF noch Plain Text lesen.

Vegeta

Avatar von Vegeta

Anmeldungsdatum:
29. April 2006

Beiträge: 7943

Axel-Erfurt schrieb:

Pandoc kann weder RTF noch Plain Text lesen.

Natürlich kann Pandoc Textdateien lesen, sonst könnte es auch u.a. keine HTML-Dateien bearbeiten, bist du dir überhaupt darüber im klaren was Plain Text genau ist? RTF kann es, so wie es aussieht, wirklich nicht lesen aber dafür schreiben. Da RTF eine Untermenge von docx oder ODT ist, musst du diese Dateien halt mit LibreOffice vorher konvertieren, danach gehts weiter mit Pandoc.

Antworten |