Axel-Erfurt
Anmeldungsdatum: 18. Mai 2016
Beiträge: 1347
|
Gibt es ein Programm mit dem man RTF (oder ODT) in HTML umwandeln kann ohne das die Formatierung verloren geht? Sowohl unrtf als auch LibreOffice Writer entfernen Tabs und Leerzeichen wenn dies am Anfang einer Zeile stehen. Auch Tabs oder mehrere Leerzeichen zwischen Worten werden entfernt.
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11181
Wohnort: München
|
Nacktes HTML sieht nicht so wirklich vor, dass man Text mit Tabs und Spaces formatiert. Man kann Text z.B. in einen <pre> Tag packen (aber dann funktionieren die HTML-Auszeichnungen nicht mehr) oder css-Attribute setzen, damit der Whitespace nicht zusammengefasst wird. Tabs und Spaces zur Einrückung sind bei anderen Sachen als plain text eher schlechter Stil (dafür gibt es ja z.B. Einzüge und Tabellen) - warum brauchst du die als Formatierungselement?
|
Axel-Erfurt
(Themenstarter)
Anmeldungsdatum: 18. Mai 2016
Beiträge: 1347
|
seahawk1986 schrieb: Tabs und Spaces zur Einrückung sind bei anderen Sachen als plain text eher schlechter Stil (dafür gibt es ja z.B. Einzüge und Tabellen) - warum brauchst du die als Formatierungselement?
Es sind halt alte RTF Dateien.
|
hakel
Anmeldungsdatum: 13. August 2009
Beiträge: 23336
|
Nacktes HTML sieht nicht so wirklich vor, dass man Text mit Tabs und Spaces formatiert.
Genau, deshalb können die bekannten Tools das eigentlich gar nicht leisten. Aber such' mal weiter, ich bin da echt neugierig und dankbar! Die Phase hatte ich auch mal vor langer Zeit, vielleicht hat sich da ja etwas in den letzten Jahren getan. P.S. Libre liefert übrigens den "genialsten" HTML Schrott ab. 👍
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11181
Wohnort: München
|
Axel-Erfurt schrieb: Es sind halt alte RTF Dateien.
hakel schrieb: Aber such' mal weiter, ich bin da echt neugierig und dankbar! Die Phase hatte ich auch mal vor langer Zeit, vielleicht hat sich da ja etwas in den letzten Jahren getan.
MS Word ist relativ gut darin RTF und Office-Dokumente in relativ "normal" aussehende, aber hoch komplexe HTML-Dateien umzuwandeln - Word erhält da über Styling-Optionen für Klassen visuell die Einrückungen mit Tabs und mehrfachen Leerzeichen (die Tabs werden naturgemäß durch Spaces ersetzt, weil HTML die nicht als Zeichen vorsieht) - allerdings hat man dann für eine RTF-Datei mit 5 Zeilen Text über 750 Zeilen HTML-Code 🙄 Falls da keiner mehr etwas an den RTF-Dateien ändern muss, würde ich einfach PDF-Dateien daraus machen, dann ist die Formatierung fest. Sonst muss man sich halt genau überlegen, welche durch andere Mittel ersetzbare Funktion die Tabs und Spaces im Dokument für die Formatierung haben und das entsprechend auszeichnen. Automatisierung klappt da nur sinnvoll, wenn man Regel aufstellen kann, wann ein Tab bzw. mehrere Leerzeichen eine bestimmte Funktion haben.
|
Axel-Erfurt
(Themenstarter)
Anmeldungsdatum: 18. Mai 2016
Beiträge: 1347
|
hakel schrieb:
P.S. Libre liefert übrigens den "genialsten" HTML Schrott ab. 👍
Das kann ich nicht bestätigen, das Ergebnis ist bei Libre, unrtf und Ted das gleiche.
|
hakel
Anmeldungsdatum: 13. August 2009
Beiträge: 23336
|
Ich glaube das letzte Mal habe ich es mit 14.04 versucht, Libre als Editor zu nutzen. Da gab es auch noch einen Bug mit Bildern kostenlos dazu, schön wenn es jetzt besser klappt. 👍 Das mit dem Aufblasen ist, halt auch nicht jedermanns Sache. PDF, CSS und Notepad++ ☹
MS Word ist relativ gut darin RTF und Office-Dokumente in relativ "normal" aussehende, aber hoch komplexe HTML-Dateien
Das iat natürlich traurig ...
|
Axel-Erfurt
(Themenstarter)
Anmeldungsdatum: 18. Mai 2016
Beiträge: 1347
|
Da mir die Farben des Textes egal sind habe ich es in Text konvertiert und mit Python in HTML gewandelt. | #!/usr/bin/python
# -- coding: utf-8 --
datei = open("/tmp/Test.txt","r")
with open("/tmp/Test.html", "w") as e:
for zeilen in datei.readlines():
zeile = zeilen.replace(" ", " ")
e.write("<p>" + zeile + "</p>")
|
|
umbhaki
Supporter
Anmeldungsdatum: 30. Mai 2010
Beiträge: 2523
Wohnort: Düren/Rhld
|
hakel schrieb:
P.S. Libre liefert übrigens den "genialsten" HTML Schrott ab. 👍
Habt ihr es schon mal mit Writer2xhtml versucht? Nach meiner – allerdings ziemlich laienhaften – Wahrnehmung funktioniert das besser als der Original-LibO-Export. Das habe ich gerade mit zwei Writer-Dateien ausprobiert, die auch Bilder enthielten. Beide sehen sowohl mit Pale Moon als auch mit Vivaldi in der Writer2xhtml-Version besser aus als in der LibO-Version. Wenn man genauer guckt, gibt es da beträchtliche Unterschiede. Tabs übernimmt allerdings auch Writr2xhtml nicht, aber doppelte Leerzeichen bleiben erhalten (wenn man das in den Einstellungen so vorsieht).
|
Vegeta
Anmeldungsdatum: 29. April 2006
Beiträge: 7943
|
Schon mal Pandoc ausprobiert?
|
Axel-Erfurt
(Themenstarter)
Anmeldungsdatum: 18. Mai 2016
Beiträge: 1347
|
Vegeta schrieb: Schon mal Pandoc ausprobiert?
Pandoc kann weder RTF noch Plain Text lesen.
|
Vegeta
Anmeldungsdatum: 29. April 2006
Beiträge: 7943
|
Axel-Erfurt schrieb: Pandoc kann weder RTF noch Plain Text lesen.
Natürlich kann Pandoc Textdateien lesen, sonst könnte es auch u.a. keine HTML-Dateien bearbeiten, bist du dir überhaupt darüber im klaren was Plain Text genau ist? RTF kann es, so wie es aussieht, wirklich nicht lesen aber dafür schreiben. Da RTF eine Untermenge von docx oder ODT ist, musst du diese Dateien halt mit LibreOffice vorher konvertieren, danach gehts weiter mit Pandoc.
|