guy.brush
Anmeldungsdatum: 13. Februar 2011
Beiträge: 216
Wohnort: Earth
|
Hallo, ich habe vor, einige Dokumente zu digitalisieren und zu archivieren. Da ich mit "Paperless Office" und der langfristigen Archivierung solcher Dokumente keine Erfahrung habe, wollte ich nach ein paar Tipps fragen für eine gute Vorgehensweise und Einstellungen in den jeweiligen Programme. Bisher nutze ich zum Scannen immer xsane. Ich habe folgendes vor:
1) Dokumente digitalisieren und Originale wegwerfen (i.d.R. überwiegend Text, aber auch Tabellen und kleine Grafiken, oft nur wenige Seiten (1-20), selten farbig) 2) ein altes Backbuch einscannen und "digital konservieren" (viele Bilder, aber auch viel Text) 3) evtl. alte Mitschriebe aus der Schulzeit digitalisieren und Originale wegwerfen (sehr viele Seiten, überwiegend handschriftlich, oft liniertes oder kariertes Papier) 4) evtl. digitale Backups von wichtigen Dokumenten erstellen
Wichtig wäre mir:
ein späteres Ausdrucken sollte ganz gute Resultate erzielen Dokumente aus 1) sollten per mail verschickbar sein einige (aber nicht alle) Dokumente würde ich gerne langfristig archivieren und auch in Zukunft noch öffnen können (→ PDF/A?)
Fragen dazu:
Verwende ich am besten s/w, Graustufen oder Farbe für 1), 3) und 4)? Welche dpi-Zahl ist für eine gute Lesbarkeit beim Druck eine gute Wahl, erzeugt aber nicht zu große Dateien? (Ich dachte, es müssten 300-600 dpi sein, aber das macht sehr große Dateien.) Scanne ich am besten alles direkt als eine einzige PDF oder erstmal jede Seite einzeln als JPEG, TIFF, PNG, ... und konvertiere und füge zusammen (merge) in eine PDF? Ist PDF überhaupt das richtige Dateiformat für all diese Vorhaben?
Ich hatte bisher daran gedacht, Dokumente mit vielen Seiten einzeln einzuscannen (also 1 Seite = 1 Datei) und später dann zu einer PDF zusammenzufügen. Große "Paperless Office" Tools sind mir zu groß und komplex. Ich hoffe, ihr könnt mir mit eurer Erfahrung ein paar Ratschläge geben ☺. Liebe Grüße guy.brush
|
Cruiz
Anmeldungsdatum: 6. März 2014
Beiträge: 5557
Wohnort: Freiburg i. Brsg.
|
Hallo, ich würde bei so einem Vorhaben von irgendwelchen Softwarelösungen absehen und auf Dateien und eine gute Ordnerstruktur setzen. Ansonsten läuft man Gefahr, dass ausgerechnet das eigene DMS irgendwann nicht mehr weiterentwickelt wird und man aufwändig migrieren muss. Bei Dateien würde ich nach Möglichkeit auf PDF/A setzen. Was meinst du mit "groß"? Ich mache das seit Jahren und hab gerade mal ein paar dutzend GB zusammen. Bei heutigen Festplattengrößen dürften Farbscans in einer ordentlichen DPI-Zahl >300 doch kein Problem mehr sein? Ich würde da nicht am falschen Ende sparen. Gruß Cruiz
|
mrkramps
Anmeldungsdatum: 10. Oktober 2006
Beiträge: 5523
Wohnort: south central EL
|
Cruiz schrieb: ich würde bei so einem Vorhaben von irgendwelchen Softwarelösungen absehen und auf Dateien und eine gute Ordnerstruktur setzen. Ansonsten läuft man Gefahr, dass ausgerechnet das eigene DMS irgendwann nicht mehr weiterentwickelt wird und man aufwändig migrieren muss.
Da kann ich Cruiz nur beipflichten, thematisch und/oder chronologisch sortierten Ordnerstruktur mit aussagekräftigen Dateinamen. Dokumentenverwaltungssystem haben dank ihrer wunderbaren Komplexität und der notwendigen Aufbereitung der Daten (Metadaten, Texterkennung usw.) die unschöne Eigenschaft die ganze Zeit aufzufressen, die man besser in das Digitalisieren der Dokumente stecken sollte.
Bei Dateien würde ich nach Möglichkeit auf PDF/A setzen. Was meinst du mit "groß"? Ich mache das seit Jahren und hab gerade mal ein paar dutzend GB zusammen. Bei heutigen Festplattengrößen dürften Farbscans in einer ordentlichen DPI-Zahl >300 doch kein Problem mehr sein? Ich würde da nicht am falschen Ende sparen.
Wirklich „groß“ werden die Dateien erst, wenn man die in verlustlosen Formaten (bspw. TIFF) speichert. Bei DIN A4 als Farbscan (Graustufen wenn Original keine bunten Farben enthält) mit 600dpi und JPEG-Komprimierung (Qualität 90%) kommt man mit handelsüblichen 1 TB sehr lange hin, während die Ladezeiten eines Betrachtungsprogramms noch vertretbar sind. Ich würde da aber klar priorisieren, welches Dokument wie wichtig ist. Unikate, die man tatsächlich „digital konservieren“ möchte, sollte man hochauflösend in einem verlustlosen Dateiformat speichern und diese Digitalisierung auch irgendwann mit besserer Technik wiederholen, um möglichst viel vom Original digital zu erhalten. Ich speichere im Moment immer noch zwei Versionen eines Dokumentenscans. Den eigentlich Scan als Rastergrafik ggf. in mehreren Dateien für jede Seite als Quelldaten und erstelle daraus dann eine PDF als Ansichtsdatei, in der Regel mit weniger Auflösung und ggf. sogar monochrom mit Faxkomprimierung. Alles je nach Anwendungsfall und wenn die PDF anders vorliegen muss, habe ich die Quelldaten noch um das neu zu generieren. Mit Texterkennung habe ich experimentiert, aber keinen Mehrwert für mich gesehen. Rastergrafiken können in PDFs übrigens mit den gleichen Komprimierungsmethoden eingebettet werden, die auch von TIFF, JPEG oder PNG verwendet werden, und die Rastergrafiken entsprechend auch wieder extrahiert werden. Allerdings wirken sich hochauflösende Rastergrafiken spürbar negativ auf die Ladezeiten der Datei in einem PDF-Betrachter aus. Für meinen Anwendungsfall störend, aber das muss jeder für sich selber beurteilen. Ansonsten bietet sich PDF sehr gut als Archivformat an. Bevor man sich zu sehr auf PDF/A versteift, sollte man sich einen Moment nehmen und durchlesen, was PDF/A eigentlich ist. Im Prinzip hat man nämlich mit eingebetten Rastergrafiken in einer PDF 1.4 schon weitesgehen Konformität mit PDF/A-1b erreicht. Und da kann man sich sicher sein, dass man diese Dateien auch in Zukunft noch öffnen kann wie seit 2001.
|
hakel
Anmeldungsdatum: 13. August 2009
Beiträge: 23336
|
PDF/A bedeutet eigentlich nur, daß man die Daten nicht mehr ändern kann, weil Layoutdaten verloren gehen. Das ist mehr Juristerei als IT Nachhaltigkeit. Natürlich wird dieses Format noch sehr lange leben, dafür sorgt schon Vater Staat. Im übrigen ist PDF nur ein Container. Du kannst die Bitmaps "frei" sprengen. Wieviel Qualität du benötigst, mußt du schon selber probieren, wobei im Jahr 2019 fehlender Massespeicher eine etwas seltsame Beschränkung ist. Natürlich sind Graustufen völlig ausreichend, wenn man keine Bilder hat. Trotzdem solltest du da nicht sparen, rechne auch mal deine Zeit. Optische Datenträger sind übrigens keine gute Idee für Langzeitarchivierung. Ein flotter USB3 Scanner sollte natürlich sein. Für Bücher gibt es Aufsicht - Scanner mit Fußpedal, aber das ist vermutlich zu sehr Pro. Wobei ich mir das wirklich übel vorstelle, wegen der Zeit.
das muss jeder für sich selber beurteilen
Ganz meine Meinung! Deinen Workflow mußt du dir selber erarbeiten, sonst endet es im Datengau.
|
Cranvil
Anmeldungsdatum: 9. März 2019
Beiträge: 990
|
Grundsätzlich stimme ich meinen Vorrednern zu, dass eine ordentliche Verzeichnisstruktur und Dateibenennung viel bringt. Je nach Umfang der Sammlung und wie gut oder schlecht deine Suchtrefferquoten dann im Laufe der Zeit sind, schlage ich ergänzend vor, die Möglichkeiten deines Desktops zu benutzen (soweit ich weiß, bringt Kubuntu eine Desktop-Suchmaschine mit) und hier über geschicktes Setzen von Metadaten (Tags, Kategorien oder vergleichbar) eine weitere potentielle Suchebene zu erschließen. Das bringt dich allerdings wieder einen Schritt in Richtung DMS und Lockin und sollte eher bei tatsächlichem Bedarf neu bedacht werden. Wenn du dich anstelle von (oder parallel zu) PDF für die Speicherung der Rohbilder entscheidest, kannst du ggf. auch die freundliche Bildverwaltung von nebenan (z.B. digiKam) ausprobieren.
Wichtig wäre mir:
ein späteres Ausdrucken sollte ganz gute Resultate erzielen Dokumente aus 1) sollten per mail verschickbar sein einige (aber nicht alle) Dokumente würde ich gerne langfristig archivieren und auch in Zukunft noch öffnen können (→ PDF/A?)
Fragen dazu:
Diese Fragen weisen nach meiner Auffassung alle eine sehr persönliche Note auf, was erstmal viel Ausprobieren bedeuten kann.
Hier gibt es kein "One size fits all". Als Grundsatz bietet sich S/W an und sobald Farbe im Dokument verwendet wird, um zusätzliche Informationen zu übertragen, eben Farbe. Ich habe die Erfahrung gemacht, dass Scans in Graustufen selten eine Platzersparnis zu Farbe bringen.
Welche dpi-Zahl ist für eine gute Lesbarkeit beim Druck eine gute Wahl, erzeugt aber nicht zu große Dateien? (Ich dachte, es müssten 300-600 dpi sein, aber das macht sehr große Dateien.)
DPI auswählen, scannen, drucken, Ausdruck bewerten - wiederholen bis es passt 😉 . Ich habe sehr lange 150 DPI als Grundwert genommen, was für die Masse an Textdokumenten ausreichend sein sollte. Je nach Dokumentengestaltung musst du eh aufpassen. Die Versicherungen haben beispielsweise gern Hintergründe, die beim Scannen in höheren Auflösungen Moiré-Effekte verursachen.
Scanne ich am besten alles direkt als eine einzige PDF oder erstmal jede Seite einzeln als JPEG, TIFF, PNG, ... und konvertiere und füge zusammen (merge) in eine PDF?
Ich bin mehr der Fan davon, die Seiten der einzelnen Dokumente zusammen zu halten. TIFF kann zwar auch mehrere Seiten und soll wohl auch als Container für JPEG-komprimierte Bilder dienen können, allerdings bleibt PDF aus diversen Gründen mein Favorit. Wenn du erst PDF wählst und dann später was anderes probieren willst, kannst du z.B. pdfimages von den poppler-utils verwenden, um die Bilder aus dem PDF zu extrahieren.
Mit PDF hast du ein Containerformat, das von jeder Plattform gelesen werden kann, die Zusammenfassung mehrerer Bilder in eine Datei bietet und die Einbettung von Metadaten erlaubt. Es wird schwierig, da eine vergleichbare Alternative zu finden. Ach und noch eins: Da PDF bereits auf Seitenformate getrimmt ist, ist es beim Ausdruck in der Regel auch weniger anspruchsvoll, da nicht erst über Skalierung und Position auf dem Papier nachgedacht werden muss. 😉
|
guy.brush
(Themenstarter)
Anmeldungsdatum: 13. Februar 2011
Beiträge: 216
Wohnort: Earth
|
Hallo, vielen Dank für eure Antworten. OK, große Softwarelösungen sind (wie vermutet) aus dem Rennen. Weiß von euch zufällig jemand, wie xsane und gscan2pdf die PDF Dateien erzeugen? Welche Rastergrafik wird erzeugt und in ein PDF gepackt? Das hab ich jetzt via Google nicht gefunden. (gscan2pdf habe ich mir als Alternative angeschaut, wobei ich glaub immer noch xsane bevorzuge.) Zum Thema PDF/A: Das Format zu nutzen, wenn es leicht zu erzeugen ist, sollte sicherlich nicht schaden. Aber was kann das erzeugen? xsane scheinbar nicht. Ich tendiere aktuell auch dazu, sehr wichtige Dokumente in zweifacher Ausführung zu speichern. Einmal hochauflösend und einmal klein und kompakt. Wobei ich jetzt auch nicht weiß, ob man Ausdrucke von digitalen Kopien/Scans von gewissen Dokumenten überhaupt einreichen darf, falls man das Original verloren hat.
Diese Fragen weisen nach meiner Auffassung alle eine sehr persönliche Note auf, was erstmal viel Ausprobieren bedeuten kann.
Ja, das ist mir klar. Mich interessieren hier eher eure Erfahrungen, das hilft schon und schiebt mich mal in eine Richtung. Mit der Zeit entwickelt sich dann eh eine eigene Vorgehensweise. Wenn jetzt aber z.B. einige die Erfahrung gemacht haben, dass 150 dpi Graustufen oder Farbe oft doch zu wenig waren, dann muss ich unter Umständen nicht denselben Fehler machen (sofern die Konsequenzen für mich relevant sind). Daher die Frage, was ihr so nutzt/empfehlen würdet.
Hier gibt es kein "One size fits all". Als Grundsatz bietet sich S/W an und sobald Farbe im Dokument verwendet wird, um zusätzliche Informationen zu übertragen, eben Farbe. Ich habe die Erfahrung gemacht, dass Scans in Graustufen selten eine Platzersparnis zu Farbe bringen.
Ja, da denke ich gerade auch noch darüber nach. S/W hat Aliasing, aber einen weißen Hintergrund und kleine Dateigrößen. Graustufen hingegen haben nicht so kantigen Text, der aber gerne auch etwas unscharf wirkt (gerade auf niedrigeren Auflösungen) und bei Graustufen (True Gray) und Farbe ist der Hintergrund oft wie ein leichter Grauschleier, weil das Papier eben meist nicht 100% weiß ist.
Ich bin mehr der Fan davon, die Seiten der einzelnen Dokumente zusammen zu halten.
Ich möchte am Ende auch 1 Dokument haben. Der Hintergrund der Frage war, weil man entweder eben "originale" Einzelgrafiken oder Einzel-PDFs hat, die man besser bearbeiten kann ... oder vielleicht erhält man dadurch auch bessere PDF-Qualitäten (weil z.B. erst in eine bessere Rastergrafik gescannt wird als das Programm von sich aus macht) oder was auch immer ☺. Ein anderer Grund ist, dass ich bei beidseitigen Dokumente einen manuellen Duplex-Scan machen muss: Erst die ungerade Seiten und dann die geraden und alles am Ende zu einer Datei zusammenfassen. Da fragte ich mich, ob z.B. alle Seiten einzeln als Einzel-TIFF-Datei oder Einzel-PDF besser ist? Eine Frage zu xsane noch zum Schluss: Man kann bei TIFF die Kompressionsart festlegen. Und zwar für 16 bit, 8 bit und lineart (S/W). Sowohl im Scanmodus "24bit Color" als auch "True Gray" wird hier jedoch die Variante 8 bit verwendet, was mich wundert. Es sollten doch gerade im Farbmodus 24bit sein?! Das ist mir vor allem deswegen aufgefallen, weil standardmäßig hier der JPEG DCT Algorithmus verwendet wird, also lossy. Und man manuell auf deflate oder packbits umstellen muss.
|
mrkramps
Anmeldungsdatum: 10. Oktober 2006
Beiträge: 5523
Wohnort: south central EL
|
guy.brush schrieb: Weiß von euch zufällig jemand, wie xsane und gscan2pdf die PDF Dateien erzeugen? Welche Rastergrafik wird erzeugt und in ein PDF gepackt? Das hab ich jetzt via Google nicht gefunden. (gscan2pdf habe ich mir als Alternative angeschaut, wobei ich glaub immer noch xsane bevorzuge.)
Mi XSane kenne ich mich nicht aus. Entweder benutze ich einfach scanimage (unterstützt kein PDF) auf der Befehlszeile oder gscan2pdf. Und bei gscan2pdf kann man beim Speichern in eine PDF angeben, welche Kompression verwendet werden soll. Der Scan selber liegt erstmal als reine Rasterdaten ohne jede Komprimierung vor, die wird erst beim Speichern angewendet. Mit Ausnahme von JPEG sollten die Methoden alle verlustlos sein.
Zum Thema PDF/A: Das Format zu nutzen, wenn es leicht zu erzeugen ist, sollte sicherlich nicht schaden. Aber was kann das erzeugen? xsane scheinbar nicht.
Ich bilde mir ein, dass gscan2pdf mal PDF/A-2 konnte, aber in Version 2.3 finde ich das nicht wieder. Ghostscript kann das Format in allen Versionen erzeugen und entsprechend vorhandene PDFs konvertieren. ImageMagick verwendet GS als Backend und erstellt als Format PDFA je nach Programmversion PDF/A-2b oder PDF/A-3b. LibreOffice unterstützt das ebenfalls beim PDF-Export. Wie weit irgendwas davon sauber durch eine Validierung (bspw. veraPDF 🇬🇧) geht, weiß ich nicht. Da haben andere ggf. mehr Erfahrung mit einem Workflow unter Linux. Wie gesagt, ist PDF/A meiner Meinung nach nichts, worüber man sich zuviele Gedanken machen sollte. Ich verstehe das eher als einen PDF-Standard denn als konkretes Dateiformat. Im Endeffekt kann man jede bestehende PDF, die nur eingebettetes Rastergrafiken enthält, bei Bedarf auf unterschiedlichen Wegen in eine PDF/A konvertieren. Dass der Industriestandard eingehalten wird, ist für Anwender nur relevant, wenn ein System/Prozess das ausdrücklich voraussetzt.
Ich tendiere aktuell auch dazu, sehr wichtige Dokumente in zweifacher Ausführung zu speichern. Einmal hochauflösend und einmal klein und kompakt. Wobei ich jetzt auch nicht weiß, ob man Ausdrucke von digitalen Kopien/Scans von gewissen Dokumenten überhaupt einreichen darf, falls man das Original verloren hat.
Kann ich rechtlich nicht beurteilen. Aber irgendeine Kopie zu haben, ist definitiv immer besser als gar keine Kopie zu haben.
Ja, da denke ich gerade auch noch darüber nach. S/W hat Aliasing, aber einen weißen Hintergrund und kleine Dateigrößen. Graustufen hingegen haben nicht so kantigen Text, der aber gerne auch etwas unscharf wirkt (gerade auf niedrigeren Auflösungen) und bei Graustufen (True Gray) und Farbe ist der Hintergrund oft wie ein leichter Grauschleier, weil das Papier eben meist nicht 100% weiß ist.
Zwischen S/W bzw 1-Bit-Monochrom und Graustufen besteht der Unterschied primär darin, dass S/W immer ein stark nachbearbeitet Ergebnis ist und Graustufen das Original zumindest hochaufgelöst übernimmt, wenn auch die Farbinformationen nur in Grausstufen vorliegen. Im Prinzip kann man heutzutage tatsächlich alles in Farbe einscannen, weil bei 600 dpi ist da wenig Unterschied in der Dateigröße zwischen 8-Bit-RGB oder 8-Bit-Graustufen. Ich persönlich machen das eigentlich nur, damit ich weiß, dass im Original eines Graustufenscans definitiv nie wirklich relevante Farben waren. Wenn man das genau nimmt, dann kann man bei einem S/W-Ausdruck eines Dokuments immer noch Farbinformationen haben, wie bspw. die Farbvarianz des Druckerpapiers. Nachtrag: Wenn man möglichst kleine Dateigrößen erreichen möchte, aber das Aliasing bei 1-Bit-Monochrom persönlich als störend empfindet, dann kann man auch Grausstufen mit reduzierter Farbpalette nehmen. Standardmäßig verwenden 8-Bit-Graustufen 256 Grautöne, aber am Bildschirm ansehnliches Antialiasing erreicht man im Prinzip schon mit 16 oder weniger Grautönen. Das lässt sich eigentlich sehr gut mit PNG-Kompression, also DEFLATE, in PDFs einbetten. Aber grundsätzlich sollte man berücksichtigen, dass sich die PPI auf dem Monitor nicht direkt zu den DPI des Drucker übersetzen lassen. Das Aliasing einer monochromen Rastergrafik ist bei entsprechender Auflösung ggf. auf einem erneuten Ausdruck kaum oder auch gar nicht zu erkennen. Oder sagen wir, der Drucker bringt da selber auch nochmal Unschärfe rein.
Ich möchte am Ende auch 1 Dokument haben. Der Hintergrund der Frage war, weil man entweder eben "originale" Einzelgrafiken oder Einzel-PDFs hat, die man besser bearbeiten kann ... oder vielleicht erhält man dadurch auch bessere PDF-Qualitäten (weil z.B. erst in eine bessere Rastergrafik gescannt wird als das Programm von sich aus macht) oder was auch immer ☺. Ein anderer Grund ist, dass ich bei beidseitigen Dokumente einen manuellen Duplex-Scan machen muss: Erst die ungerade Seiten und dann die geraden und alles am Ende zu einer Datei zusammenfassen. Da fragte ich mich, ob z.B. alle Seiten einzeln als Einzel-TIFF-Datei oder Einzel-PDF besser ist?
Deine Frage alleine beantwortet eigentlich schon, wie du das angehen musst: Im Zweifelsfall immer einzelne Rastergrafiken als Quelldateien vorhalten, bis du dir sicher bist. Dann kannst du nichts falsch machen, weil das lediglich mehr Speicherplatz benötigt, der - wie Cruiz bereits feststelle - heutzutage kein nennenswertes Problem für diesen Anwendungsfall darstellt.
Eine Frage zu xsane noch zum Schluss: Man kann bei TIFF die Kompressionsart festlegen. Und zwar für 16 bit, 8 bit und lineart (S/W). Sowohl im Scanmodus "24bit Color" als auch "True Gray" wird hier jedoch die Variante 8 bit verwendet, was mich wundert. Es sollten doch gerade im Farbmodus 24bit sein?!
Das ist mir vor allem deswegen aufgefallen, weil standardmäßig hier der JPEG DCT Algorithmus verwendet wird, also lossy. Und man manuell auf deflate oder packbits umstellen muss.
Ich vermute mal, da XSane keine gesonderten Einstellungen für 24-Bit Farbe oder 16-Bit Graustufen anbietet, das Programm einfach auf eine Einstellung (hier 8-Bit Farbe) als Standard zurückgreift.
|
guy.brush
(Themenstarter)
Anmeldungsdatum: 13. Februar 2011
Beiträge: 216
Wohnort: Earth
|
Vielen Dank für deine Antwort und entschuldigt die verspätete Antwort. Ich bin auf ein neues Problem gestoßen, das ich bisher nicht lösen konnte. Ich habe bemerkt, dass beim Scannen mit ADF und in Farbe der Hintergrund einen deutlichen grau-bläulichen Stich hat. Auch ist teilweise die schwarze Tinte oder Bleistiftstriche (beides Handschrift) im Scan mit bläulichen Rändern versehen. Ich lasse mir normalerweise einen Preview anzeigen, xsane passt dann Gamma, Brightness, Contrast automatisch an und erzielt damit eigentlich ganz gute Ergebnisse. Scanne ich über den Flachbettscanner, ist der Hintergrund schön weiß. Das Papier im Test ist auch sehr weiß und hochwertiger. Der Scan über den ADF entspricht somit nicht der Realität. Bei Graustufen ist der Hintergrund weniger graustichig, aber man erkennt deutlicher das, was auf der Rückseite steht und durchscheint im Vergleich zum Flachbettscannen. Weder das übernehmen der Werte für Gamma, Brightness und Contrast aus dem Flachbettscan-Preview für den Scan via ADF noch einfaches Reinigen des AFD-Scan-Glases mittels Brillenputztuch hat Besserung gebracht. Ist das bei euch auch so? Liegt das evtl. daran, dass das Papier beim Durchziehen nicht ganz so exakt auf dem Glas liegt wie beim Flachbettscannen? Auf jeden Fall gibt das gerade so keine guten Resultate und mehrere 100 Seiten im Flachbettscanner ... ne ☺.
Mi XSane kenne ich mich nicht aus. Entweder benutze ich einfach scanimage (unterstützt kein PDF) auf der Befehlszeile oder gscan2pdf. Und bei gscan2pdf kann man beim Speichern in eine PDF angeben, welche Kompression verwendet werden soll. Der Scan selber liegt erstmal als reine Rasterdaten ohne jede Komprimierung vor, die wird erst beim Speichern angewendet. Mit Ausnahme von JPEG sollten die Methoden alle verlustlos sein.
Ah, ok. Ich frage mich, ob xsane alles als .pnm abspeichert und dann konvertiert.
[...] PDF/A [...]
Ok, vielen Dank. Ich schaue mir Ghostscript einmal an. Am einfachsten wäre natürlich etwas in der Form
convert_to_pdfa input.pdf output.pdf
Das könnte man dann auch später noch durchführen. Wäre so etwas mit Ghostscript nachträglich auch verlustfrei?
Im Prinzip kann man heutzutage tatsächlich alles in Farbe einscannen, weil bei 600 dpi ist da wenig Unterschied in der Dateigröße zwischen 8-Bit-RGB oder 8-Bit-Graustufen.
Meine Testdatei hat in Farbe und 600 dpi 28.7 MiB (PDF). Demnach brauchen 100 Seiten knapp 2.9 GiB. Ab wann wird denn eine einzelne PDF zu groß zum Öffnen?
Nachtrag: Wenn man möglichst kleine Dateigrößen erreichen möchte, aber das Aliasing bei 1-Bit-Monochrom persönlich als störend empfindet, dann kann man auch Grausstufen mit reduzierter Farbpalette nehmen.
Eine derartige Einstellung konnte ich jetzt auf Anhieb in xsane nicht finden. Aus irgendwelchen Gründen schien xsane ja auch nur 8 bit zu verwenden.
Deine Frage alleine beantwortet eigentlich schon, wie du das angehen musst: Im Zweifelsfall immer einzelne Rastergrafiken als Quelldateien vorhalten, bis du dir sicher bist.
Was ist denn der Vorteil, wenn ich z.B. alle Seiten als TIFF (deflate lossless komprimiert) einzeln abspeichere im Vergleich dazu, sie einzeln direkt als PDF zu speichern? Wenn ich nachher das Programm "convert" verwende, um aus den ganzen TIFF Dateien eine einzelne PDF zu machen, ist das überhaupt lossless?
|
shinichi
Anmeldungsdatum: 14. März 2008
Beiträge: 659
Wohnort: Lausitz + Honshu
|
Ich würde bei solchen Archivierungssachen auf die Dateigröße gar nicht achten. Wenn lossless halt soviel Platz für ein Buch braucht, dann braucht es das eben. Und 16 Gbit sind heutzutage gar nichts, auf einen 100-€-Datenspeicher passen dann mehrere tausend Bücher. 😉 Eines kann man dann zwar nicht per mail versenden, aber für sowas gibts dann (S)FTP und so Sachen. Auch würde ich NICHT in PDF scannen, sondern eben in lossless Bilder mindestens mit 250 px/cm, da die meisten meisten Normalodrucke mit 118 px/cm gemacht werden. Je mehr, desto besser, vor allem wenn Bilder drin vorkommen und je wichtiger das Dokument wird. Wenn es das Dokument her gibt, also wenn es eh mit Computerschrift geschrieben wurde und keine Bilder oder sonstige Grafiken enthält, also reiner Text ist (ein Brief ohne Logo oder Unterschrift), dann muss es ja nichtmal eine Rastergrafik sein, sondern dann dürfte der reine Text sowieso besser sein, weil ja das Blatt Papier ja nur eine Ansichtsform für den Text ist. Das wichtige ist dann ja nur der Text, das Papier nur der Träger und notwenidegs Übel. Dann wäre Texterkennung überlegenswerter (ggf. auch später aus einer gescannten Bilddatei heraus). Überlegenswerte Formate wären dann LaTeX oder XML. Bei einem Roman beispielsweise ist mir das völlig egal, wieviele Seiten der bei einem gebundenen Buch der Größe XY braucht. Da ist eine Seiteneinteilung halt notwendig, weil das Blatt Papier eben endlich ist. Der Roman würde ja nix von seinem Inhalt verlieren, wenn er auf Papyrusrolle gedruckt wäre. 😉 Wenn man nur wenige Grafiken hat (meinetwegen nur ein Logo am Anfang), deren Position relativ egal ist, kann man auch LaTeX oder HTML (was ja quasi eine Unterform von XML ist) nehmen. Erst, wenn auch die Form oder gar das Aussehen des Papiers wirkliche Bedeutung hat, kann man dann alles als Bild abspeichern. Auch ich würde dann die Bilder zu einem zusammenhängenden Dokument in einen Ordner packen. Ob man nun eine PDF-Datei zum durchscrollen hat oder einen Ordner, der von einem Bildbetrachter gelesen wird, finde ich ziemlich egal. Zumal es bei Bildbetrachtern weit mehr Auswahl gibt als bei PDF. PDF ist zudem ziemlich kompliziert. Wenn eben auch Seitenformat und Anordnung relativ egal ist, wäre HTML oder so eh besser.
|
mrkramps
Anmeldungsdatum: 10. Oktober 2006
Beiträge: 5523
Wohnort: south central EL
|
guy.brush schrieb: […] Scannen mit ADF […]
Ich bin mir sicher, dass es Scanner gibt, die über den ADF brauchbare Ergebnisse erzielen. Im bezahlbaren Bereich für Privatanwender ist mir allerdings noch keiner untergekommen. Selbst teuere Bürogeräte, die professionell gewartet werden, haben mir bislang eher qualitativ enttäuschende Ergebnisse ausgeworfen. Eingehend habe ich mich damit noch nicht beschäftigt, würde aber auch vermuten, dass die Qualitätsprobleme bedingt sind durch das technische Verfahren beim Einzug. Falls jemand mehr dazu sagen kann, würde mich das auch interessieren.
Ah, ok. Ich frage mich, ob xsane alles als .pnm abspeichert und dann konvertiert.
Nein, XSane wird ebenfalls Rohdaten erzeugen und die dann erst beim Speichern in das entsprechende Format pressen. PNM ist nur ein weiteres Rastergrafikformat.
Ok, vielen Dank. Ich schaue mir Ghostscript einmal an. Am einfachsten wäre natürlich etwas in der Form
convert_to_pdfa input.pdf output.pdf
Das könnte man dann auch später noch durchführen. Wäre so etwas mit Ghostscript nachträglich auch verlustfrei?
Ganz so kurz wie dein Befehl wird es mit Ghostscript nicht, aber man könnte das einfach in ein Script packen und damit zugänglicher machen. Wie weit das verlustlos bleibt, ist einfach nur abhängig von den Einstellungen. Es ist aber bspw. kein Problem nachträglich eine PDF mit eingebetteten Rastergrafiken in eine PDF/A zu konvertieren, ohne dabei die Rastergrafiken oder deren Kompression zu verändern.
Meine Testdatei hat in Farbe und 600 dpi 28.7 MiB (PDF). Demnach brauchen 100 Seiten knapp 2.9 GiB. Ab wann wird denn eine einzelne PDF zu groß zum Öffnen?
Wenn der PDF-Betrachter aufgibt, der Arbeitspeicher vollgelaufen ist oder der Prozessor abgebrannt ist. Schmerzfreier wird das aber eben, wenn man die 600-dpi-Scans als Quelldaten vorhält und daraus zur Ansicht (oder nennen wir es „Arbeitskopie“) eine PDF mit 150 dpi und JPEG-Kompression erstellt.
Nachtrag: Wenn man möglichst kleine Dateigrößen erreichen möchte, aber das Aliasing bei 1-Bit-Monochrom persönlich als störend empfindet, dann kann man auch Grausstufen mit reduzierter Farbpalette nehmen.
Eine derartige Einstellung konnte ich jetzt auf Anhieb in xsane nicht finden. Aus irgendwelchen Gründen schien xsane ja auch nur 8 bit zu verwenden.
Wirst du in XSane auch nicht finden. Die reduzierte Farbpalette ist etwas für die nachträgliche Bildbearbeitung.
Was ist denn der Vorteil, wenn ich z.B. alle Seiten als TIFF (deflate lossless komprimiert) einzeln abspeichere im Vergleich dazu, sie einzeln direkt als PDF zu speichern? Wenn ich nachher das Programm "convert" verwende, um aus den ganzen TIFF Dateien eine einzelne PDF zu machen, ist das überhaupt lossless?
Die Frage stellt sich eigentlich eher anders herum, welchen Vorteil hat man, wenn man Rastergrafiken in einseitige PDFs einbettet und nicht in einem Rastergrafikformat speichert? Bildbetrachter tun sich weniger schwer mit hochauflösenden Rastergrafiken als PDF-Betrachter und für die Nachbearbeitung bieten sich Rastergrafikformate eher an als wenn, das in einem anderen Format eingebettet ist. PDF als Dateiformat wäre hier eine Ebene Komplexität mehr, die überflüssig wäre. Ob das verlustfrei ist oder nicht - wie oben schon erwähnt - ist einfach nur abhängig von den Einstellungen. Man kann ImageMagicks convert über den Befelszeilenschalter -compress entsprechend eine konkrete Komrepssionsmethode mitgeben. Zum Beispiel -compress Zip was Deflate entsprechen würde (siehe auch convert -list compress für eine Übersicht).
|
Cranvil
Anmeldungsdatum: 9. März 2019
Beiträge: 990
|
guy.brush schrieb: Ich tendiere aktuell auch dazu, sehr wichtige Dokumente in zweifacher Ausführung zu speichern. Einmal hochauflösend und einmal klein und kompakt. Wobei ich jetzt auch nicht weiß, ob man Ausdrucke von digitalen Kopien/Scans von gewissen Dokumenten überhaupt einreichen darf, falls man das Original verloren hat.
Aufgrund meiner persönlichen Erfahrungen gehe ich bei der Archivierung (oder eher dem Wegwerfen der Originale) so vor, dass alles ohne Unterschrift, Siegel (vor allem gestempelte oder geklebte) oder ausgeklügelte Papiersorten auch digitalisiert in Ordnung ist und das Original weg kann. Alle anderen Dokumente werden zwar gescannt, wandern dann aber ins Bankschließfach, bis die jeweilige Sache nicht mehr relevant ist. Beispiel: Wenn ich die Leistungen einer Lebens- oder Rentenversicherung in Anspruch nehmen möchte oder diese Auflösen, sind Scherereien bedeutend weniger wahrscheinlich, wenn man den Versicherungsschein im Original hat. Man kann zwar auch Verlusterklärungen abgeben, allerdings ist das manchmal eher ein Kulanzding. Wie schon in meiner letzten Antwort empfehle ich einen Scan in einer Auflösung die qualitativ ausreicht. Und ausreichend ist meiner Meinung nach, dass der Ausdruck auf einem genauso großem Blatt Papier wie das Original gut lesbar ist. Bonuspunkte gibt's, wenn man z.B. zwei A4-Seiten auf einer A4-Seite unterbringen kann und es immernoch lesbar ist, sowie die Möglichkeit, das Gegenteil zu machen (also etwas vergrößern). Letzteres eher bei Dokumenten mit Grafiken/Skizzen. guy.brush schrieb: Meine Testdatei hat in Farbe und 600 dpi 28.7 MiB (PDF). Demnach brauchen 100 Seiten knapp 2.9 GiB. Ab wann wird denn eine einzelne PDF zu groß zum Öffnen?
Das ist stark von der Implementierung abhängig. Ein (für diesen Anwendungsfall) richtig gutes Programm lässt PDF-Dateien in der Größe deiner Festplatte zu, weil es immer nur die paar Seiten durch den Speicher schleust, die du gerade im Bild hast bzw. gerade eben durchgeblätter hast.
Was ist denn der Vorteil, wenn ich z.B. alle Seiten als TIFF (deflate lossless komprimiert) einzeln abspeichere im Vergleich dazu, sie einzeln direkt als PDF zu speichern? Wenn ich nachher das Programm "convert" verwende, um aus den ganzen TIFF Dateien eine einzelne PDF zu machen, ist das überhaupt lossless?
Du könntest beispielsweise jede einzelne Seite nachbearbeiten, bevor du sie in das PDF schiebst. PDF unterstützt auch verlustfreie Verfahren zur Einbettung von Grafiken. Ob convert hierfür Optionen bietet, müsstest du in dessen Dokumentation nachschlagen. shinichi schrieb: Ich würde bei solchen Archivierungssachen auf die Dateigröße gar nicht achten. Wenn lossless halt soviel Platz für ein Buch braucht, dann braucht es das eben. Und 16 Gbit sind heutzutage gar nichts, auf einen 100-€-Datenspeicher passen dann mehrere tausend Bücher. 😉 Eines kann man dann zwar nicht per mail versenden, aber für sowas gibts dann (S)FTP und so Sachen.
Ich sehe den Nutzen nicht, den Speicherbedarf für das Dokumentenarchiv unnötig aufzublasen. Bei dem Kochbuch drücke ich ja noch ein Auge zu, denn abgesehen von der wahrscheinlich irgendwann stattfindenden Urheberrechtsverletzung durch Weitergabe ist es bestimmt schick, die Bilder ordentlich zur Geltung kommen zu lassen - auch in der Kopie. Bei allen anderen Dokumenten bin ich nach wie vor der Meinung, dass Lesbarkeit gegeben sein muss und mehr nicht. Das führt zu einem vernünftigen Speicherbedarf, kurzen Ladezeiten und eben nicht der Frage, wie man die Datei klein genug bekommt, um sie dann an jemand anderen weiterzugeben. Auf der Arbeit kommen die S/W-Scans in der Regel mit um die 50 KiB pro A4-Seite aus, wenn ich mich recht entsinne. Nehmen wir mal 150 KiB im Durchschnitt für alle Dokumente (S/W und Farbe) und schwupps kommen wir pro TiB Speicherplatz auf "nur" noch etwas über 7 Mio. Seiten potentiellen Archivumfang. Hatte ich bereits erwähnt, dass ich mich freue, auf meinem 6 Jahre alten Notebook mit 256 GB-SSD immernoch nur etwas über 100 GiB Speicher zu verwenden, wovon das meiste Urlaubsfotos sind? Aber hey, wozu den Gürtel eng geschnallt halten, wenn wir in einem Zeitalter des grenzenlosen Überflusses leben!
Auch würde ich NICHT in PDF scannen, sondern eben in lossless Bilder mindestens mit 250 px/cm, da die meisten meisten Normalodrucke mit 118 px/cm gemacht werden. Je mehr, desto besser, vor allem wenn Bilder drin vorkommen und je wichtiger das Dokument wird.
Es gibt diesen lästigen Moiré-Effekt, der dazu führt, dass die Bildqualität des Scans mit steigender Auflösung im Verhältnis zum Original sogar schlechter wird.
Wenn es das Dokument her gibt, also wenn es eh mit Computerschrift geschrieben wurde und keine Bilder oder sonstige Grafiken enthält, also reiner Text ist (ein Brief ohne Logo oder Unterschrift), dann muss es ja nichtmal eine Rastergrafik sein, sondern dann dürfte der reine Text sowieso besser sein, weil ja das Blatt Papier ja nur eine Ansichtsform für den Text ist. Das wichtige ist dann ja nur der Text, das Papier nur der Träger und notwenidegs Übel. Dann wäre Texterkennung überlegenswerter (ggf. auch später aus einer gescannten Bilddatei heraus). Überlegenswerte Formate wären dann LaTeX oder XML. Bei einem Roman beispielsweise ist mir das völlig egal, wieviele Seiten der bei einem gebundenen Buch der Größe XY braucht. Da ist eine Seiteneinteilung halt notwendig, weil das Blatt Papier eben endlich ist. Der Roman würde ja nix von seinem Inhalt verlieren, wenn er auf Papyrusrolle gedruckt wäre. 😉 Wenn man nur wenige Grafiken hat (meinetwegen nur ein Logo am Anfang), deren Position relativ egal ist, kann man auch LaTeX oder HTML (was ja quasi eine Unterform von XML ist) nehmen. Erst, wenn auch die Form oder gar das Aussehen des Papiers wirkliche Bedeutung hat, kann man dann alles als Bild abspeichern.
Mit dem Absatz hast du mich abgehängt. Der Themenstarter wollte bereits vorhandene Unterlagen einscannen und archivieren und nicht neue Werke verfassen. Texterkennung würde ich dann auch eher im Verbund mit einem ausgewachsenen DMS und vor allem mehreren Anwendern sehen, da man als Einzelperson doch recht viel über den reinen Dateinamen abwickeln kann.
Auch ich würde dann die Bilder zu einem zusammenhängenden Dokument in einen Ordner packen. Ob man nun eine PDF-Datei zum durchscrollen hat oder einen Ordner, der von einem Bildbetrachter gelesen wird, finde ich ziemlich egal. Zumal es bei Bildbetrachtern weit mehr Auswahl gibt als bei PDF. PDF ist zudem ziemlich kompliziert. Wenn eben auch Seitenformat und Anordnung relativ egal ist, wäre HTML oder so eh besser.
PDF ist die Hölle, das stimmt. Deshalb findet man heutzutage auch fast niemanden mehr, der sich überhaupt damit befassen will, geschweige denn Werkzeuge, um damit zu arbeiten.
|
mrkramps
Anmeldungsdatum: 10. Oktober 2006
Beiträge: 5523
Wohnort: south central EL
|
Cranvil schrieb: PDF ist die Hölle, das stimmt. Deshalb findet man heutzutage auch fast niemanden mehr, der sich überhaupt damit befassen will, geschweige denn Werkzeuge, um damit zu arbeiten.
Wir haben die Verwirrung noch gar nicht perfekt gemacht und darauf hingewiesen, dass es zu PDF/A noch ein Alternative names DjVu gibt. Man findet übrigens nur wenige Werkzeuge um mit PDF-Dateien „zu arbeiten“, weil im Prinzip war es nie vorgesehen, dieses Dateiformat noch zu bearbeiten. Es ist das Ergebnis aller Arbeitsschritte, das man betrachten und drucken können sollte. Aber irgendwie hat sich das eingebürgert, dass man unbedingt noch daran herumschrauben können können muss.
|
Cruiz
Anmeldungsdatum: 6. März 2014
Beiträge: 5557
Wohnort: Freiburg i. Brsg.
|
Cranvil schrieb: Hatte ich bereits erwähnt, dass ich mich freue, auf meinem 6 Jahre alten Notebook mit 256 GB-SSD immernoch nur etwas über 100 GiB Speicher zu verwenden, wovon das meiste Urlaubsfotos sind? Aber hey, wozu den Gürtel eng geschnallt halten, wenn wir in einem Zeitalter des grenzenlosen Überflusses leben!
Bei einer richtigen digitalen Archivierung speichert man doch nicht alles auf dem Arbeitsgerät? Ich kenne ehrlich gesagt niemanden der das macht. Ich habe zu Hause ein NAS, das als Datengrab dient. Redundante Speicherung auf zwei Festplatten bieten alle freien und und unfreien NAS-Betriebssysteme. Zusätzlich macht man natürlich regelmäßiges Backup. Dateizugriff von Außerhalb geht dann natürlich auch. Mein Notebook hat sogar nur eine 128 GB SSD, wovon 73,6 GB eben noch frei waren 😉 Worauf ich hinaus will: Wenn man konsequent digital arbeitet gewinnt eine ausgeklügelte Speicher- und Backupstrategie enorm an Bedeutung.
|
Cranvil
Anmeldungsdatum: 9. März 2019
Beiträge: 990
|
Cruiz schrieb: Bei einer richtigen digitalen Archivierung speichert man doch nicht alles auf dem Arbeitsgerät? Ich kenne ehrlich gesagt niemanden der das macht. Ich habe zu Hause ein NAS, das als Datengrab dient. Redundante Speicherung auf zwei Festplatten bieten alle freien und und unfreien NAS-Betriebssysteme. Zusätzlich macht man natürlich regelmäßiges Backup. Dateizugriff von Außerhalb geht dann natürlich auch. Mein Notebook hat sogar nur eine 128 GB SSD, wovon 73,6 GB eben noch frei waren 😉
Ich stehe seit ca. 15 Jahren kurz vor der Beschaffung eines NAS. In der Regel scheitert das dann an einem schlechten Haben zu Brauchen-Verhältnis (ich wäre einziger Benutzer mit max. 1,25 Geräten). Deswegen mache ich hübsch regelmäßig Datensicherungen auf Offline-Medien und tausche das "aktive" Medium alle ein, zwei Wochen gegen das inaktive Medium im Bankschließfach aus.
Worauf ich hinaus will: Wenn man konsequent digital arbeitet gewinnt eine ausgeklügelte Speicher- und Backupstrategie enorm an Bedeutung.
Na da sind wir ja einer Meinung. ☺
|
mrkramps
Anmeldungsdatum: 10. Oktober 2006
Beiträge: 5523
Wohnort: south central EL
|
Cruiz schrieb: Bei einer richtigen digitalen Archivierung speichert man doch nicht alles auf dem Arbeitsgerät? Ich kenne ehrlich gesagt niemanden der das macht.
Jetzt kennst du jemanden. Nachtrag: Mit Cranvil kennst du sogar schon zwei 😉 Für den Privatgebraucht ist ein NAS mir persönlich zuviel zusätzliche Technik, für die bei mir (noch) keine Notwendigkeit besteht. Sobald ich hier irgendwas mit einem zweiten Benutzer teilen müsste, sähe das mit der Notwendigkeit aber auch wieder anders aus, weil mehrere Personen davon profitieren würden. Bislang tut es aber die Kombination aus 1-TB-HDD im Desktop-PC, regelmäßige Synchonisation im Wechsel auf zwei externe HDDs und bei Bedarf Zugriff von anderen Endgeräten über SSH. Ist aber nicht so, dass ich nicht wüsste wie angenehm ein NAS mit RAID-1 ist, um Daten zentral verwalten und sichern zu können.
Worauf ich hinaus will: Wenn man konsequent digital arbeitet gewinnt eine ausgeklügelte Speicher- und Backupstrategie enorm an Bedeutung.
Das kann man eigentlich nicht oft genug betonen! Ohne diese Strategien, die man ebenso konsequent verfolgt, wie man konsequent digital arbeiten möchte, braucht man mit einem digitalen Datenarchiv gar nicht anfangen.
|