Skript zur automatischen Aufteilung von Daten auf beliebige Container › Projekte › Aktiv werden › Forum › ubuntuusers.de

Skript zur automatischen Aufteilung von Daten auf beliebige Container

« Vorherige1Nächste »

Status: Ungelöst | Ubuntu-Version: Nicht spezifiziert
Antworten |

QuantenPhysiker Anmeldungsdatum: 28. Dezember 2009 Beiträge: Zähle...	Zitieren 28. Dezember 2009 14:55 Hallo (K)Ubuntu-Freunde, vielleicht habt ihr euch auch schon öfter mit dem Problem herumschlagen müssen, dass ihr einen Berg von Daten sichern wolltet und diese jetzt irgendwie auf mehrere BackUp-Medien verteilen müsst... Ich habe mir deswegen gestern mal einen Nachmittag Zeit genommen, ein automatisiertes Python-Skript für dieses Problem zu schreiben. Dieses Programm findet ihr im Anhang zur freien Verwendung. Ich freue mich über Kommentare/Wünsche/Anregungen, sobald ihr es ausprobiert habt. ANMERKUNG: Weil die Dateiendung '.py' hier im Forum verboten ist, habe ich die Endung '.txt' angehängt. Entfernt diese zum Starten einfach. Das Programm funktioniert folgendermaßen: - Ihr stellt anfangs im kommentierten Block ein, welches Verzeichnis ihr sichern wollt und an welchem Ort die BackUp-Container erstellt werden sollen. Dann wählt ihr noch die maximal erlaubte Größe eines Containers und ob ihr das Verzeichnis rekursiv (mit Unterverzeichnissen) sichern wollt und wie viele Ausgaben ihr sehen möchtet [zum Testen/Fehler suchen]. Anschließend überlegt ihr euch noch, ob ihr [z.B. bei besonders großen Datenmengen] die Dateien nicht kopieren, sondern stattdessen lieber verlinken wollt [Befehl 'ln- s' von den Containern aus auf die Daten]. - Das Programm startet ihr mittels 'python DataSplit.py'. Aufgrund der ersten Zeile ("SheBang") sollte auch die gewohnte Ausführung mittels './DataSplit.py' möglich sein. [Eventuell müsst ihr vorher das Programm noch ausführbar machen: 'sudo chmod +x DataSplit.py'.] - Das Programm liest anschließend alle Dateien im Verzeichnis [und eventuell den Unterverzeichnissen, wenn rekursiver Ablauf gewünscht] ein und merkt sich deren Dateigrößen. - Anschließend erstellt es eine sortierte Liste mit allen auftretenden Größen. - Wenn alle Dateigrößen bekannt sind, testet das Programm, ob einzelne Dateien vielleicht schon größer als die maximale Containergröße sind und eine Sicherung daher unmöglich wird. - Diese Liste geht es der Größe nach durch und verteilt die Dateien auf die Container. Werden dabei mehrere Dateien mit der gleichen Größe angetroffen, so wird die Liste mit den Dateigrößen aktualisiert [, da mehrere Dateien mit gleicher Größe nicht eindeutig über ein Dictionary in dieser Richtung angesprochen werden können]. [ANMERKUNG: Hier bestünde eventuell noch Optimierungsbedarf, wenn jemand eine bessere Lösung weiß, aber das Programm sortiert meine Eigenen Dateien mit knapp 60 GB in 21.000 Einzeldateien bereits in ca. 15 Sekunden, wobei das Einlesen mit 10 Sekunden den Löwenanteil des Programms ausmacht - daher sollte dieses "umständliche, aber sichere" Vorgehen wohl verschmerzbar sein! 😉 ] - Wenn alle Dateien der Liste abgearbeitet sind, habt ihr am BackUp-Ort mehrere Unterverzeichnisse, in denen die Daten möglichst platzsparend untergebracht sind. Ich wünsche euch viel Spaß beim Ausprobieren und freue mich auf Rückmeldungen! Mit freundlichen Grüßen, Markus Groß. Hier noch einige Anmerkungen zum Programm, für alle, die es genauer wissen wollen: Das Programm ist in Python und nicht in Bash geschrieben, weil: - es somit problemlos in Windows funktionieren sollte [im Programm findet ihr eine Anmerkung, welche Einstellung dort sicher nicht funktionieren werden], - Bash keine sinnvolle [mir bekannte] Möglichkeit bietet, eine eindeutige Zuordnung Dateiname ←> Dateigröße zu verwalten, - Python effektiv arbeitet, - und ich meine Python-Kenntnisse einfach gerne mal in die Praxis umsetzen wollte. 😉 Das Programm erstellt immer erst sämtliche Unterverzeichnisse und teilt Dateien danach einzeln auf die Container auf. Eventuell werden so mehrere Daten eines Verzeichnisses auf verschiedene Container verteilt und das Verzeichnis mitunter auch leer in einem Container erstellt. Das ist vielleicht nicht die optimale Vorgehensweise, aber definitiv die Platzsparendste. Wenn ihr die Dateien lieber am Stück Sichern wollt, könnt ihr diese immer noch vorher Packen und somit Verzeichnisweise sichern. Das wäre aber je nach Dateianzahl wohl recht Zeitaufwendig. Derzeit arbeite ich an einer Option, die Daten erst einzeln oder Verzeichnisweise zu packen und anschließend auf die Verzeichnisse zu verteilen. Die Dateien kommen ungepackt in die Container, um eine direkte Rücksicherung zu erlauben. Wie gesagt arbeite ich zur Zeit noch an einer optionalen Komprimierungs-Option, um weiteren Platz zu sparen. Allerdings steigt damit das Risiko, dass einzelne Archive die maximale Containergröße überschreiten und das Programm dadurch fehlschlägt. !!! WICHTIG: Alle Dateien im gewählten BackUp-Ziel werden derzeit gelöscht !!! Ihr solltet daher UNBEDINGT ein leeres Verzeichnis wählen !!! Es ist leider [noch?] nicht möglich, mehrere Verzeichnisse gleichzeitig aufzuteilen. Diese "Manko" lässt sich aber durch einen einfachen "Trick" ganz leicht umgehen: Da mein Programm auch symbolische Links auf Verzeichnisse auflöst, könnt ihr einfach ein Verzeichnis erstellt, dass ihr sichern wollt und in diesem Links auf alle zu sichernden Unterverzeichnisse erstellen. Wenn ihr im Programm die Option 'BACKUP_RECURSIVELY=True' setzt, könnt ihr damit diese Einschränkung umgehen. Die Verzeichnisse im BackUp-Container werden genauso gewählt wie im Verzeichnis mit den Daten, falls Unterverzeichnisse vorhanden sind [und diese gesichert werden sollen]. So, das waren vorerst alle Bemerkungen zu meinem Programm. Bei Wünschen, Fragen und gewünschten Zusatzoptionen einfach antworten. Vielen Dank, Markus Groß. Hallo (K)Ubuntu-Gemeinde, wie versprochen gibt es hier als zweiten Teil meines Weihnachtsgeschenkes an euch das erweiterte Skript mit Packmöglichkeit. Ihr habt nun die Wahl, ob ihr die Dateien - direkt aufteilen wollt, - sie erst Datei-weise packen möchtet und anschließend sichern [aus welchen Gründen auch immer 😉], - oder erst sämtliche Daten Verzeichnisweise packen möchtet, bevor das Skript sich um die Aufteilung der Daten auf die Container kümmert. Es wird in den letzten beiden Fällen erst geprüft, ob die gepackten Daten schon vorhanden sind (und vorher das Archiv gelöscht) und ob es eventuell weitere Archive gibt, die nicht zu einer Datei/Verzeichnis gehören. Es sollte somit jeder Fall berücksichtigt werden. War gerade im Fall mit dem Verzeichnis-weise packen eine ziemlich Fummelei, daher der späte Beitrag. Ich hoffe ihr verzeiht, dass in letzterem Fall das Einlesen nicht hundertprozentig optimiert ist, aber für die Sicherheit, wirklich alle Daten zu sichern scheint mir das gewählte Vorgehen unumgänglich. Aber wie gesagt: Falls jemand Verbesserungsmöglichkeiten sieht, kann er diese gerne posten. Ich würde mich freuen. Dann Frohe (Rest-)Weihnachten und einen guten Rutsch ins neue Jahr, euer QuantenPhysiker. DataSplit_Version1.0.py (8.4 KiB) Erste Version meines Programms ohne Packmöglichkeit Download DataSplit_Version1.0.py DataSplit_Version1.1.py (10.1 KiB) Optimierte Version meines Programms ohne Packmöglichkeit Download DataSplit_Version1.1.py DataSplit_Version1.2.py (11.1 KiB) Optimierte Version meines Programms mit dateiweiser Packmöglichkeit Download DataSplit_Version1.2.py DataSplit_Version1.3.py (15.0 KiB) Optimierte Version meines Programms mit ordnerweiser Packmöglichkeit Download DataSplit_Version1.3.py DataSplit_ChangeLog.txt (1.1 KiB) ChangeLog meines Programms Download DataSplit_ChangeLog.txt
oxe1976 Anmeldungsdatum: 5. Februar 2008 Beiträge: 759	Zitieren 28. Dezember 2009 15:50 Hallo, es waere nicht schlecht die Attribute ueber die Kommandozeile zu uebergeben. Ansonsten mach ich sowas immer mit dar ... vielleicht als Anregung. Gruss
adun Anmeldungsdatum: 29. März 2005 Beiträge: 8606	Zitieren 28. Dezember 2009 16:00 Ich mach das andersrum. Erst ein großes Archiv, dann komprieren, dann zerlegen (z.B. mit split) (in allen Schritten Hashsummen anlegen). Theoretisch sollte das Komprimieren so effizienter sein, um wie viel genau, hab ich aber nie getestet.
QuantenPhysiker (Themenstarter) Anmeldungsdatum: 28. Dezember 2009 Beiträge: 2	Zitieren 28. Dezember 2009 16:37 Danke für eure Antworten. @adun: die Idee ist nicht schlecht, aber wie in meinen Anmerkungen geschrieben, möchte ich eben nicht mit split arbeiten, da ich sonst das volle BackUp zurückkopieren und zusammensetzen muss, auch wen ich nur eine einzelne Datei wiederherstellen muss. Das lohnt den Aufwand bei größeren Datenmengen (z.B. gesamtes System sichern!) nicht. Dennoch danke für die Idee. @oxe1976: An die Idee mit der Kommandozeile dachte ich auch schon - wäre eine brauchbare Erweiterung. Und besten Dank für den Tipp mit DAR!!! Wenn ich das Programm früher gefunden hätte, hätte ich mir dieses Skript wohl sparen können, da DAR als vollständige Alternative zu Acronis TrueImage wirklich alle Funktionen abzudecken scheint, die ich mir zusammensuchen wollte. Naja, jetzt hab ich ja eine wunderbare BackUp-Lösung gefunden. Ich verbuche dieses Skrip dann einfach mal als Übung zum Python-Programmieren und nutze DAR. 😉 Aber dennoch braucht vielleicht der Eine oder Andere mein Skript nochmal. Ich werde es jedenfalls weiter nutzen, um meine TV-Aufnahmen auf DVDs aufzuteilen! ☺)
KnutOlafsson Anmeldungsdatum: 6. April 2008 Beiträge: 131 Wohnort: /home/	Zitieren 28. Dezember 2009 17:12 @QuantenPhysiker: Eine kleine Erleichterung für DAR ist DarGUI (http://dargui.sourceforge.net/). Ist intuitiv benutzbar und spuckt am Ende nicht nur das dar-backup aus sondern auch die Befehlszeile welche dafür verwendet wurde. Grüße Timo

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »