|
Moin, moin!
Ich hatte ein Problem. Es handelt sich um das altbekannte Problem, welches vor Reisen oder Unterbrechungen immer wieder auftaucht: Man will noch schnell die letzten Daten aus den Arbeitsbereichen einordnen, schafft das aber zeitlich nicht mehr. Also wird ein Verzeichnis "tbdl", "offen" oder "nach den Ferien" erstellt und erst mal alles hineingepackt. Wenn man wieder zurück ist, hat man meist keine Zeit (oder Lust) da hinein zu schauen, so dass vor der nächsten Abwesenheit ein "tbdl2" (usw.) Verzeichnis erstellt wird. Später wird dann mal irgendwann eines der "tbdl"-Verzeichnisse (teilweise) in strukturierte Verzeichnisse gepackt, aber irgendwann weiss man nicht mehr wie oft eigentlich eine Datei unter welchem Namen auch immer vorhanden ist.
Ich wollte also wissen, welche Dateien in meinen Arbeitsverzeichnissen mehrfach vorhanden sind, wobei mich Dateinamen und Erweiterungen nicht interessierten, sondern ausschliesslich der Inhalt. Da es schneller geht, sich so etwas selber zu schreiben, als im Netz nach einem Tool zu suchen, welches meist auch nur ein Kompromiss ist, habe ich das schnell geschrieben, mit hinterhältigen Tests einigermassen wasserfest gemacht und auch eine Kurzbeschreibung gemacht - der Code ist nicht dokumentiert, weil er de facto sehr einfach und selbsterklärend ist.
Ich habe das Programm heute Nacht um 1:00 Uhr das Programm mittels folgender "bat"-Datei gestartet:chcp 1252 ruby doubles_list_all.rb -v1 -omydoubles.txt c:/Work c:/Persönliches d:/film320 d:/permanent500 pause
Das chcp 1252 war nötig, weil ich Verzeichnis- und Dateinamen mit Umlauten benutze.
Die vier angegebenen Wurzelverzeichnisse c:/Work, c:/Persönliches, d:/film320 und d:/permanent500 enthalten 530GB Daten. In d:/film320 befinden sich Videoaufnahmen der Hauppauge-WinTV-Fernsehanwendung mit Dateigrössen bis 7GB, analysiert wurden 89328 Dateien, ausgeblendete Systemdateien sind für das Programm nicht sichtbar (warum weiss ich nicht, aber das ist mir auch egal) und eine Datei hat einen zu langen Namen.
Die Analyse war dann um ca. 10:00 Uhr beendet, das Protokoll der mehrfach vorhandenen Dateien ist 450 Seiten lang. Das ist nun nicht sonderlich seltsam, weil ich auch viele gespeicherte Internetseiten habe, deren "-Dateien"-Verzeichnis sehr oft die gleichen Inhalte haben. Diese Teile habe ich mir anschliessend gelöscht.
Im Anhang findet Ihr das Programm. Vielleicht braucht es ja gerade zufällig jemand.
_________________ WoNáDo.set_state!(:active)
|