Hallo zusammen
da ich selber eine ganz gute Song-Sammlung habe und überall eifrig weitersammle hatte ich bis jetzt auch das Problem von tausenden doppelten Dateien.
Jetzt habe ich mich mal diesem Thema angenommen,
und ein kleines Prog geschrieben um Dubletten aufzuspüren und zu löschen.
Download v2.0:
www.casiosmu.de/site/download/Songbeamer_DubFinder.zip
Wer Interesse hat kann es gerne ausprobieren - allerdings auf eigene Gefahr.
Eine kurze Anleitung liegt bei.
Version 1 läuft zwar ganz gut, ist aber eher noch beta. Ich arbeite an Version 2.
Verbesserungsvorschläge, Bugs, Kommentare sind erwünscht.
Version 2 ist sowohl optisch als auch intern überarbeitet. Neben einem etwas schnelleren Vergleich wurden weitere Vergleichsarten hinzugefügt. Außerdem wurden diverse Bugs behoben.
viele Grüße,
casiosmu
History:
06.12.2011 - Versioin 1.0
Songbeamer - Dublettenfinder
Songbeamer - Dublettenfinder
Zuletzt geändert von casiosmu am Mo Sep 09, 2013 3:30 pm, insgesamt 1-mal geändert.
Hallo casiosmu,
ich habe Dein Tool ausprobiert und dazu zwei Anmerkungen:
Andreas
ich habe Dein Tool ausprobiert und dazu zwei Anmerkungen:
- 1. Es wäre praktisch wenn man über einen Filter einstellen könnte, welche Dateien untersucht werden.
Wir setzen für unsere Synchronisation Subversion ein und dabei gibt es (zumindest bei älteren Version)
immer ein Unterverzeichnis in denen die Datei nochmal vorhanden ist, damit Änderungen erkannt und
angezeigt werden können. Dadurch hat Dein Tool natürlich immer die "Schattenkopie" für jeden Song gefunden ...
2. Du benutzt zum Vergleichen einen Hash-Wert für den Inhalt der Datei. Ich bin mir nicht sicher, ob diese Merkmal stark genug ist.
Ich gehe davon aus, dass eine Dublette nicht immer 100%ig gleich ist, sondern nur ähnlich, evtl. gibt es leichte Unterschiede
in der Schreibweise oder der Formatierung, oder Parametereinträge in der SNG-Datei sind anders. Evtl. wäre es besser nach Dateien
mit Ähnlichkeiten zu suchen und dann einen "Ähnlichkeitswert" zu berechnen und nach diesem sortieren.
Andreas
Hallo Andreas,
ja, das mit der Dateiendung kommt mit auf die Todo-Liste.
Um die Sicherungskopien (von Subversion) nicht zu löschen, darf der Ordner einfach nicht angekreuzt werden
(ok, bei vielen Ordnern wirds etwas unübersichtlich, aber ich arbeite noch an der GUI).
So findet er zwar die Dubletten, sie werden aber nicht gelöscht. Bzw: Ich vermute, die Sicherungskopien haben nicht die gleiche Dateiendung ?
zu 2.:
einen Fuzzy-Filter zu programmieren dauert dann schon etwas länger als 2 Tage, aber ich werd sehen was sich machen lässt.
So was in der RIchtung - speziell auf Songbeamer ausgerichtet - hatte ich bereits im Hinterkopf.
Bei mir konnte ich aber schon allein mit dem Hash über 1000 Dateien entfernen, die ich sonst manuell hätte sortieren müssen.
mfg
ja, das mit der Dateiendung kommt mit auf die Todo-Liste.
Um die Sicherungskopien (von Subversion) nicht zu löschen, darf der Ordner einfach nicht angekreuzt werden
(ok, bei vielen Ordnern wirds etwas unübersichtlich, aber ich arbeite noch an der GUI).
So findet er zwar die Dubletten, sie werden aber nicht gelöscht. Bzw: Ich vermute, die Sicherungskopien haben nicht die gleiche Dateiendung ?
zu 2.:
einen Fuzzy-Filter zu programmieren dauert dann schon etwas länger als 2 Tage, aber ich werd sehen was sich machen lässt.
So was in der RIchtung - speziell auf Songbeamer ausgerichtet - hatte ich bereits im Hinterkopf.
Bei mir konnte ich aber schon allein mit dem Hash über 1000 Dateien entfernen, die ich sonst manuell hätte sortieren müssen.
mfg
Re: Songbeamer - Dublettenfinder
Inzwischen gibt's das (indirekt) im SB - über die CCLI-Nummer (die ja die SongÜbersicht jetzt automatisch nachtragen kann ).
In der SongÜbersicht nach der CCLI-Nummer sortieren, schon hat man die Doppelten übereinander.
Ok, man braucht trotzdem gute Augen, um sie zu finden - bei einer großen Datenbank würde ich nach Excel exportieren, dort hat man mehr Möglichkeiten...