On Sunday 04 July 2004 10:53, Joerg Rieger wrote: > On Sat, Jul 03, 2004 at 10:58:28PM +0200, Michelle Konzack wrote: > > Am 2004-07-03 22:50:36, schrieb Rainer Bendig, Digitally Impressed: > > >Michelle Konzack schrieb am 03.07.2004 22:30: Hi, [...] > Also sowas mach ich auch: > > find . -exec md5sum {} 2>/dev/null \; | sort | uniq -W 1 -D > > double.txt > > Dauert bei 80 GB gaaanz schön lang. außerdem hat der Ansatz ein weiteres Problem. Er findet Doubletten nur bei 100%iger Gleichheit. Man denke mal an JPEGs bei denen mal der EXIF Header angefasst wurde, das Bild gedreht oder eine Farbkorrektur vorgenommen wurde. Oder diverse Officeformate wo bei einer Version nur mal auf Speichern gedrückt wurde. Dies sind inhaltlich gleiche Dateien deren Hash sich aber durchaus unterscheidet. Gruß Thomas -- IRC: TomseDive Jabber: tomse@jabber.org ICQ: 4843585
Attachment:
pgpVuFLeRahYa.pgp
Description: PGP signature