[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Ordnung in Datensalat bringen



On Sunday 04 July 2004 10:53, Joerg Rieger wrote:
> On Sat, Jul 03, 2004 at 10:58:28PM +0200, Michelle Konzack wrote:
> > Am 2004-07-03 22:50:36, schrieb Rainer Bendig, Digitally Impressed:
> > >Michelle Konzack schrieb am 03.07.2004 22:30:

Hi,

[...]

> Also sowas mach ich auch:
>
> find . -exec md5sum {} 2>/dev/null \; | sort | uniq -W 1 -D >
> double.txt
>
> Dauert bei 80 GB gaaanz schön lang.

außerdem hat der Ansatz ein weiteres Problem. Er findet Doubletten nur 
bei 100%iger  Gleichheit. Man denke mal an JPEGs bei denen mal der EXIF 
Header angefasst wurde, das Bild gedreht oder eine Farbkorrektur 
vorgenommen wurde. Oder diverse Officeformate wo bei einer Version nur 
mal auf Speichern gedrückt wurde. Dies sind inhaltlich gleiche Dateien 
deren Hash sich aber durchaus unterscheidet.

Gruß
	Thomas

-- 
IRC: TomseDive	Jabber: tomse@jabber.org	ICQ: 4843585

Attachment: pgpfzKPVMeurA.pgp
Description: PGP signature


Reply to: