Am Samstag 27 September 2008 schrieb Martin Steigerwald: > Am Mittwoch 24 September 2008 schrieb Michael Schuerig: > > On Wednesday 24 September 2008, Martin Steigerwald wrote: > > > Abgleich von 350GB? Das hängt von vielen Faktoren ab. Verwendetes > > > Dateisystem... Fragmentierung, Anzahl und durchschnittliche Größe > > > der Dateien, verwendete Hardware, Anbindung der Backup-Platte. > > > > Das sind bei mir nicht nur 350GB, sondern ~12 komplette Snapshots > > meines "Arbeits"dateisystems. Die trotzdem verhältnismäßig geringe > > Größe ergibt sich dadurch, dass rsnapshot wo möglich Hardlinks > > erzeugt. > > Ich schrieb doch es hängt von weiteren Faktoren als der reinen > GByte-Zahl ab. Die Anzahl der Hardlinks nannte ich nicht. Sie ist > jedoch in zweierlei Hinsicht in wichtiger Faktor: > > 1) Sie erhöht die Anzahl der Verzeichniseinträge > 2) rsync muss einen Extra-Aufwand treiben, um Hardlinks zu erkennen > > Eine interessante Information wäre da durchaus, wieviele > Verzeichniseinträge das zu kopierende aus mehrere Snapshots bestehende > Backup hat. Die Anzahl der Dateien, die mehrere Hardlinks haben, lässt > sich offenbar nur über Umwege ermitteln: > > martin@shambhala:~/Zeit/hardlinks> ls -iR | cut -d" " -f1 | sort | > uniq -c | grep -v " 1 " > 3 540788341 > 2 540788343 > > Für die Gesamtzahl der Mehrfach-Hardlinks ließe sich das noch > zusammenaddieren. > > Ich denke, aber die Anzahl der Verzeichniseinträge, oder eben nur > Dateien * einem geschätzten Prozentsatz dessen, was sich ändert, würde > schon reichen. Mit einer solchen Anzahl ließe sich das zumindest ansatzweise auch mit der Backup-Zeit für die ca. 1,3 Millionen Verzeichniseinträge hier auf meinem Laptop in Beziehung setzen. Wenn Du es da mit 10 oder 20 Millionen Verzeichniseinträgen zu tun hat, was ich nicht für unwahrscheinlich halte, würde mich eine Backup-Zeit von 15-20 Stunden nicht mehr allzusehr wundern, auch wenn da vielleicht noch Optimierungspotential ist. Ganz grob überschlagen: Halbe Stunde fürs Backup auf meinem Notebook * ca. 20 mal mehr Verzeichniseinträge wären auch schon 10 Stunden! Fragt sich halt, wie gut rsync da skaliert. Vielleicht kommt rsync 3 mit 20 Millionen Verzeichniseinträgen eben auch an Grenzen. Ich weiss nicht mehr, ob Du das Backup auf eine USB-Platte schreibst oder nicht. Wenn ja, dann würde ein eSATA-Gehäuse samt Controller vielleicht eine Idee. Es bringt jedoch vielleicht nicht so viel, da es durch die hohe Anzahl an Verzeichniseinträgen wahrscheinlich eher zu vielen Seeks kommt. Und da gibt es offenbar Unterschiede, wie gut Dateisysteme mit dem Anlegen und Löschen vieler kleinere Dateien zurechtkommen und wie optimal deren Seek-Verhalten ist[1][2]. Für XFS hätte ich ansonsten noch ein paar Tipps. Eine einfache Möglichkeit wäre auch, die Anzahl der Snapshots zu reduzieren. Oder stattdessen mit den blockbasierten LVM 2-Snapshots zu arbeiten! [1] http://oss.oracle.com/~mason/compilebench/ [2] http://oss.oracle.com/~mason/seekwatcher/ Ciao, -- Martin 'Helios' Steigerwald - http://www.Lichtvoll.de GPG: 03B0 0D6C 0040 0710 4AFA B82F 991B EAAC A599 84C7
Attachment:
signature.asc
Description: This is a digitally signed message part.