Squeeze, ixgbe, NIC-Ausfall
Hi,
zwei identisch ausgestattete und installierte Maschinen versuchen einen
DRBD-Resync. Beide sind mit Intel-10GbE-NICs ausgestattet. Das geht
soweit ganz gut: ca 200MB/s schnell und einige Terabytes lang. Nach
einer nicht genau festlegbaren Zeit bricht der Sync jedoch leider ab und
die Maschine, die das Sync-Ziel ist, ist im Netzwerk nicht mehr erreichbar.
Ein Blick nach /var/log/messages verrät mir nichts, außer dass der Sync
plötzlich nicht mehr läuft.
Jul 29 14:45:17 xen1 kernel: [ 382.688088] block drbd0: Handshake
successful: Agreed network protocol version 96
Jul 29 14:45:17 xen1 kernel: [ 382.688106] block drbd0: conn(
WFConnection -> WFReportParams )
Jul 29 14:45:17 xen1 kernel: [ 382.688163] block drbd0: Starting
asender thread (from drbd0_receiver [2458])
Jul 29 14:45:17 xen1 kernel: [ 382.688527] block drbd0:
data-integrity-alg: <not-used>
Jul 29 14:45:17 xen1 kernel: [ 382.688679] block drbd0:
drbd_sync_handshake:
Jul 29 14:45:17 xen1 kernel: [ 382.688692] block drbd0: self
0006000000000004:0000000000000000:0000000000000000:0000000000000000
bits:3736616577 flags:0
Jul 29 14:45:17 xen1 kernel: [ 382.688703] block drbd0: peer
A1ACDFD71631E7D5:0006000000000004:0005000000000004:0004000000000004
bits:3736617479 flags:0
Jul 29 14:45:17 xen1 kernel: [ 382.688712] block drbd0:
uuid_compare()=-1 by rule 50
Jul 29 14:45:17 xen1 kernel: [ 382.688717] block drbd0: Becoming sync
target due to disk states.
Jul 29 14:45:17 xen1 kernel: [ 382.688730] block drbd0: peer( Unknown
-> Primary ) conn( WFReportParams -> WFBitMapT ) pdsk( DUnknown ->
UpToDate )
Jul 29 14:45:22 xen1 kernel: [ 387.147466] block drbd0: conn( WFBitMapT
-> WFSyncUUID )
Jul 29 14:45:22 xen1 kernel: [ 387.159975] block drbd0: updated sync
uuid 0007000000000004:0000000000000000:0000000000000000:0000000000000000
Jul 29 14:45:22 xen1 kernel: [ 387.160174] block drbd0: helper command:
/sbin/drbdadm before-resync-target minor-0
Jul 29 14:45:22 xen1 kernel: [ 387.164341] block drbd0: helper command:
/sbin/drbdadm before-resync-target minor-0 exit code 0 (0x0)
Jul 29 14:45:22 xen1 kernel: [ 387.164355] block drbd0: conn(
WFSyncUUID -> SyncTarget )
Jul 29 14:45:22 xen1 kernel: [ 387.164375] block drbd0: Began resync as
SyncTarget (will sync 14946470648 KB [3736617662 bits set]).
Jul 29 16:29:16 xen1 kernel: [ 6621.244065] block drbd0: peer( Primary
-> Unknown ) conn( SyncTarget -> NetworkFailure ) pdsk( UpToDate ->
DUnknown )
Jul 29 16:29:16 xen1 kernel: [ 6621.244356] block drbd0: asender terminated
Jul 29 16:29:16 xen1 kernel: [ 6621.244369] block drbd0: Terminating
asender thread
Jul 29 16:29:17 xen1 kernel: [ 6621.931448] block drbd0: bitmap WRITE of
110329 pages took 171 jiffies
Jul 29 16:29:17 xen1 kernel: [ 6621.931474] block drbd0: 13 TB
(3450809584 bits) marked out-of-sync by on disk bit-map.
Jul 29 16:29:17 xen1 kernel: [ 6621.931519] block drbd0: Connection closed
Jul 29 16:29:17 xen1 kernel: [ 6621.931538] block drbd0: conn(
NetworkFailure -> Unconnected )
Jul 29 16:29:17 xen1 kernel: [ 6621.931556] block drbd0: receiver terminated
Jul 29 16:29:17 xen1 kernel: [ 6621.931562] block drbd0: Restarting
receiver thread
Jul 29 16:29:17 xen1 kernel: [ 6621.931567] block drbd0: receiver
(re)started
Jul 29 16:29:17 xen1 kernel: [ 6621.931577] block drbd0: conn(
Unconnected -> WFConnection )
Ich habe das Spiel nun schon mehrfach wiederholt, u.a. das
Powermanagement deinstalliert - keine Verbesserung. Die CPU-Last liegt
auf den Systemen irgendwo zwischen 1,5 und 3,5 Prozent.
Vielleicht kann mir jemand von Euch einen sinnvollen Tipp geben. :-/
CU,
Mészi.
Reply to: