[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Squeeze, ixgbe, NIC-Ausfall



Hi,

zwei identisch ausgestattete und installierte Maschinen versuchen einen DRBD-Resync. Beide sind mit Intel-10GbE-NICs ausgestattet. Das geht soweit ganz gut: ca 200MB/s schnell und einige Terabytes lang. Nach einer nicht genau festlegbaren Zeit bricht der Sync jedoch leider ab und die Maschine, die das Sync-Ziel ist, ist im Netzwerk nicht mehr erreichbar.

Ein Blick nach /var/log/messages verrät mir nichts, außer dass der Sync plötzlich nicht mehr läuft.

Jul 29 14:45:17 xen1 kernel: [ 382.688088] block drbd0: Handshake successful: Agreed network protocol version 96 Jul 29 14:45:17 xen1 kernel: [ 382.688106] block drbd0: conn( WFConnection -> WFReportParams ) Jul 29 14:45:17 xen1 kernel: [ 382.688163] block drbd0: Starting asender thread (from drbd0_receiver [2458]) Jul 29 14:45:17 xen1 kernel: [ 382.688527] block drbd0: data-integrity-alg: <not-used> Jul 29 14:45:17 xen1 kernel: [ 382.688679] block drbd0: drbd_sync_handshake: Jul 29 14:45:17 xen1 kernel: [ 382.688692] block drbd0: self 0006000000000004:0000000000000000:0000000000000000:0000000000000000 bits:3736616577 flags:0 Jul 29 14:45:17 xen1 kernel: [ 382.688703] block drbd0: peer A1ACDFD71631E7D5:0006000000000004:0005000000000004:0004000000000004 bits:3736617479 flags:0 Jul 29 14:45:17 xen1 kernel: [ 382.688712] block drbd0: uuid_compare()=-1 by rule 50 Jul 29 14:45:17 xen1 kernel: [ 382.688717] block drbd0: Becoming sync target due to disk states. Jul 29 14:45:17 xen1 kernel: [ 382.688730] block drbd0: peer( Unknown -> Primary ) conn( WFReportParams -> WFBitMapT ) pdsk( DUnknown -> UpToDate ) Jul 29 14:45:22 xen1 kernel: [ 387.147466] block drbd0: conn( WFBitMapT -> WFSyncUUID ) Jul 29 14:45:22 xen1 kernel: [ 387.159975] block drbd0: updated sync uuid 0007000000000004:0000000000000000:0000000000000000:0000000000000000 Jul 29 14:45:22 xen1 kernel: [ 387.160174] block drbd0: helper command: /sbin/drbdadm before-resync-target minor-0 Jul 29 14:45:22 xen1 kernel: [ 387.164341] block drbd0: helper command: /sbin/drbdadm before-resync-target minor-0 exit code 0 (0x0) Jul 29 14:45:22 xen1 kernel: [ 387.164355] block drbd0: conn( WFSyncUUID -> SyncTarget ) Jul 29 14:45:22 xen1 kernel: [ 387.164375] block drbd0: Began resync as SyncTarget (will sync 14946470648 KB [3736617662 bits set]). Jul 29 16:29:16 xen1 kernel: [ 6621.244065] block drbd0: peer( Primary -> Unknown ) conn( SyncTarget -> NetworkFailure ) pdsk( UpToDate -> DUnknown )
Jul 29 16:29:16 xen1 kernel: [ 6621.244356] block drbd0: asender terminated
Jul 29 16:29:16 xen1 kernel: [ 6621.244369] block drbd0: Terminating asender thread Jul 29 16:29:17 xen1 kernel: [ 6621.931448] block drbd0: bitmap WRITE of 110329 pages took 171 jiffies Jul 29 16:29:17 xen1 kernel: [ 6621.931474] block drbd0: 13 TB (3450809584 bits) marked out-of-sync by on disk bit-map.
Jul 29 16:29:17 xen1 kernel: [ 6621.931519] block drbd0: Connection closed
Jul 29 16:29:17 xen1 kernel: [ 6621.931538] block drbd0: conn( NetworkFailure -> Unconnected )
Jul 29 16:29:17 xen1 kernel: [ 6621.931556] block drbd0: receiver terminated
Jul 29 16:29:17 xen1 kernel: [ 6621.931562] block drbd0: Restarting receiver thread Jul 29 16:29:17 xen1 kernel: [ 6621.931567] block drbd0: receiver (re)started Jul 29 16:29:17 xen1 kernel: [ 6621.931577] block drbd0: conn( Unconnected -> WFConnection )

Ich habe das Spiel nun schon mehrfach wiederholt, u.a. das Powermanagement deinstalliert - keine Verbesserung. Die CPU-Last liegt auf den Systemen irgendwo zwischen 1,5 und 3,5 Prozent.

Vielleicht kann mir jemand von Euch einen sinnvollen Tipp geben. :-/

CU,
Mészi.


Reply to: