Probleme nach Wechsel Hardware

To: debian-user Mailingliste <debian-user-german@lists.debian.org>
Subject: Probleme nach Wechsel Hardware
From: Jan Kappler <public@jan-kappler.de>
Date: Sun, 31 Jan 2016 19:18:40 +0100
Message-id: <[🔎] 56AE5000.8060505@jan-kappler.de>
Hallo Leute,

seit zwei Wochen habe ich mit meinem Server erhebliche Probleme.
Hardware: Alix1.D-Mainboard, SATA-Controller (PCI-Steckkarte), Debian
Wheezy auf 2-GB-CF-Karte, 2 x Seagate 2,5"-HDD 250GB zur Datenspeicherung

server:~# lsblk
NAME                        MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda                           8:0    1   1,9G  0 disk
└─sda1                        8:1    1   1,9G  0 part /
sdb                           8:16   0 232,9G  0 disk
└─vg1-vg1--lv_jan (dm-5)    254:5    0   220G  0 lvm  /srv/jan
sdc                           8:32   0 232,9G  0 disk
├─vg0-vg0--lv_swap (dm-0)   254:0    0   512M  0 lvm  [SWAP]
├─vg0-vg0--lv_home (dm-1)   254:1    0   100M  0 lvm  /home
├─vg0-vg0--lv_tmp (dm-2)    254:2    0   200M  0 lvm  /tmp
├─vg0-vg0--lv_var (dm-3)    254:3    0    10G  0 lvm  /var
└─vg0-vg0--lv_public (dm-4) 254:4    0   200G  0 lvm  /srv/public

Die HDD (sdb, sdc) sind in zwei VGs organisiert:
server:~# vgdisplay -s
  "vg0" 232,88 GiB [210,79 GiB used / 22,09 GiB free]
  "vg1" 232,88 GiB [220,00 GiB used / 12,88 GiB free]

server:~# lvscan
  ACTIVE            '/dev/vg0/vg0-lv_swap' [512,00 MiB] inherit
  ACTIVE            '/dev/vg0/vg0-lv_home' [100,00 MiB] inherit
  ACTIVE            '/dev/vg0/vg0-lv_tmp' [200,00 MiB] inherit
  ACTIVE            '/dev/vg0/vg0-lv_var' [10,00 GiB] inherit
  ACTIVE            '/dev/vg0/vg0-lv_public' [200,00 GiB] inherit
  ACTIVE            '/dev/vg1/vg1-lv_jan' [220,00 GiB] inherit

Das OS befindet sich auf der CF-Karte, Swap, /home, /tmp, /var sowie die
Datenverzeichnisse auf den LV.

Beginn der Probleme: Ich wollte vg1-lv_jan vergrößern und hab zuvor den
Server (der praktisch 24/7 läuft) neu gestartet mit forciertem Test der
Dateisysteme:
shutdown -rF now

1. Problem: Soweit kommt die Kiste aber nicht: Der Kernel wird geladen,
doch beim Laden der initialen Ramdisk passiert nichts mehr. Wenn sonst
eine entsprechende Meldung erfolgt, sehe ich nur einen schwarzen
Bildschirm mit in der linken oberen Ecke blinkendem Cursor.

1.1 Dieses erste Problem habe ich nur auf dem Alix-Board mit meiner
"originalen" CF-Karte. Eine zweite Karte [1] bootet weiter und lädt die
initrd. (Dann bleibt er allerdings bei fsck stehen, weil es
unterschiedliche Angaben der Blockanzahl von Medium/Superblock moniert.
Mittlerweile haben Versuche, den Superblock/das Dateisystem zu
reparieren, die Karte "zerlegt", sprich ich muss sie neu
partitionieren/formatieren.)
Frage: Woran kann es liegen, das die eine Karte hängt, die seit Jahren
ohne Probleme läuft, die andere aber weiter bootet?

Die Karte ist mit erweiterten Optionen gemountet, um die Schreibzugriffe
auf den Flash zu verringern:
/dev/disk/by-uuid/b8b7ab63-45bc-464b-baba-fab434efe6db on / type ext3
(rw,noatime,errors=remount-ro,commit=120,barrier=1,data=ordered)

1.2 Vor einiger Zeit hatte ich einen alten Rechner vorbereitet, der als
Ersatz dienen soll. Mainboard ist ein Asus P3B-F mit Intel Pentium-II
400 MHz und 256MB SDRAM. Die CF-Karte steckt in einem Adapter IDE-CF,
als SATA-Controller dient der aus dem Server.
Der Rechner bootet mit derselben Karte, die im Alix-Board Probleme
macht. Nach Anpassung von ethx kann ich auch auf diesen Reserve-Server
zugreifen.
Frage: Warum bootet die CF-Karte vom Asus-Board, während sie beim
Alix-Board hängt?
Anmerkung: Mit dem Reserve-Server lief beim ersten Booten fsck
problemlos durch.

2. Problem: Seit dem 24.01. bekomme ich nach dem Booten diese Meldung
(dritte Zeile):
Jan 31 16:14:09 server kernel: [   22.933509] NFSD: Using
/var/lib/nfs/v4recovery as the NFSv4 state recovery directory
Jan 31 16:14:09 server kernel: [   22.990700] NFSD: starting 90-second
grace period
Jan 31 16:16:46 server kernel: [  124.631876] NFSD: failed to write
recovery record (err -17); please check that /var/lib/nfs/v4recovery
exists and is writeable

Komisch:
server:/var/log# ls -l /var/lib/nfs
insgesamt 20
-rw-r--r-- 1 root  root    1850 Jan 31 16:14 etab
-rw-r--r-- 1 root  root       0 Jun  7  2015 export-lock
-rw-r--r-- 1 root  root       0 Mai 22  2013 rmtab
drwxr-xr-x 9 root  root       0 Jan 31 16:14 rpc_pipefs
drwxr-xr-x 2 statd nogroup 4096 Jun  7  2015 sm
drwxr-xr-x 2 statd nogroup 4096 Jun  7  2015 sm.bak
-rw-r--r-- 1 root  root       4 Jan 31 16:14 state
drwxr-xr-x 3 root  root    4096 Jan 31 12:25 v4recovery
-rw-r--r-- 1 root  root       0 Mai 22  2013 xtab

Das Verzeichnis existiert und ist für root beschreibbar. Wieso dann
diese Fehlermeldung? Im Internet hab ich dazu nichts gefunden.

3. Problem: Von einer der beiden Festplatten bekomme ich im Log diese
Meldungen offensichtlich immer dann, wenn viel auf die Platte
geschrieben werden soll:
Jan 31 15:52:58 server kernel: [12614.742280] ata3.00: exception Emask
0x0 SAct 0x0 SErr 0x2400000 action 0x0
Jan 31 15:52:58 server kernel: [12614.742334] ata3.00: BMDMA2 stat
0x68650001
Jan 31 15:52:58 server kernel: [12614.742371] ata3: SError: { Handshk
UnrecFIS }
Jan 31 15:52:58 server kernel: [12614.742407] ata3.00: failed command:
WRITE DMA EXT
Jan 31 15:52:58 server kernel: [12614.742469] ata3.00: cmd
35/00:e0:b8:7b:11/00:02:15:00:00/e0 tag 0 dma 376832 out
Jan 31 15:52:58 server kernel: [12614.742479]          res
51/04:e0:b8:7b:11/00:02:15:00:00/e0 Emask 0x1 (device error)
Jan 31 15:52:58 server kernel: [12614.742538] ata3.00: status: { DRDY ERR }
Jan 31 15:52:58 server kernel: [12614.742566] ata3.00: error: { ABRT }
Jan 31 15:52:58 server kernel: [12614.892318] ata3.00: configured for
UDMA/100
Jan 31 15:52:58 server kernel: [12614.892381] ata3: EH complete

Nach kurzer Zeit wird anscheinend die Geschwindigkeit reduziert:
...
Jan 31 15:53:25 server kernel: [12641.723466] ata3.00: status: { DRDY ERR }
Jan 31 15:53:25 server kernel: [12641.723503] ata3.00: error: { ABRT }
Jan 31 15:53:25 server kernel: [12641.723568] ata3: hard resetting link
Jan 31 15:53:25 server kernel: [12642.040138] ata3: SATA link up 1.5
Gbps (SStatus 113 SControl 310)
Jan 31 15:53:25 server kernel: [12642.056309] ata3.00: configured for
UDMA/66
Jan 31 15:53:25 server kernel: [12642.056363] ata3: EH complete

und noch weiter:
Jan 31 15:53:27 server kernel: [12643.812743] ata3: hard resetting link
Jan 31 15:53:27 server kernel: [12644.132139] ata3: SATA link up 1.5
Gbps (SStatus 113 SControl 310)
Jan 31 15:53:27 server kernel: [12644.148312] ata3.00: configured for
UDMA/33
Jan 31 15:53:27 server kernel: [12644.148377] ata3: EH complete

Nach einer Weile kommt auch:
Jan 31 15:54:03 server kernel: [12680.032150] ata3: lost interrupt
(Status 0x51)
Jan 31 15:54:03 server kernel: [12680.032231] ata3.00: exception Emask
0x0 SAct 0x0 SErr 0x2400000 action 0x6 frozen
Jan 31 15:54:03 server kernel: [12680.032308] ata3: SError: { Handshk
UnrecFIS }

Das geht noch eine Minute oder so, dann kommt zwischendurch:
Jan 31 15:55:39 server kernel: [12775.352403] sd 2:0:0:0: [sdb]  Result:
hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jan 31 15:55:39 server kernel: [12775.352429] sd 2:0:0:0: [sdb]  Sense
Key : Aborted Command [current] [descriptor]
Jan 31 15:55:39 server kernel: [12775.352455] Descriptor sense data with
sense descriptors (in hex):
Jan 31 15:55:39 server kernel: [12775.352469]         72 0b 00 00 00 00
00 0c 00 0a 80 00 00 00 00 00
Jan 31 15:55:39 server kernel: [12775.352517]         15 53 48 f8
Jan 31 15:55:39 server kernel: [12775.352541] sd 2:0:0:0: [sdb]  Add.
Sense: No additional sense information
Jan 31 15:55:39 server kernel: [12775.352570] sd 2:0:0:0: [sdb] CDB:
Write(10): 2a 00 15 53 48 f8 00 02 c0 00
Jan 31 15:55:39 server kernel: [12775.352616] end_request: I/O error,
dev sdb, sector 357779704
Jan 31 15:55:39 server kernel: [12775.352674] Buffer I/O error on device
dm-5, logical block 41893103
Jan 31 15:55:39 server kernel: [12775.352714] lost page write due to I/O
error on dm-5

(und weitere Zeilen dieser Art bis logical block 41893112). Komisch ist,
das der Upload der Daten - Video mit MediathekView speichern - auf sdc
erfolgte, jedoch von sdb diese Meldung kommt. Okay, ich hab eine
Textdatei zu diesem Zeitpunkt gespeichert, vielleicht war das dann zu
viel ;-)

Den Port am SATA-Controller habe ich schon geändert, die Platten
umgesteckt, ändert aber nichts:
Jan 31 16:36:46 server kernel: [ 1380.064148] ata6: lost interrupt
(Status 0x51)
Jan 31 16:36:46 server kernel: [ 1380.064214] ata6.00: exception Emask
0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jan 31 16:36:46 server kernel: [ 1380.064302] ata6.00: failed command:
WRITE DMA EXT
Jan 31 16:36:46 server kernel: [ 1380.064395] ata6.00: cmd
35/00:60:c0:df:57/00:01:15:00:00/e0 tag 0 dma 180224 out
Jan 31 16:36:46 server kernel: [ 1380.064406]          res
40/00:01:01:4f:c2/00:00:00:00:00/10 Emask 0x4 (timeout)
Jan 31 16:36:46 server kernel: [ 1380.064527] ata6.00: status: { DRDY }
Jan 31 16:36:46 server kernel: [ 1380.064618] ata6: hard resetting link
Jan 31 16:36:47 server kernel: [ 1380.384138] ata6: SATA link up 1.5
Gbps (SStatus 113 SControl 310)
Jan 31 16:36:47 server kernel: [ 1380.400318] ata6.00: configured for
UDMA/100
Jan 31 16:36:47 server kernel: [ 1380.400379] ata6: EH complete

Aufgefallen ist mir im Log diese Meldung:
Jan 31 16:14:09 server kernel: [   19.408525] e100 0000:00:0b.0:
firmware: agent aborted loading e100/d101m_ucode.bin (not found?)
Jan 31 16:14:09 server kernel: [   19.409455] e100 0000:00:0b.0: eth2:
CPUSaver disabled. Needs "e100/d101m_ucode.bin": -2
Jan 31 16:14:09 server kernel: [   19.409994] ADDRCONF(NETDEV_UP): eth2:
link is not ready
Jan 31 16:14:09 server kernel: [   19.412355] e100 0000:00:0b.0: eth2:
NIC Link is Up 100 Mbps Full Duplex
Jan 31 16:14:09 server kernel: [   19.413393] ADDRCONF(NETDEV_CHANGE):
eth2: link becomes ready

Dieses Mainboard hat keine Onboard-NIC, ich verwende eine
PCI-Steckkarte. Könnte die fehlende Firmware zu große CPU-Last
verursachen, wenn über das Netzwerk schreibend zugegriffen wird? Im
Leerlauf passiert offenbar nichts.
SMART liefert keine beunruhigenden Infos, der kurze Selbsttest lief
anstandslos durch.

Ergänzung: Beim soeben erfolgten Test verursacht ein Abspielen von Video
(mp4) über das Netzwerk ähnliche Fehler, aber mit "failed command: READ
DMA EXT".
Offenbar treten die Meldungen aber nur bei Laufwerk sdc auf, das
Abspielen eines Videos aus einem Verzeichnis auf sdb provoziert
zumindest keine.


Entschuldigt den Umfang an Informationen, doch die Probleme scheinen
komplex zu sein und fallen unglücklicherweise mit dem Upgrade des
Desktop-PC auf neue Hardware+Debian 8 zusammen. Anders gesagt, sie
passen mir gerade überhaupt nicht :-(

Beim Problem 1 weiß ich nicht, ob das Alix-Board eine Macke hat oder die
CF-Karte. Ich werde mal eine Test-Installation auf der zweiten CF-Karte
(ohne Festplatten) versuchen. Beim Problem 2 bin ich völlig ratlos.
Beim Problem 3 könnte es die Festplatte sein, worauf SMART aber nicht
hindeutet. Der Controller könnte es sein, aber dasselbe Problem an
unterschiedlichen Ports bei derselben Platte? Eventuell könnte ich die
Kabel austauschen und die Firmware für die Intel-Netzwerkkarte
installieren und schauen, ob sich etwas ändert.

Mir ist wichtig, eine Einschätzung speziell dieses Problem durch euch zu
bekommen. Ich will reagieren können, bevor vielleicht die Festplatte
oder andere Hardware komplett abschmiert.


[1] Ich habe diese vor einigen Monaten versucht mit cp zu kopieren, was
aber nur bedingt geklappt hat. Trotz gleichem Hersteller und gleichem
Typ scheinen sich beide Karten in der Anzahl der Blöcke zu unterscheiden.

-- 


Mit freundlichem Gruß
Jan Kappler
Attachment: signature.asc
Description: OpenPGP digital signature
Reply to:
Prev by Date: Re: X.509 :: war[GPG-Schĺüssel ohne Begrenzung verklüngelt. Was machen?]
Next by Date: Re: GPG-Sch?üssel ohne Begrenzung verklüngelt. Was machen?
Previous by thread: Re: unter unstable weder Tastatur noch Maus
Index(es):
- Date
- Thread