[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Problema kernel panic durante shutdown o reboot con raid



Ciao Diego,
ho fatto qualche altro test con la macchina virtuale che ho usato per verificare il problema. Ho installato anche kdump-tools crash kexec-tools


Praticamente ho rimosso un disco del raid e l'ho reinserito sulla macchina virtuale e il resync è partito. A quel punto lancio lo shutdown -h now e ottengo il kernel panic.

Nel dmesg del coredump del crash viene riportato:

"md: md1: recovery interrupted"

quindi il problema sembrerebbe essere legato a quanto riportato nel link dove si ha un kernel panic quando si interrompe un resync.

Ora nella macchina virtuale il resync l'ho forzato io ma negli altri casi da cosa può essere causato? Avviene un resync del raid a mia insaputa per qualche problema (che ignoro)? In quali casi un resync viene forzato dal sistema mentre è in uso?

Grazie.

Saluti, Alessandro.

Il 31/03/25 15:30, Alessandro Baggi ha scritto:
Ciao Diego e grazie per la tua risposta

Il 31/03/25 09:53, Diego Zuccato ha scritto:
Ho appena fatto un test su una macchina appena reinstallata.
Nessun problema al reboot.
3 dischi uguali, affettati da FAI con:
-8<--
disk_config disk1 bootable:1 align-at:1M preserve_reinstall:3,7
primary -       200M         -       -
primary swap    2G           swap    -
primary -       120M-128M    -       -
logical -       32G          -       -
logical -       8G           -       -
logical -       1G-          -       -

disk_config disk2 sameas:disk1
disk_config disk3 sameas:disk1

# preserve fa riferimento ai device md, a partire da md0 !
disk_config raid fstabkey:uuid preserve_reinstall:1,4
raid1   /boot           disk1.1,disk2.1,disk3.1   ext4 rw,noatime,errors=remount-ro mdcreateopts="--metadata=0.90" raid1   -               disk1.3,disk2.3,disk3.3   ext4  noauto,noatime createopts="-L KEEPCONF" raid5   /               disk1.5,disk2.5,disk3.5   ext4 rw,noatime,errors=remount-ro raid5   /var            disk1.6,disk2.6,disk3.6   ext4 rw,noatime,nosuid,nodev raid5   /home           disk1.7,disk2.7,disk3.7   ext4 rw,noatime,nosuid,nodev
-8<--

Quindi /boot in RAID1 e / in RAID5 .

Il problema dev'essere altrove.

Diego


Il problema non accade al primo reboot ma in maniera random quando effettuo uno shutdown o un reboot. Accade ogni N giorni. Per replicarlo sulle macchine che ho elencato mi sono messo a manina a riavviare finche non usciva l'errore.

Inoltre il problema mi si manifesta solo su dischi a stato solido e non HDD. Che dischi hai usato?

Ho lo stesso problema che viene riportato qui:

https://lore.kernel.org/lkml/ad286d5c-fd60-682f- bd89-710a79a710a0@huaweicloud.com/T/

con l'unica differenza che non riesco a vedere il trace completo di errore.

Alessandro.


Reply to: