[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

page allocation failure



Una buona giornata a tutta la lista !

L'altro ieri ho avuto il tempo di controllare i LOG di un server SAN posto in
rete privata che funziona senza alcun problema (purtroppo, perchè i LOG
andrebbero controllati sempre a prescindere dal funzionamento, ma data la
condizione lavorativa è quasi un miracolo che sia riuscito a farlo, vabbhè,
chiusa parentesi).

-) Server HP Proliant 370, con l'aggiunta di una scheda Broadcom PCI-E a 10
Gbit dual port con connettori SFP+
-) La macchina a livello hardware funziona bene, nessun problema, i controller
dei banchi di RAM ECC non segnalano alcuna correzione, tutto ok.
-) Installata Debian stable AMD64, 100% stable (nessuna ibridazione, no
backports).
-) Ovviamente monta kernel 2.6.32-ADM64
-) Unica aggiunta il modulo per il supporto ISCSI server
-) Installazione ultra minimale, fornisce solo la funzione ISCSI del suo
storage (due controller SmartArray P400) e fa da server NUT per l'UPS.
-) Schede di rete: 4 su piastra madre NetXen (che di fatto uso solo per il
link alla LAN, quindi traffico SSH e traffico per il demone NUT)
-) Scheda di rete Broadcom che fornisce il servizio ISCSI

Ora, mi sono accorto che questa macchina ha "da sempre" presentato questo
problema, dove il "da sempre" vuol dire da 16 mesi:

*****
Apr  1 12:00:53 san kernel: [164755.009390] swapper: page allocation failure.
order:2, mode:0x4020
Apr  1 12:00:53 san kernel: [164755.009397] Pid: 0, comm: swapper Not tainted
2.6.32-5-amd64 #1
Apr  1 12:00:53 san kernel: [164755.009400] Call Trace:
Apr  1 12:00:53 san kernel: [164755.009402]  <IRQ>  [<ffffffff810ba8d3>] ?
__alloc_pages_nodemask+0x59b/0x5fc
Apr  1 12:00:53 san kernel: [164755.009418]  [<ffffffff8128e4b9>] ?
tcp_v4_rcv+0x46f/0x6f8
Apr  1 12:00:53 san kernel: [164755.009424]  [<ffffffff81249d0c>] ?
dev_alloc_skb+0x16/0x2d
Apr  1 12:00:53 san kernel: [164755.009432]  [<ffffffff810e6bf6>] ?
kmalloc_large_node+0x5d/0x9b
Apr  1 12:00:53 san kernel: [164755.009437]  [<ffffffff81248d79>] ?
__alloc_skb+0x69/0x15a
Apr  1 12:00:53 san kernel: [164755.009442]  [<ffffffff81249d0c>] ?
dev_alloc_skb+0x16/0x2d
Apr  1 12:00:53 san kernel: [164755.009460]  [<ffffffffa0004e6d>] ?
netxen_alloc_rx_skb+0x23/0x141 [netxen_nic]
Apr  1 12:00:53 san kernel: [164755.009470]  [<ffffffffa0005852>] ?
netxen_process_rcv_ring+0x591/0x6fe [netxen_nic]
Apr  1 12:00:53 san kernel: [164755.009479]  [<ffffffffa00050df>] ?
netxen_process_cmd_ring+0x33/0x215 [netxen_nic]
Apr  1 12:00:53 san kernel: [164755.009488]  [<ffffffffa0003024>] ?
netxen_nic_poll+0x30/0x65 [netxen_nic]
Apr  1 12:00:53 san kernel: [164755.009495]  [<ffffffff8106c641>] ?
ktime_get+0x5c/0xb7
Apr  1 12:00:53 san kernel: [164755.009503]  [<ffffffff8125017b>] ?
net_rx_action+0xae/0x1c9
Apr  1 12:00:53 san kernel: [164755.009510]  [<ffffffff81053dc7>] ?
__do_softirq+0xdd/0x1a6
Apr  1 12:00:53 san kernel: [164755.009517]  [<ffffffff81011cac>] ?
call_softirq+0x1c/0x30
Apr  1 12:00:53 san kernel: [164755.009522]  [<ffffffff8101322b>] ?
do_softirq+0x3f/0x7c
Apr  1 12:00:53 san kernel: [164755.009527]  [<ffffffff81053c37>] ?
irq_exit+0x36/0x76
Apr  1 12:00:53 san kernel: [164755.009532]  [<ffffffff81012922>] ?
do_IRQ+0xa0/0xb6
Apr  1 12:00:53 san kernel: [164755.009537]  [<ffffffff810114d3>] ?
ret_from_intr+0x0/0x11
*****

Sembrerebbe un problema di kernel/moduli kernel piuttosto che di hardware
(legato alla scheda NetXen ?).

Tuttavia le schede di rete sembrano funzionare bene (bhe, se la Broadcom non
funzionasse bene mi sa che le macchine virtuali che girano su KVM si
lamenterebbero):

****
eth0      Link encap:Ethernet  HWaddr 18:a9:05:7a:40:48  
          inet addr:192.168.1.10  Bcast:192.168.1.255  Mask:255.255.255.0
          inet6 addr: fe80::1aa9:5ff:fe7a:4048/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:1160921 errors:0 dropped:0 overruns:0 frame:0
          TX packets:672763 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:82221872 (78.4 MiB)  TX bytes:331706792 (316.3 MiB)
          Interrupt:103 

eth4      Link encap:Ethernet  HWaddr 00:10:18:68:f6:70  
          inet addr:10.0.0.1  Bcast:10.0.0.255  Mask:255.255.255.0
          inet6 addr: fe80::210:18ff:fe68:f670/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:488899352 errors:0 dropped:0 overruns:0 frame:0
          TX packets:905111667 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:428472520910 (399.0 GiB)  TX bytes:1249480020687 (1.1 TiB)
          Interrupt:26 Memory:fa800000-faffffff 
****

eth0 è la NetXen, eth4 è la Broadcom.

Ho cercato un po su rete, ho trovato qualcosa relativamente a RHE, qualcuno
dice che succede spesso su macchine che forniscono servizi ISCSI (mha.. sarà).

Qualche idea ?

Purtroppo non posso fare le prove che voglio, tipo cambiare kernel, passare ad
un backports, ecc. tirare giù quella macchina comporterebbe un po di problemi,
quindi se si può cercare di risolvere il problema dovrei procedere con
interventi mirati.

Grazie a tutti

Luca




Reply to: