[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Squeeze Soft Lockup auf ESXi 5.1



Martin Seener <martin@seener.de> wrote:
> On 7/23/14 4:00 PM, Lars Schimmer wrote:
>> On 2014-07-23 11:30, Martin Seener wrote:
>>> Hallo zusammen,
>>>
>>> Ich habe alle 1-2 Wochen das Problem das manche der Virtuellen Maschinen
>>> – alles Squeeze auf ESXi 5.1 Hosts (Dell R510)
>>> Frühs einen Soft-Lockup haben. Oft Probleme um 6:30h rum.
>>>
>>> Leider bin ich völliger Anfänger beim Lesen eines solchen Traces,
>>> deshalb hoffe ich, dass ihr mir weiterhelfen könnt.
>>> Hier der Eintrag von heute füh.
>>>
>>> uname -a: Linux workaholic7 2.6.32-5-amd64 #1 SMP Sun Sep 23 10:07:46
>>> UTC 2012 x86_64 GNU/Linux
>>> Es sind keine VMWare Tools installiert. Zeit macht ntpd. Disk Controller
>>> im Host ist der Dell PERC (Dell PowerEdge R510 Server Bj Q1/Q2 2012) und
>>> im ESXi für die VMs der LSI SAS Controller.
>>>
>>> 2014-07-23T06:30:36.177845+02:00 workaholic7 kernel: [1796994.163761]
>>> BUG: soft lockup - CPU#0 stuck for 74s! [rs:main Q:Reg:6261]
>> Da es immer um 6:30 uhr rum ist, sieht das nach einem CronJob aus, der
>> entweder auf dem ESX Host oder auf den clients rennt. Forsche da mal nach...
>> Eher ESX, das der dann den VMs die CPU Zeit klaut...

> Also auf den Clients läuft da höchstens AIDE, was viel CPU zieht.
> Alles andere is vernachlässigbar. Soweit bin ich schon. Hab AIDE jetzt
> auch mal rausgenommen aus allen Servern für morgen um mal zu sehen obs
> was bringt. Auf einem ESXi laufen immerhin ca. 12-15 Maschinen die
> dann quasi zeitgleich AIDE ausführen.

Ahja, das bestätigt meine Vermutung aus meiner anderen Mail. Die VMs
hungern sich gegenseitig die IOPS weg.

Also die cron.daily-Aufrufe manuell verteilen oder mit einem
Zufallsfaktor versehen, z.B. so in /etc/crontab:

# bash fuer $RANDOM noetig
SHELL=/bin/bash
25 6    * * *   root    test -x /usr/sbin/anacron || sleep `expr $RANDOM \% 600`; ( cd / && run-parts --report /etc/cron.daily )

> Sind die Soft Lockups iwie kritisch? oder kann ich dort noch mehr
> recherchieren?

In diesem Fall wird der Softlockup durch die IO starvation ausgelöst.
"rs:main Q:Reg" deutet auf den rsyslog hin, welcher vermutlich gerade
einen Schreibzugriff laufen hat, welcher lange Zeit nicht durch kommt.

Ich vermute, dass du, wenn du um 6:25/6:30 einen "ps auwwwx" laufen
läßt, sehr sehr viele Prozess im Status 'D' hast, weil diese auf I/O
warten.

S°

-- 
Sigmentation fault. Core dumped.


Reply to: