[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: INFO: task ... blocked for more than 120 seconds



Jan Kappler <public@jan-kappler.de> wrote:
> Am 08.07.2013 19:33, schrieb Sven Hartge:
>> Jan Kappler <public@jan-kappler.de> wrote:

>> Getriggert wird diese Ausgabe immer dann, wenn ein Prozess länger als
>> 120 Sekunden (dies ist einstellbar) im Status "D" hängt. 
>>
>> Hier passiert dies z.B. immer dann, wenn der Bandroboter die Tapes
>> wechselt, dann hängt der mtx-Prozess schon mal 3 Minuten, bis die
>> Operation durchgelaufen und das Band im Laufwerk korrekt erkannt
>> worden ist.
>>
>> Der md-Recheck wird ja im Rahmen eines cronjob gestartet, in dessen
>> zeitlicher Nachbarschaft andere cronjobs noch laufen oder bald laufen
>> werden. Je nach Durchsatz und Latenz der Platten und deren Fähigkeit,
>> die nötigen IOPS zu liefern und der Anzahl der Prozesse, die
>> versuchen zu einem Zeitpunkt X I/O zu machen, kann es schon
>> passieren, dass bei dir zu dem Zeitpunkt ein Engpass entstanden ist,
>> so dass Prozesse länger als 120 Sekunden auf das Fertigstellen Ihrer
>> I/O-Anfrage warten mussten.
>>
>> Und dann gibt es obige Meldung. Solange du diese zeitlich auf ein
>> spezielles Event (hier "md-recheck") eingrenzen kannst, ist alles
>> i.O.
>>
>> Kritisch wird es erst dann, wenn diese Meldungen auch im normalen
>> Betrieb auftreten. Dann ist entweder eine Platte am Sterben oder das
>> System hoffnungslos überlastet.

> Okay, Danke für die ausführliche Erklärung, ich lag also nicht ganz
> falsch. Ich werde das Log aufmerksam beobachten, ob immer mal wieder
> solche Meldungen auftauchen.
> Am besagten Tag habe ich vermutlich sogar zu dieser Zeit was am Rechner
> gemacht und auf die Platten vom Server zugegriffen. Es ist also gut
> möglich, das dadurch zusätzlich zum Plattentest Last erzeugt wurde.

Nutzt du die smartmontools? Hast du evtl. in der /etc/smartd.conf etwas
stehen wie das folgende?

/dev/sda -o on -S on -a -s (S/../.././03|L/../../6/04) -m root

(ich beziehe mich auf den "-s (...|...)"-Teil)

Dann würde z.B. jeden Samstag um 04:00 Uhr ein Long-Offline-Check
getriggert, welcher natürlich auch im Hintergrund I/O erzeugt und die
dem System zur Verfügung stehenden IOPS noch weiter reduziert. Dann noch
der md-recheck und schon wird es Eng an der I/O-Front.

>>> Okay, ist 2.6.32 schon ein "later"?

>> 2.6.32 wurde am 3. Dezember 2009 released, aktuell ist 2.6.32.61 vom
>> 10.06.2013.

> Ich meinte damit den Kernel von Squeeze :-) Mir ist natürlich klar,
> das er in der Zwischenzeit aktualisiert worden ist, aber mir ist nicht
> klar, ob sich das auch auf solche Bugs bezieht.

Ob das genannte Problem gefixt bzw. ein Fix zurückportiert wurde musst
du selbst durch Studium des Changelogs des Debian-Paketes eruieren.

> Danke, das beruhigt mich. Ich beobachte die Sache noch eine Weile, bis
> ich Zeit und Muße für das Upgrade auf Wheezy finde :-)

Solange die Meldungen nicht ständig zu unterschiedlichen Zeiten kommen,
sondern nur einmal im Monat zu einem bestimmten, vorher erkennbaren
Zeitpunkt, ist alles in Ordnung.

S°

-- 
Sigmentation fault. Core dumped.


Reply to: