[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: INFO: task ... blocked for more than 120 seconds



Hallo Leute,

Am 08.07.2013 19:33, schrieb Sven Hartge:
> Jan Kappler <public@jan-kappler.de> wrote:
>   
>
>> Soeben ist mir im Log aufgefallen, das diese Meldungen genau zu der
>> Zeit (heute Nacht) generiert wurden, als der md-array data check
>> gelaufen ist. Könnte also die Belastung des md-raid durch die
>> Überprüfung die Ursache sein?
>>     
> Ja, absolut.
>
>   
>> Meine Suche brachte verschiedene Informationen zu älteren Kernel zutage.
>> Vor einiger Zeit - nach der Umstellung Lenny-Squeeze - hatte ich schon
>> mal solche Meldungen.
>> Soweit ich das verstehe, handelt es sich um einen Bug des Kernel in
>> Bezug auf das Leeren des Caches. Geht das nicht schnell genug, weil
>> vielleicht das IO-Subsystem (Platten, Controller) nicht schnell genug
>> ist, wird der Timeout von 120 Sekunden überschritten und die Meldung
>> erzeugt. Ist das richtig?
>>     
> Dieser Bug kann das Problem auslösen. Aber nicht alleine.
>
> Getriggert wird diese Ausgabe immer dann, wenn ein Prozess länger als
> 120 Sekunden (dies ist einstellbar) im Status "D" hängt. 
>
> Hier passiert dies z.B. immer dann, wenn der Bandroboter die Tapes
> wechselt, dann hängt der mtx-Prozess schon mal 3 Minuten, bis die
> Operation durchgelaufen und das Band im Laufwerk korrekt erkannt worden
> ist.
>
> Der md-Recheck wird ja im Rahmen eines cronjob gestartet, in dessen
> zeitlicher Nachbarschaft andere cronjobs noch laufen oder bald laufen
> werden. Je nach Durchsatz und Latenz der Platten und deren Fähigkeit,
> die nötigen IOPS zu liefern und der Anzahl der Prozesse, die versuchen
> zu einem Zeitpunkt X I/O zu machen, kann es schon passieren, dass bei
> dir zu dem Zeitpunkt ein Engpass entstanden ist, so dass Prozesse länger
> als 120 Sekunden auf das Fertigstellen Ihrer I/O-Anfrage warten mussten.
>
> Und dann gibt es obige Meldung. Solange du diese zeitlich auf ein
> spezielles Event (hier "md-recheck") eingrenzen kannst, ist alles i.O.
>
> Kritisch wird es erst dann, wenn diese Meldungen auch im normalen
> Betrieb auftreten. Dann ist entweder eine Platte am Sterben oder das
> System hoffnungslos überlastet.
>   

Okay, Danke für die ausführliche Erklärung, ich lag also nicht ganz
falsch. Ich werde das Log aufmerksam beobachten, ob immer mal wieder
solche Meldungen auftauchen.
Am besagten Tag habe ich vermutlich sogar zu dieser Zeit was am Rechner
gemacht und auf die Platten vom Server zugegriffen. Es ist also gut
möglich, das dadurch zusätzlich zum Plattentest Last erzeugt wurde.

>> Okay, ist 2.6.32 schon ein "later"?
>>     
> 2.6.32 wurde am 3. Dezember 2009 released, aktuell ist 2.6.32.61 vom
> 10.06.2013.
>   

Ich meinte damit den Kernel von Squeeze :-) Mir ist natürlich klar, das
er in der Zwischenzeit aktualisiert worden ist, aber mir ist nicht klar,
ob sich das auch auf solche Bugs bezieht.

>> Ist das Problem unter Wheezy erledigt? Was meint ihr zu diesem
>> Vorschlag? Ich würde gern solche "Probleme" lösen beziehungsweise
>> abhaken, bevor ich die Kiste auf Wheezy aktualisiere.
>>     
> Das Cache-Flush-Problem? Das sollte behoben sein.
> Andere Ursachen für die Meldung? Nein, je nachdem, was der Grund für die
> Meldung ist.
>
> S°
>   

Danke, das beruhigt mich. Ich beobachte die Sache noch eine Weile, bis
ich Zeit und Muße für das Upgrade auf Wheezy finde :-)

-- 


Mit freundlichem Gruß
Jan Kappler


Attachment: signature.asc
Description: OpenPGP digital signature


Reply to: