[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Unsinnige Laufzeitwerte



Moin Moin!

Ich beobachte seit dem upgrade unserer Compute-Nodes auf Squeeze den
seltsamen Effekt, dass die CPU-Zeiten nach mehreren Tagen (ca. 24.8
Tage) absolut unsinnig werden.

Hier ein Beispiel mir "ps -u username f":

[2012-05-29 05:49:33] 30590 ?        RN   35793:27 ./fortran_kdis 2 25
[2012-05-29 05:49:38] 30590 ?        RN   35793:32 ./fortran_kdis 2 25
[2012-05-29 05:49:43] 30590 ?        RN   35793:37 ./fortran_kdis 2 25
[2012-05-29 05:49:48] 30590 ?        RN   11129636:45 ./fortran_kdis 2 25
[2012-05-29 05:49:53] 30590 ?        RN   11129636:45 ./fortran_kdis 2 25
[2012-05-29 05:49:58] 30590 ?        RN   11129636:45 ./fortran_kdis 2 25
[2012-05-29 11:20:36] 30590 ?        RN   11129636:45 ./fortran_kdis 2 25

1338328815:acct:...:30015336.590000:17190248128.157394:...

Auch nach mehreren Tagen ändert sich die Zeitangabe nicht mehr.

Die letzte Zeile ist ein Auszug aus dem reporting-File des
Queueing-Systems für den Tag, bei dem dieser Effekt auftrat. Die
beiden Zahlen nach dem "..." sind die Angaben für "ru_utime" und
"ru_stime". Alle Tage davor und danach wurden jedoch korrekt
abgerechnet.

Übrigens ist die Angabe der verbrauchten cpu-Zeit Prozessabhängig,
obwohl alle Prozesse diesen Sprung nach einer Laufzeit von 35793:37
zeigen:

[2012-05-29 05:18:32] 30591 ?        R    10557290:44 ./fortran_kdis 2 27
[2012-05-29 05:34:42] 30636 ?        RN   11129626:19 ./fortran_kdis 2 31
[2012-05-29 05:58:20] 30637 ?        RN   12274089:59 ./fortran_kdis 2 30
[2012-05-29 06:02:37] 30630 ?        R    12274256:17 ./fortran_kdis 2 28
[2012-05-29 06:03:12] 30634 ?        R    11129641:38 ./fortran_kdis 2 29
[2012-05-29 06:09:44] 30638 ?        RN   12274280:17 ./fortran_kdis 2 32
[2012-05-29 06:23:55] 30587 ?        R    11701990:44 ./fortran_kdis 2 26

Ich dachte zuerst, dass das etwas mit INT_MAX (=2147483647) zu tun
hat, mit dem ich auf 24d20h31m07s bzw. 35791:23 komme. Aber dieser
Wert wird ja (s.o.) sauber überschritten.

Der verwendete Kernel ist laut "uname -a":
Linux warg05 2.6.32-5-amd64 #1 SMP Mon Jan 16 16:22:28 UTC 2012 x86_64 GNU/Linux

Ich komme bei der Suche nach der Ursache nicht mehr weiter und wäre
über sachdienliche Hinweise zur Ergreifung des Schuldigen sehr
dankbar.

Mit den besten Grüßen
  Uwe Bolick
-- 
 Uwe Bolick
 Zentrum für Astronomie und Astrophysik
 Technische Universität Berlin
 EW 8-1, Hardenbergstr. 36, D-10623 Berlin (Germany)


Reply to: