[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Serveur bloqué par de multiples CRON -f ?



(Résumé des épisodes précédents, j'ai une machine virtuelle sur laquelle il
devient parfois impossible de se connecter.  Les sessions existantes continuent
de fonctionner normalement, une grande partie des logs ne sont plus écrits, et
un processus cron par heure se lance, semble bloquer et s'accumule.)

> > Le 29/11/16 à 17:59, Charles Plessy <plessy@debian.org> a écrit :
> > > 
> > > Je ne sais pas si les processus CRON sont une cause ou un symptome...

> Le Wed, Nov 30, 2016 at 11:09:57AM +0100, Daniel Caillibaud a écrit :
> > 
> > Si tu les kill (depuis une console ouverte avant qui continue de répondre), ça donne qqchose ?

Le Mon, Dec 26, 2016 at 01:37:10PM +0900, Charles Plessy a écrit :
> 
> Alors là, je suis vraiment désolé, mais j'ai gardé une fenêtre root pendant
> quelques jours, et je l'ai ensuite fermée en pensant que le problème était
> réglé suite à une fausse piste (Nagios qui harcelait le port SSH).
> 
> Je donnerai des nouvelles au prochain plantage, mais d'ici là, s'il y a de
> nouvelles idées...

Il a fallu attendre, mais le plantage nouveau est arrivé.

`killall cron` enlève toutes les tâches cron bloquées, mais il est toujours
impossible de se connecter.  C'est donc un symptôme et pas une cause.

Dans kern.log, je note:

Mar 14 11:51:56 dgt-med vmunix: [3190021.268633] rsession invoked oom-killer: gfp_mask=0x50, order=0, oom_score_adj=0
Mar 14 11:51:57 dgt-med vmunix: [3190021.268637] rsession cpuset=dgt-med mems_allowed=0-1
Mar 14 11:51:57 dgt-med vmunix: [3190021.268644] Hardware name: Dell Inc.  C6100           /0D61XP, BIOS 1.71 09/17/2013
Mar 14 11:51:57 dgt-med vmunix: [3190021.268645]  ffff8817baf44c00 ffff880767c53c30 ffffffff8176534f ffff88114c2b1460
Mar 14 11:51:57 dgt-med vmunix: [3190021.268648]  ffff880767c53cb8 ffffffff8175ef1f 0000000000000303 ffff880767c53c58
Mar 14 11:51:57 dgt-med vmunix: [3190021.268650]  ffff880767c53c80 ffffffff81164f07 ffff882fb90fd638 ffff882fb90fd180
Mar 14 11:51:57 dgt-med vmunix: [3190021.268652] Call Trace:
Mar 14 11:51:57 dgt-med vmunix: [3190021.268660]  [<ffffffff8176534f>] dump_stack+0x45/0x56
Mar 14 11:51:57 dgt-med vmunix: [3190021.268664]  [<ffffffff8175ef1f>] dump_header+0x7f/0x1f1
Mar 14 11:51:57 dgt-med vmunix: [3190021.268671]  [<ffffffff81165385>] oom_kill_process+0x205/0x360
Mar 14 11:51:57 dgt-med vmunix: [3190021.268678]  [<ffffffff812eb665>] ? security_capable_noaudit+0x15/0x20
Mar 14 11:51:57 dgt-med vmunix: [3190021.268684]  [<ffffffff811c9660>] ? mem_cgroup_try_charge_mm+0xa0/0xa0
Mar 14 11:51:57 dgt-med vmunix: [3190021.268689]  [<ffffffff8175d5c9>] mm_fault_error+0x67/0x140
Mar 14 12:06:25 dgt-med vmunix: [3190890.132369] rsession invoked oom-killer: gfp_mask=0x50, order=0, oom_score_adj=0
Mar 14 12:06:25 dgt-med vmunix: [3190890.132377] CPU: 5 PID: 10550 Comm: rsession Tainted: P           OE 3.16.0-38-generic #5
Mar 14 12:06:25 dgt-med vmunix: [3190890.132379] Hardware name: Dell Inc.  C6100           /0D61XP, BIOS 1.71 09/17/2013
Mar 14 12:06:25 dgt-med vmunix: [3190890.132380]  ffff8817baf44c00 ffff8816d3f5bc30 ffffffff8176534f ffff8818937065e0
Mar 14 12:06:25 dgt-med vmunix: [3190890.132383]  ffff8816d3f5bcb8 ffffffff8175ef1f 00000000000000e1 ffff8816d3f5bc58
Mar 14 12:06:25 dgt-med vmunix: [3190890.132385]  ffff8816d3f5bc80 ffffffff81164f07 ffff882fb90fd638 ffff882fb90fd180
Mar 14 12:06:25 dgt-med vmunix: [3190890.132387] Call Trace:
Mar 14 12:06:25 dgt-med vmunix: [3190890.132395]  [<ffffffff8176534f>] dump_stack+0x45/0x56
Mar 14 12:06:25 dgt-med vmunix: [3190890.132399]  [<ffffffff8175ef1f>] dump_header+0x7f/0x1f1
Mar 14 12:06:25 dgt-med vmunix: [3190890.132406]  [<ffffffff81165385>] oom_kill_process+0x205/0x360
Mar 14 12:06:25 dgt-med vmunix: [3190890.132414]  [<ffffffff812eb665>] ? security_capable_noaudit+0x15/0x20
Mar 14 12:06:25 dgt-med vmunix: [3190890.132419]  [<ffffffff811c9660>] ? mem_cgroup_try_charge_mm+0xa0/0xa0
Mar 14 12:06:25 dgt-med vmunix: [3190890.132425]  [<ffffffff8175d5c9>] mm_fault_error+0x67/0x140
Mar 14 13:17:30 dgt-med vmunix: [3195156.740895] CPU: 1 PID: 6581 Comm: rstudio Tainted: P           OE 3.16.0-38-generic #52~
Mar 14 13:17:30 dgt-med vmunix: [3195156.740898]  ffff8817baf44c00 ffff881f48137c30 ffffffff8176534f ffff882fb13e28c0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740901]  ffff881f48137c80 ffffffff81164f07 ffff882c2cfae068 ffff882c2cfadbb0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740910]  [<ffffffff8176534f>] dump_stack+0x45/0x56
Mar 14 13:17:30 dgt-med vmunix: [3195156.740917]  [<ffffffff81164f07>] ? find_lock_task_mm+0x47/0xa0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740923]  [<ffffffff811c5e7b>] ? mem_cgroup_iter+0x14b/0x320
Mar 14 13:17:30 dgt-med vmunix: [3195156.740927]  [<ffffffff811ca181>] mem_cgroup_oom_synchronize+0x581/0x5e0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740932]  [<ffffffff81165b84>] pagefault_out_of_memory+0x14/0x80
Mar 14 13:17:30 dgt-med vmunix: [3195156.740938]  [<ffffffff8105b23c>] __do_page_fault+0x4ec/0x560
Mar 14 13:17:30 dgt-med vmunix: [3195156.740944]  [<ffffffff810a7dd5>] ? set_next_entity+0x95/0xb0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740948]  [<ffffffff8105b2e1>] do_page_fault+0x31/0x70
Mar 14 13:17:30 dgt-med vmunix: [3195156.740951] Task in /lxc/dgt-med killed as a result of limit of /lxc/dgt-med

(rsession et rstudio font partie de la même application graphique pour de
l'analyse de données, https://www.rstudio.com/).

Il me semble que chaque fois que le problème arrive, la machine a été stressée
sur ses ressources.  Se pourrait-il qu'un processus essentiel pour établir des
nouvelles connections soit interrompu ou bloqué dans ces moment, et pas ou mal
relancé ensuite ?

root@dgt-med:~# ps aux | grep root
root         1  0.0  0.0  28544  3360 ?        Ss   Feb07   0:30 /sbin/init
root       140  0.0  0.0  32968  2448 ?        Ss   Feb07   0:05 /lib/systemd/systemd-journald
root       466  0.0  0.0  37096   168 ?        Ss   Feb07   0:04 /sbin/rpcbind -w
root       501  0.0  0.0  27568     0 ?        Ss   Feb07   0:00 /usr/sbin/rpc.idmapd
root       536  0.0  0.0  55184  1520 ?        Ss   Feb07   0:00 /usr/sbin/sshd -D
root       550  0.2  0.0  65352 13036 ?        Ssl  Feb07 109:52 /usr/bin/gitlab-ci-multi-runner run --working-directory /var/lib/gitlab-runner --config /etc/gitlab-runner/config.toml --service gitlab-runner --syslog --user gitlab-runner
root       614  0.0  0.0  28324   524 ?        Ss   Feb07   0:05 /lib/systemd/systemd-logind
root       700  0.0  0.0  95260   352 ?        Ss   Feb07   1:07 /usr/sbin/apache2 -k start
root       807  0.0  0.0  12652  1100 ?        S    Feb07   0:04 /usr/sbin/syslogd --no-forward
root      1165  0.0  0.0  12664    12 tty1     Ss+  Feb07   0:00 /sbin/agetty --noclear tty1 linux
root      1173  0.0  0.0  12664    12 ?        Ss   Feb07   0:00 /sbin/agetty --noclear tty2 linux
root      1181  0.0  0.0  12664    12 tty3     Ss+  Feb07   0:00 /sbin/agetty --noclear tty3 linux
root      1189  0.0  0.0  12664    12 tty4     Ss+  Feb07   0:00 /sbin/agetty --noclear tty4 linux
root      1197  0.0  0.0  16880    12 ?        Ss   Feb07   0:00 /sbin/agetty --noclear --keep-baud pts/3 115200 38400 9600 vt102
root      1205  0.0  0.0  16880    12 ?        Ss   Feb07   0:00 /sbin/agetty --noclear --keep-baud pts/2 115200 38400 9600 vt102
root      1213  0.0  0.0  16880    12 pts/1    Ss+  Feb07   0:00 /sbin/agetty --noclear --keep-baud pts/1 115200 38400 9600 vt102
root      1221  0.0  0.0  16880    12 ?        Ss   Feb07   0:00 /sbin/agetty --noclear --keep-baud pts/0 115200 38400 9600 vt102
root      1229  0.0  0.0  16880    12 console  Ss+  Feb07   0:00 /sbin/agetty --noclear --keep-baud console 115200 38400 9600 vt102
root      1566  0.0  0.0  95352    12 ?        Ss   Feb07   0:00 sshd: plessy [priv] 
root      1607  0.0  0.0  60108    12 pts/4    S    Feb07   0:00 sudo su -
root      1608  0.0  0.0  61592     0 pts/4    S    Feb07   0:00 su -
root      1609  0.0  0.0  26248  4296 pts/4    S    Feb07   0:00 -su
root      1646  0.0  0.0  60108    12 pts/6    S    Feb07   0:00 sudo su -
root      1647  0.0  0.0  61592     0 pts/6    S    Feb07   0:00 su -
root      1648  0.0  0.0  26212     0 pts/6    S+   Feb07   0:00 -su
root      2754  0.0  0.0  21716  2504 pts/4    R+   11:23   0:00 ps aux
root      2755  0.0  0.0  15344  1784 pts/4    S+   11:23   0:00 grep root
root     16949  0.0  0.0  95352    12 ?        Ss   Mar06   0:00 sshd: plessy [priv] 
root     18795  0.0  0.0  95352    12 ?        Ss   Mar06   0:00 sshd: plessy [priv] 
root     22802  0.0  0.0  95352    20 ?        Ss   Mar07   0:00 sshd: plessy [priv] 

Je vais devoir relancer la machine (j'en ai besoin), mais les commentaires sont
quand-meme les bienvenus.

Bonne journée,

-- 
Charles


Reply to: