Re: Serveur bloqué par de multiples CRON -f ?
(Résumé des épisodes précédents, j'ai une machine virtuelle sur laquelle il
devient parfois impossible de se connecter. Les sessions existantes continuent
de fonctionner normalement, une grande partie des logs ne sont plus écrits, et
un processus cron par heure se lance, semble bloquer et s'accumule.)
> > Le 29/11/16 à 17:59, Charles Plessy <plessy@debian.org> a écrit :
> > >
> > > Je ne sais pas si les processus CRON sont une cause ou un symptome...
> Le Wed, Nov 30, 2016 at 11:09:57AM +0100, Daniel Caillibaud a écrit :
> >
> > Si tu les kill (depuis une console ouverte avant qui continue de répondre), ça donne qqchose ?
Le Mon, Dec 26, 2016 at 01:37:10PM +0900, Charles Plessy a écrit :
>
> Alors là, je suis vraiment désolé, mais j'ai gardé une fenêtre root pendant
> quelques jours, et je l'ai ensuite fermée en pensant que le problème était
> réglé suite à une fausse piste (Nagios qui harcelait le port SSH).
>
> Je donnerai des nouvelles au prochain plantage, mais d'ici là, s'il y a de
> nouvelles idées...
Il a fallu attendre, mais le plantage nouveau est arrivé.
`killall cron` enlève toutes les tâches cron bloquées, mais il est toujours
impossible de se connecter. C'est donc un symptôme et pas une cause.
Dans kern.log, je note:
Mar 14 11:51:56 dgt-med vmunix: [3190021.268633] rsession invoked oom-killer: gfp_mask=0x50, order=0, oom_score_adj=0
Mar 14 11:51:57 dgt-med vmunix: [3190021.268637] rsession cpuset=dgt-med mems_allowed=0-1
Mar 14 11:51:57 dgt-med vmunix: [3190021.268644] Hardware name: Dell Inc. C6100 /0D61XP, BIOS 1.71 09/17/2013
Mar 14 11:51:57 dgt-med vmunix: [3190021.268645] ffff8817baf44c00 ffff880767c53c30 ffffffff8176534f ffff88114c2b1460
Mar 14 11:51:57 dgt-med vmunix: [3190021.268648] ffff880767c53cb8 ffffffff8175ef1f 0000000000000303 ffff880767c53c58
Mar 14 11:51:57 dgt-med vmunix: [3190021.268650] ffff880767c53c80 ffffffff81164f07 ffff882fb90fd638 ffff882fb90fd180
Mar 14 11:51:57 dgt-med vmunix: [3190021.268652] Call Trace:
Mar 14 11:51:57 dgt-med vmunix: [3190021.268660] [<ffffffff8176534f>] dump_stack+0x45/0x56
Mar 14 11:51:57 dgt-med vmunix: [3190021.268664] [<ffffffff8175ef1f>] dump_header+0x7f/0x1f1
Mar 14 11:51:57 dgt-med vmunix: [3190021.268671] [<ffffffff81165385>] oom_kill_process+0x205/0x360
Mar 14 11:51:57 dgt-med vmunix: [3190021.268678] [<ffffffff812eb665>] ? security_capable_noaudit+0x15/0x20
Mar 14 11:51:57 dgt-med vmunix: [3190021.268684] [<ffffffff811c9660>] ? mem_cgroup_try_charge_mm+0xa0/0xa0
Mar 14 11:51:57 dgt-med vmunix: [3190021.268689] [<ffffffff8175d5c9>] mm_fault_error+0x67/0x140
Mar 14 12:06:25 dgt-med vmunix: [3190890.132369] rsession invoked oom-killer: gfp_mask=0x50, order=0, oom_score_adj=0
Mar 14 12:06:25 dgt-med vmunix: [3190890.132377] CPU: 5 PID: 10550 Comm: rsession Tainted: P OE 3.16.0-38-generic #5
Mar 14 12:06:25 dgt-med vmunix: [3190890.132379] Hardware name: Dell Inc. C6100 /0D61XP, BIOS 1.71 09/17/2013
Mar 14 12:06:25 dgt-med vmunix: [3190890.132380] ffff8817baf44c00 ffff8816d3f5bc30 ffffffff8176534f ffff8818937065e0
Mar 14 12:06:25 dgt-med vmunix: [3190890.132383] ffff8816d3f5bcb8 ffffffff8175ef1f 00000000000000e1 ffff8816d3f5bc58
Mar 14 12:06:25 dgt-med vmunix: [3190890.132385] ffff8816d3f5bc80 ffffffff81164f07 ffff882fb90fd638 ffff882fb90fd180
Mar 14 12:06:25 dgt-med vmunix: [3190890.132387] Call Trace:
Mar 14 12:06:25 dgt-med vmunix: [3190890.132395] [<ffffffff8176534f>] dump_stack+0x45/0x56
Mar 14 12:06:25 dgt-med vmunix: [3190890.132399] [<ffffffff8175ef1f>] dump_header+0x7f/0x1f1
Mar 14 12:06:25 dgt-med vmunix: [3190890.132406] [<ffffffff81165385>] oom_kill_process+0x205/0x360
Mar 14 12:06:25 dgt-med vmunix: [3190890.132414] [<ffffffff812eb665>] ? security_capable_noaudit+0x15/0x20
Mar 14 12:06:25 dgt-med vmunix: [3190890.132419] [<ffffffff811c9660>] ? mem_cgroup_try_charge_mm+0xa0/0xa0
Mar 14 12:06:25 dgt-med vmunix: [3190890.132425] [<ffffffff8175d5c9>] mm_fault_error+0x67/0x140
Mar 14 13:17:30 dgt-med vmunix: [3195156.740895] CPU: 1 PID: 6581 Comm: rstudio Tainted: P OE 3.16.0-38-generic #52~
Mar 14 13:17:30 dgt-med vmunix: [3195156.740898] ffff8817baf44c00 ffff881f48137c30 ffffffff8176534f ffff882fb13e28c0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740901] ffff881f48137c80 ffffffff81164f07 ffff882c2cfae068 ffff882c2cfadbb0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740910] [<ffffffff8176534f>] dump_stack+0x45/0x56
Mar 14 13:17:30 dgt-med vmunix: [3195156.740917] [<ffffffff81164f07>] ? find_lock_task_mm+0x47/0xa0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740923] [<ffffffff811c5e7b>] ? mem_cgroup_iter+0x14b/0x320
Mar 14 13:17:30 dgt-med vmunix: [3195156.740927] [<ffffffff811ca181>] mem_cgroup_oom_synchronize+0x581/0x5e0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740932] [<ffffffff81165b84>] pagefault_out_of_memory+0x14/0x80
Mar 14 13:17:30 dgt-med vmunix: [3195156.740938] [<ffffffff8105b23c>] __do_page_fault+0x4ec/0x560
Mar 14 13:17:30 dgt-med vmunix: [3195156.740944] [<ffffffff810a7dd5>] ? set_next_entity+0x95/0xb0
Mar 14 13:17:30 dgt-med vmunix: [3195156.740948] [<ffffffff8105b2e1>] do_page_fault+0x31/0x70
Mar 14 13:17:30 dgt-med vmunix: [3195156.740951] Task in /lxc/dgt-med killed as a result of limit of /lxc/dgt-med
(rsession et rstudio font partie de la même application graphique pour de
l'analyse de données, https://www.rstudio.com/).
Il me semble que chaque fois que le problème arrive, la machine a été stressée
sur ses ressources. Se pourrait-il qu'un processus essentiel pour établir des
nouvelles connections soit interrompu ou bloqué dans ces moment, et pas ou mal
relancé ensuite ?
root@dgt-med:~# ps aux | grep root
root 1 0.0 0.0 28544 3360 ? Ss Feb07 0:30 /sbin/init
root 140 0.0 0.0 32968 2448 ? Ss Feb07 0:05 /lib/systemd/systemd-journald
root 466 0.0 0.0 37096 168 ? Ss Feb07 0:04 /sbin/rpcbind -w
root 501 0.0 0.0 27568 0 ? Ss Feb07 0:00 /usr/sbin/rpc.idmapd
root 536 0.0 0.0 55184 1520 ? Ss Feb07 0:00 /usr/sbin/sshd -D
root 550 0.2 0.0 65352 13036 ? Ssl Feb07 109:52 /usr/bin/gitlab-ci-multi-runner run --working-directory /var/lib/gitlab-runner --config /etc/gitlab-runner/config.toml --service gitlab-runner --syslog --user gitlab-runner
root 614 0.0 0.0 28324 524 ? Ss Feb07 0:05 /lib/systemd/systemd-logind
root 700 0.0 0.0 95260 352 ? Ss Feb07 1:07 /usr/sbin/apache2 -k start
root 807 0.0 0.0 12652 1100 ? S Feb07 0:04 /usr/sbin/syslogd --no-forward
root 1165 0.0 0.0 12664 12 tty1 Ss+ Feb07 0:00 /sbin/agetty --noclear tty1 linux
root 1173 0.0 0.0 12664 12 ? Ss Feb07 0:00 /sbin/agetty --noclear tty2 linux
root 1181 0.0 0.0 12664 12 tty3 Ss+ Feb07 0:00 /sbin/agetty --noclear tty3 linux
root 1189 0.0 0.0 12664 12 tty4 Ss+ Feb07 0:00 /sbin/agetty --noclear tty4 linux
root 1197 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/3 115200 38400 9600 vt102
root 1205 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/2 115200 38400 9600 vt102
root 1213 0.0 0.0 16880 12 pts/1 Ss+ Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/1 115200 38400 9600 vt102
root 1221 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/0 115200 38400 9600 vt102
root 1229 0.0 0.0 16880 12 console Ss+ Feb07 0:00 /sbin/agetty --noclear --keep-baud console 115200 38400 9600 vt102
root 1566 0.0 0.0 95352 12 ? Ss Feb07 0:00 sshd: plessy [priv]
root 1607 0.0 0.0 60108 12 pts/4 S Feb07 0:00 sudo su -
root 1608 0.0 0.0 61592 0 pts/4 S Feb07 0:00 su -
root 1609 0.0 0.0 26248 4296 pts/4 S Feb07 0:00 -su
root 1646 0.0 0.0 60108 12 pts/6 S Feb07 0:00 sudo su -
root 1647 0.0 0.0 61592 0 pts/6 S Feb07 0:00 su -
root 1648 0.0 0.0 26212 0 pts/6 S+ Feb07 0:00 -su
root 2754 0.0 0.0 21716 2504 pts/4 R+ 11:23 0:00 ps aux
root 2755 0.0 0.0 15344 1784 pts/4 S+ 11:23 0:00 grep root
root 16949 0.0 0.0 95352 12 ? Ss Mar06 0:00 sshd: plessy [priv]
root 18795 0.0 0.0 95352 12 ? Ss Mar06 0:00 sshd: plessy [priv]
root 22802 0.0 0.0 95352 20 ? Ss Mar07 0:00 sshd: plessy [priv]
Je vais devoir relancer la machine (j'en ai besoin), mais les commentaires sont
quand-meme les bienvenus.
Bonne journée,
--
Charles
Reply to: