А, дошло. Кактус локально мониторит, а не по snmp удалённо. Видимо если
крон перестаёт фунциклировать, то и кактус будет
бесполезен.
А предыстория у этого поведения была, или всё началось внезапно на
ровном месте?
Реально на новом месте. Заказали новый сервер, и сразу на следующий день такое случилось. Потом опять повторилось через 2 недели.
Грешу на железо, но как доказать (или опровергнуть)?
ИМХО без «личного присутствия» диагностировать паралич железа будет затруднительно.
Хотя бы KVM с удалённым доступом. Склоняюсь к мысли, что вероятность проблем с железом
больше вероятности проблем с софтом на нём работающем.
Кстати вспомнилась собственная история с сервером биллинга. Временами он уходил в себя
почти на ровном месте. Ввести в ступор его было по силам даже не большой интенсивности
последовательному копированию данных с рейда по сети. Выяснилось, что сетевые карты,
контроллер рейда висели на прерываниях одного ядра процессора. Кроме того, при установке
системы допустили оплошность — не выравняли границы разделов, что ещё подливало масла
в огонь. После того, как разнесли карточки и контроллер по разным ядрам и выровняли границы
разделов сервер больше в кому не впадал. Максимум, что я видел на нём с тех пор — LA в 6,
а доходило и до 300 в моменты комы.
Archive: [🔎] 508680C5.4080606@lissyara.su" target="_blank">http://lists.debian.org/[🔎] 508680C5.4080606@lissyara.su