[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Servidor de correo con carga desproporcionada.



On Thu, Jul 19, 2007 at 01:21:50PM +0200, glicerinu wrote:
> Muy buenas,
> hace 8 dias que hemos hecho la migración de nuestro servidor de correo
> a una màquina en teoria el doble de potente

> top - 11:50:35 up 8 days, 41 min,  4 users,  load average: 27.60, 23.70, 
> 20.70
> Tasks: 332 total,   1 running, 331 sleeping,   0 stopped,   0 zombie
> Cpu(s):  9.3%us,  5.6%sy,  4.6%ni, 59.2%id, 20.6%wa,  0.0%hi ,  0.7%si,  
> 0.0%st
> Mem:   3609552k total,  3532124k used,    77428k free,    36472k buffers
> Swap:  3421804k total,   388360k used,  3033444k free,  1070116k cached
> ...
> Ami me da la sensación de que
> esto es el límite de nuestro disco scsi, con lo que estaria haciendo
> de cuello de botella de nuestro sistema,
>
>  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
> 4689 smmsp     15   0  445m 307m  764 S   23  8.7 794:41.17
> milter-greylist
> 3228 list      15   0  304m 184m 2568 S    0  5.2   6:20.05 python
> 2941 bind      25   0  162m  94m 2288 S    2  2.7 226:58.16 named
> 13077 root      17   2  146m  88m 2320 S    2  2.5   0:00.36 MailScanner
> 13088 root      17   2  145m  87m 1996 S    1  2.5   0:00.28 MailScanner
> ...
> Nuestro amigo MailScanner tiene 16 hijos de 144Mb cada uno.
> ...

Pues suena a que ahí está el meollo del asunto. Revisa las bitacoras
de ese proceso (¿tiene? ¿están activadas?) ¿Se puede configurar
cuantos hijos usa? Si sí, reducelos para que quepan todos en RAM a la
vez. Revisa por qué hay tantos. Puede ser que algunos estén muertos, o
colgados (algo parecido me pasó una vez con spamassassin) Busca en los
foros/listas/reportes de bugs/canales de irc de MailScanner.

¿Qué es ese proceso python del usuario list? ¿mailman? Está ocupando
cantidades asquerosas de memoria, también. ¿Es normal?

Otra: Aumenta el tiempo entre reintentos de smmsp (eso es tu demonio de
SMTP, ¿verdad?). Si puedes configurar el tiempo diferente según el
motivo del fallo, aumentalo en particular para cuando el fallo es un
timeout de MailScanner. Tenerlo bajo seguramente esta exacerbando el
problema, por que MailScanner tiene mucho trabajo, así que da timeout,
así que smmsp lo intenta de nuevo, así que MailScanner tiene más
trabajo ...

Si aumentar el tiempo no funciona (o no se puede) intenta hacer que
smmsp, ante un fallo de MailScanner, no acepte el correo, sino que
regrese un 'error temporal, intentelo después' al servidor remoto (no
recuerdo el código).

Suerte,

-- 
Rodrigo Gallardo
GPG-Fingerprint: 7C81 E60C 442E 8FBC D975  2F49 0199 8318 ADC9 BC28

Attachment: signature.asc
Description: Digital signature


Reply to: