Olá, lista
primeiramente, obrigado a todos pela pronta disposição em ajudar!
Instalei o cacti, munim, fiz testes diversos com o sar, e por aí vai.
Em todos, o resultado era o mesmo: a quantidade de tráfego na placa de
rede não chegava a níveis absurdos, apesar de só acontecer quando batia
uma média de 2 mbps. O problema é mais fundo um pouco.
Usando o ifconfig, vi que diversos pacotes estavam sendo perdidos por
motivo de "ERROR". Depois de uma longa e exaustiva pesquisa (que
incluiu uma página em CHINÊS que foi mais ou menos traduzida por um
amigo), encontrei uma referência à manpage do tcpdump. Descobri que o
problema é que o buffer para ethernet não estava sendo o suficiente -
isso acontece com máquinas mais rápidas com placas mãe
"não-tão-boas-assim". O PC joga informações pra placa de rede em uma
velocidade que ela não consegue transmitir, e fica na fila. Quando lota
o buffer, ele começa a descartar pacotes. Chega em um determinado
momento que é preciso fazer quase que um novo "handshake" - daí aquelas
travadas que davam.
A solução foi aumentar o buffer
echo 4096 65536 5000000 > /proc/sys/net/ipv4/tcp_wmem
echo 4096 5000000 5000000 > /proc/sys/net/ipv4/tcp_rmem
e desligar o resize automático do buffer
echo 0 > /proc/sys/net/ipv4/tcp_moderate_rcvbuf
Isso resolveu tanto pra 3com quanto pra e1000. Estou usando a 3com por
enquanto, e farei novos testes no fim de semana
Obrigado a todos pela atenção!
Danilo Martins escreveu:
Olá, lista
estou com um problema aqui que talvez alguém possa ajudar. Tenho a
seguinte configuração:
- Debian Sarge
- HD SATA 80 GB 8 MB Cache SAMSUNG, rodando a 1,5 Gbps (jumpeado
corretamente)
- Placa mãe ASUS P5P800
- 2 GB RAM DDR 400, em dual channel
- Processador Intel 630 (3.0 GHz, 2 MB cache, 64 bits, com HT)
- Placa de rede 3Com 10/100
- A rede é constituída de 2 switches 3com, e a comunicação está OK
entre todos os outros pontos.
- Gravadora de DVD Pioneer
Este será meu servidor LTSP. Tenho mais 2 HDs SATA que, assim que tudo
estiver funcionando, ligarei em modo RAID-5
Estou com um gargalo em algum lugar. É fácil se imaginar que, com uma
máquina dessa, não deva ter gargalos, por isso estou desconfiando de
uma falha de hardware.
Testes com hdparm relatam 63 mbps no HD
Passei o Memtest86+ INTEIRO (sim, foram quase dois dias de testes
ininterruptos). Nenhum erro de memória foi encontrado.
Quando há um uso razoavelmente grande de fluxo de dados na placa de
rede, a comunicação fica lenta (isto é, vai dando "soquinhos"...) Não
precisa muita coisa, um
find / ; find / ; find / ; find /
rodando num SSH é mais do que o suficiente pra visualizar o problema.
Quando instalo o LTSP inteiro, ele fica lerdo em TUDO relacionado às
estações - desde baixar o kernel, até inicar o X, incluindo aí desenhar
as telas quando abre um programa. A lerdeza é bem visível, mesmo com
uma máquina apenas acessando o servidor!
O que já tentei fazer:
- Colocar o servidor na porta
FÍSICA do switch onde estava o outro servidor.
- Ligar com o cabo que estava o outro servidor
- Desabilitar o suporte ao HT
- instalar outra série de kernels (2.4 não funciona, não tem suporte na
controladora SATA), como -686-smp, -686, -386
- Outro pente de memória
- Outra placa de rede (testei no total com 5 placas 3com diferentes, 1
via rhine III, 1 realtek 8139C, 1 Intel e1000 on-board)
- Reinstalar tudo (com e sem raid, de 30 formas diferentes - porém
todos com Debian Sarge)
- Habilitar / Desabilitar o APIC
Aparentemente, não há nada de estranho em qualquer log que eu tenha
imaginado. O tcpdump também não mostra nada de estranho.
Alguém tem alguma luz? Alguma idéia pra testar, qualquer coisa? Estou
quase arrancando meus cabelos já!
Grato,
|