[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

gfs2 и подвисания



Есть Dom0 сервер по имени blade2 с centos 5 на борту и xen 3.4.2
Есть два DomU с debian lenny, работающие с общим стораджем,
отформатированным в gfs2.
На DomU настроен кластер:
aptitude install gfs2-tools cman
Содержимое /etc/cluster/cluster.conf:
<?xml version="1.0"?>
<cluster name="mailcluster" config_version="1">
  <fence_daemon clean_start="0" post_fail_delay="0" post_join_delay="3"/>
  <clusternodes>
    <clusternode name="mail1" votes="1" nodeid="1">
      <fence>
        <method name="1">
          <device domain="mail1" name="xvm"/>
        </method>
      </fence>
    </clusternode>
    <clusternode name="mail2" votes="1" nodeid="2">
      <fence>
        <method name="1">
          <device domain="mail2" name="xvm"/>
        </method>
      </fence>
    </clusternode>
  </clusternodes>
  <cman expected_votes="1" two_node="1"/>
  <fencedevices>
    <fencedevice agent="fence_xvm" name="xvm"/>
  </fencedevices>
</cluster>

При загрузке нод всё работает, ноды загружаются, монтируют общий диск,
успешно пишут/читают файлы.

При несвоевременной кончине одной из нод (xm destroy) получаю:
а) невозможность доступа к смонтированному общему диску и сообщения в
messages вида:
Sep  2 17:36:53 mail1 kernel: [  840.080008] ls            D c1006460
   0  1685      1 0x00000004
Sep  2 17:36:53 mail1 kernel: [  840.080008]  ec312a80 00000286
00000000 c1006460 00000020 c144ed20 c144ed20 c144a2ac
Sep  2 17:36:53 mail1 kernel: [  840.080008]  ec312c3c c399cd20
00000001 ec49dc38 00000000 ebb45e88 c10c9781 ec109980
Sep  2 17:36:53 mail1 kernel: [  840.080008]  c39982ac ec312c3c
00010f6b ebb45eb0 ebb45e9c 00000000 00000000 00000000
Sep  2 17:36:53 mail1 kernel: [  840.080008] Call Trace:
Sep  2 17:36:53 mail1 kernel: [  840.080008]  [<c1006460>] ?
check_events+0x8/0xc
Sep  2 17:36:53 mail1 kernel: [  840.080008]  [<c10c9781>] ? dput+0x22/0x105
Sep  2 17:36:53 mail1 kernel: [  840.080008]  [<edbf23b3>] ?
gfs2_glock_holder_wait+0x5/0x8 [gfs2]
[...]

б) дофига сообщений в daemon.log:
Sep  2 17:31:59 mail1 fenced[1585]: mail2 not a cluster member after 0
sec post_fail_delay
Sep  2 17:31:59 mail1 fenced[1585]: fencing node "mail2"
Sep  2 17:32:29 mail1 fenced[1585]: agent "fence_xvm" reports: Timed
out waiting for response
Sep  2 17:32:29 mail1 fenced[1585]: fence "mail2" failed
Sep  2 17:32:34 mail1 fenced[1585]: fencing node "mail2"
Sep  2 17:33:04 mail1 fenced[1585]: agent "fence_xvm" reports: Timed
out waiting for response
Sep  2 17:33:04 mail1 fenced[1585]: fence "mail2" failed
Sep  2 17:33:09 mail1 fenced[1585]: fencing node "mail2"
Sep  2 17:33:39 mail1 fenced[1585]: agent "fence_xvm" reports: Timed
out waiting for response
Sep  2 17:33:39 mail1 fenced[1585]: fence "mail2" failed
[...]

Вопрос: что я забыл сделать?

-- 
Stanislav


Reply to: