环境:HPUX 11.31;ServiceGurad A.11.20。2个node:node1,node2;一个package:pkg1.

 

主机:BL860c i4

 

故障现象:pkg1可以正常的在两个node之间切换,但是当其中一个node关机后,pkg1切到node2上只能运行1分钟左右,之后便会自动failed。

 

分析过程:

 

        1.检查了pkg1的log,系统的syslog,均未发现异常。

 

        2.检查配置在pkg控制文件里的应用脚本,未发现异常。为了方便排查,暂时将定义在control文件里的应用脚本注释掉。

 

        3.注释掉之后,故障现场仍然存在。肩擦包配置文件,包控制文件,依然没有什么发现。

 

        4.检查集群配置文件,和以往自己做的集群配置文件进行对比,发现客户的集群配置文件里多了SUBNET配置和IP_MONITOR配置。怀疑是

 

此原因,故将其注释,如下:

 

#SUBNET 10.73.0.0

#  IP_MONITOR OFF

#  POLLING_TARGET 10.73.0.1 

 

       5.重新check,apply集群配置文件后,故障解决。

 

总结:经过查证,在集群配置文件里(一般为cluster.ascii)不需要写SUBNET参数(在pkg配置文件里写入MONITORED_SUBNET即可),也不需要IP_MONITOR参数,如果写了SUBNET,则一定要把IP_MONITOR 设置为OFF。

 

      对于这种故障,解决方法为:A.注释掉集群配置文件里的SUBNET参数和IP_MONITOR参数。2.如果不注释,在一定要把IP_MONITOR配置为OFF。推荐方法A。IP监控的配置在包配置文件里可以定义,不用再在集群里定义。