记一起由ORACLE心跳引起的生产库故障
浏览量: 次 发布日期:2023-10-14 12:12:02
记一起由ORACLE心跳引起的生产库故障
环境描述:
节点
sid
db_name
software_version
备注
172.16.2.22
hdls1
HDLS
11.2.0.4
rac节点
172.16.2.23
hdls2
HDLS
11.2.0.4
rac 节点
事件原因:
两个节点的心跳网络异常,导致RAC脑裂,中断了节点运行的oracle实列进程,数据库服务宕掉。
宿迁数据恢复检查发现两台oracle实例进程中止,无法正常连接。
恢复23节点,保证业务作业可正常进行,排查22节点故障。等待作业完成处理。重启22节点后,23节点的数据服务恢复正常
无锡数据恢复检查23节点的数据库服务状态
1、EVMD日志
通过上面的日志可以看出,两个节点之间心跳网络通信异常,不能各自获取对端节点的信息,导致oracle实例进程中止。
2、系统日志
通过上述日志可以看出eno3心跳网口状态一直在DOWN和UP之间循环,状态不稳定。
由于心跳网络故障,两节点无法正常通信,22:30,23节点实例中断,23:38,23节点数据库服务恢复。等业务作业运行结束后,对心跳线进行更换,更换心跳6类线。22节点尝试启动数据库服务,成功。srvctl start instance -d HDLS -i hdls1监听状态[grid@hdls01 ~]$ srvctl status listener
Listener LISTENER is enabled
Listener LISTENER is running on node(s): hdls01,hdls02数据库实例状态
检查rac集群服务
检查数据库
1、节点之间连接心跳网络的网线有问题,导致心跳网络异常,RAC节点之间不能正常通信,脑裂,ORACLE的服务被中止。RAC集群为了保证一致性和完整性,在心跳网络异常的情况下,会发生脑裂,ORACLE实例会被强制中止。