
云计算之路-阿里云上: RDS实例CPU跑满引发的故障
发布日期:2021-05-09 01:35:48
浏览次数:19
分类:博客文章
本文共 693 字,大约阅读时间需要 2 分钟。
今天上午 10: 40 左右,我们所使用的阿里云 RDS 实例的 CPU 突然飙高到近 100% ,造成大量数据库查询操作缓慢、超时,在这个恶劣条件下大量 memcached 缓存无法建立,这样的雪上加霜让 Web 服务器的 CPU 跟着不堪重负,于是要么访问缓慢,要么直接 503 。。。造成网站无法正常访问,由此给您带来了很大的麻烦,请您谅解。
问题非常奇怪,昨天同样的时间段,RDS CPU 占用却少很多,平时 RDS CPU 的占用通常都在 60% 以下,而今天我们网站的访问量并没有明显的突增。
面对这个突发故障,我们实在找不出可能的线索。在前几年使用阿里云 RDS 曾经遇到过很少几次类似数据库访问突发缓慢的问题,当时都通过主备切换神奇地解决了。这次,我们最终还是采用了主备切换的方法,在 11:20 左右启动了主备切换。
主备切换后,CPU 很快就降了下来,但由于 SQL Server 预热需要一定的时间(建立缓存),所以在切换后的一段时间,访问网站依然缓慢,直到 11:40 左右才恢复正常。
我们所使用的 RDS 实例规格是 SQL Server 2008 R2 ,20核CPU ,12G内存,6000 IOPS ,一直没有升级到 Server Server 2012 或 2016 ,就是因为阿里云只有 2008 R2 才提供了高可用版(支持主备切换),而 2012 与 2016 只有基础版。而使用高可用版,在出现突发故障进行主备切换是一个简单有效的方式。
【更新】
我们在故障恢复后,开启了 RDS 的 SQL 审计功能,正在根据审计情况对查询与索引进行优化。
发表评论
最新留言
很好
[***.229.124.182]2025年04月13日 19时04分19秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
cytoscape安装java_Cytoscape史上最全攻略
2023-01-24
c语言程序设计年历显示,C语言程序设计报告《万年历》.doc
2023-01-24
C语言程序设计梁海英答案,1.5 习题
2023-01-24
c语言编写单片机中断,C语言AVR单片机中断程序写法
2023-01-24
#pragma region、{}
2023-01-24
ddr2的上电顺序_S5PV210 DDR2初始化 28个步骤总结
2023-01-24
deque stack java_「集合系列」- 初探 java 集合框架图
2023-01-24
eclipse设置utf8编码_记住没:永远不要在 MySQL 中使用 UTF8
2023-01-24
eclipse里source的快捷方法_Eclipse快捷键/快捷操作汇总
2023-01-24
excel中最常用的30个函数_Excel玩转数据分析常用的43个函数!
2023-01-24
flink sql设置并行度_Flink 参数配置和常见参数调优
2023-01-24
go 字符串替换_Go 每日一库之 quicktemplate
2023-01-24
hive 建表_sqoop的使用之导入到hive和mysql
2023-01-24
hp工作站z8装Linux,惠普Z8G4双路最小工作站
2023-01-24