华为云数据库RDS服务,深层次定位和解决问题

2019-09-06 王乐乐 IT之家
浏览

据相关报告显示,未来数字经济发展的底层核心是数据库,而数据库的核心是运维,各行各业每天都在上演着各类数据库与运维的故事,华为云D客户便是如此。D客户之前一直使用虚拟机上自建的数据库服务,2019年3月份迁移到华为云后,直接购买了RDS SQL Server 2016标准版托管实例,此后系统一直稳定运行,最近因为业务量的增加出现了一些问题,华为云方发现后马上采取行动并成功解决。

7月中旬,D用户虚拟机性能急速下跌,业务提交受影响。华为云后台监控也收到该实例的性能告警,CPU突然上涨过阈值,升到80%以上。为保障用户业务连续性,在征得客户同意后,华为云技术专家在后台对该实例进行性能优化,快速将用户的实例性能降回到了正常水平(25%),用户服务恢复正常运作。

一周后,该问题再次复现,华为云方在收到运维自动预警的第一时间内登录用户后台,通过查询DMV动态视图分析当前实例上正在运行的SQL语句资源消耗情况,发现其中一张表的索引碎片已经超过50%的预警值,同时发现该表的索引碎片劣化异常。在将该表问题反馈给客户后,客户立马指出,“这张表数据量属于异常情况,正常应该是10多万,现在是1千万以上!”抓取到根因,华为云建议用户定时对该表进行周期性归档,避免数据暴涨。

随后一周,用户业务偶发超时问题。为帮助用户分析定位该问题的根因,华为云对客户发生问题时间段的所有日志明细进行排查,最终发现根因在于第一次事务提交中有更新锁存在,且第一次事件未正常提交后,该进程每两分钟又会自动发起一次重试,同时每次重试也依然会被锁住。在与客户共同排查后,最终确认这是近期用户业务形态发生改变才引入的新场景下的BUG。针对该问题,华为方建议客户修改业务提交流程,降低事务粒度,一次插入、一次提交以规避该问题;同时建议修改重试次数上限为3次,并对每次请求进行独立闭环。

经过这三次交锋,在用户业务量突然暴增,业务场景发生变化的情况下,华为云RDS运维人员采用专业技术手段帮助客户系统平稳地度过;同时应用上的缺陷也被识别出来,杜绝了隐患。

选择华为云RDS的理由:

1.相比自建数据库,RDS服务有更加详细的数据库监控指标,能够比弹性云服务提供更多维度监控视角,给出更详细的监控日志和事件记录。

2.相比自建数据库,RDS服务能定位出深层次的问题,包括应用的问题,从而一劳永逸地解决问题。

3.相比自建数据库,华为云有全栈数据库专家团队,可以帮助客户识别各种数据层面的深层次问题,比如索引、数据的分区、数据的类型、SQL语句、慢SQL等等,让客户的IT人员更加聚焦应用,脱离繁重的运维。

目前,华为云数据库特惠专场正火爆进行,不限新老用户5折起,迁移后获赠6个月免费使用时长,更多详情了解请前往华为云官网:最新活动——特惠促销——云数据特惠专场。