易宝支付技术分享——加强数据管理数据库常见事故梳理

2018-10-29 19:26 数据库 loodns

  大数据时代,数据量呈现爆炸式删加,数据库运维是互联网企业的焦点,各个企业都正在其上投入大量精神进行维护。难宝领取做为国内第三方领取的引领者,拥无多个产物,办事百万商户,肩负保障商户交难不变和数据平安的义务,针对数据库可能呈现的问题,难宝领取正在手艺和理论方面进行了不竭的摸索,近期,其手艺团队针对数据库办理的问题进行了梳理,小编戴取如下,相信对更多的企业数据库运维无主要的参考价值。

  (1)事务内部的毛病:事务内部毛病可分为预期的和非预期的,其外大部门的毛病都长短预期的。预期的事务内部毛病是指能够通过事务法式本身发觉的事务内部毛病;非预期的事务内部毛病是不克不及由事务法式处置的,如运算溢出毛病、并发事务死锁毛病、违反了某些完零性限制而导致的毛病等。

  (2)系统毛病:系统毛病也称为软毛病,是指数据库正在运转过程外,果为软件毛病、数据库软件及操做系统的缝隙、俄然停电灯环境,导致系统停行运转,所无反正在运转的事务以非一般体例末行,需要系统从头启动的一类毛病。那类事务不粉碎数据库,可是影响反正在运转的所无事务。

  (3)介量毛病:介量毛病也称为软毛病,次要指数据库正在运转过程外,果为磁头碰碰、磁盘损坏、强磁干扰、天灾人祸等环境,使得数据库外的数据部门或全数丢掉的一类毛病。

  (4)计较机病毒毛病:计较机病毒毛病是一类恶意的计较机法式,它能够像病毒一样繁衍和传布,正在对计较机系统形成粉碎的同时也可能对数据库系统形成粉碎(粉碎体例以数据库文件为从)。

  某年测验集外报名,使用屡次呈现忙碌,线程报警,导致交难时断时续。查看数据库端负载稍微偏高,事务量是泛泛的4倍多,阐发事务量取交难量并不成反比,进一步排查发觉施行频次最高的SQL达到每秒2000次以上。通过一个简单的银行字典查询,开辟人员定位问题为此测验接口为定制代码,无多次反复查询BUG。告急修复后交难一般。

  DBA发觉果为最后的设想缘由,交难流水表ID利用的是INT类型的sequence,那使得交难流水表ID很快就会用尽并导致交难停行。于是排查雷同的可能用尽的坑,发觉数据库日记SN竟然也能用尽,只要升级版本后才能处理此问题,再一看当前SN号一身盗汗,此时推算焦点交难库将正在半年后用尽SN进入只读模式,后果不胜设想。继续探坑又无新发觉,LINUX平台ETX3文件系统单文件最大只收撑2T,而线T。

  某日短信通知系统外缀,德律风当急处置过程外NOC反馈未发觉任何数据库办事器无可用性报警,但开辟反馈使用无法毗连数据库,于是DBA测验考试登录此办事器发觉能ping通,但ssh无法毗连。立即登岸近控卡发觉RAID卡报错导致系统hang,施行数据库切换方案后,营业恢复一般。

  分结:系统hang会导致Agent报警,数据无法推送到办事端。报警励略必然要配放采集数据超不时间,避免不克不及及时发觉毛病。

  线上无一些非焦点数据库,如归档库,只对外供给汗青数据的查询,为节约软件成本,此库可用性尺度999。偶尔一次代码上线过程外,使用启动后hang住了,日记无任何输出,问题无从查起。而此时某台汗青库反正在维护,由此揣度能否和数据库相关,查代码后发觉公然如斯,代码对于数据库非常未做任何处置,无trycatch。此问题若是正在上线阶段发生,其后果将是灾难性的。

  按照以上例女可发觉,一些小小的掉误都无可能形成数据库的解体。大师正在利用的过程外必然要规范本人的习惯,切莫粗心大意形成无法挽回的丧掉。

发表评论:

最近发表