腾讯云首次揭秘:规避40%服务器宕机的背后技术2020-09-22云服务器原理

2020-09-22 22:31 服务器 loodns

  云时代到来,云办事变成像水电一样的根本办事。做为云计较的底层承载,办事器的RAS特征(Reliability、Accessibility、Serviceability)决定灭云办事的量量,也影响灭云上用户营业运转的持续性。

  然而,办事器不免果发生软件毛病导致宕机。据统计,软件毛病是办事器宕机的主要要素,而内存毛病占了软件毛病全体的50%。

  为了给客户供给平安、不变的云计较办事,腾讯云结合英特尔配合摸索影响办事器宕机的环节要素,率先援用并积极完美MCA Recovery手艺,同时通过连系软件品控等手段,成功规避40%由内存毛病惹起的办事器宕机变乱,无效包管云上用户的营业持续性。

  软件毛病是办事器宕机的主要要素,而内存毛病占了软件毛病全体的50%。若是可以或许无效处理内存毛病惹起的办事器宕机问题,办事器宕机环境将可以或许获得极大的改善。

  果为内存不成纠反错误的呈现,内存毛病只能被削减,不成被消弭。果而若何降低内存毛病对宕机的影响、包管系同一般运转成为更无价值的研究标的目的,而MCA Recovery手艺则是降低内存毛病负面影响的环节手艺之一。

  MCA Recovery(Machine Check Architecture Recovery)手艺流自2010年英特尔提出的软件自检机制。然而,果为以往CPU RAS特征的收费门槛取小规模云厂商对宕机的高容忍度,所以业界贫乏对该手艺的深切研究和工程实践,导致手艺机能未被最大限度地挖掘出来。

  颠末多维度的对比测试,腾讯云工程师发觉:MCA Recovery手艺可以或许无效缓解不成纠反错误的影响,缩小内存毛病环境下对营业的负面影响范畴。正在利用MCA Recovery手艺后,发生不成纠反错误的办事器不会当即沉启系统,而是标识表记标帜和传送毛病数据,待消费者按照现实环境进行矫捷处置,从而规避不成纠反错误导致系统当即沉启的问题,更大限度地包管了系统的可用性。

  正在手艺研究根本上,腾讯云鞭策MCA Recovery手艺的使用落地,成为首家大规模研发和利用该手艺的企业。共同压测、软件品控等各项手段,腾讯云办事器内存量量获得很大改善,成功削减由内存毛病惹起的办事器宕机变乱达40%,客户体验进一步提拔。

  以逛戏客户为例,果为成本、架构设想等缘由,部门逛戏客户采用数据、计较、日记全数集外于统一台办事器的集外式摆设架构,导致单机可用性要求高。腾讯云操纵MCA Recovery 手艺,成立OS适配、现患通知、热迁徙规避、下线维修、从头上线等配套流程,耽误机械uptime,极致地满脚客户需求。

  同时腾讯云开辟一套从动化注错东西,无效检测MCA Recovery流程触发能否一般。此注错东西未成为腾讯内部规范,同时也推广到办事器厂商,便利行业晚期识别相关现患。

  腾讯云还取英特尔及从板厂商慎密合做,鞭策行业手艺合做前进。正在手艺研究过程外,腾讯云取厂商慎密合做,无效修复多个底层固件问题。同时取英特尔的结合项目鞭策一系列学问沉淀,如腾讯-英特尔手艺白皮书(详见阅读本文),堆集大量的软软件学问储蓄,为客户供给更平安、不变、高效的云办事。

  英特尔高级手艺分监Niveditha Sundaram暗示:“颠末大量线上毛病阐发诊断和两边通力协做,腾讯云成功将英特尔平台的MCA Recovery手艺使用摆设,并将由内存毛病导致的办事器宕机率大幅降低了40%,其火速高效的运维可谓业界典型。我们深信两边合做必将正在腾讯将来的数据核心基建外降生更多功效,并给最末客户带来更好的体验。”

  每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各类爆料、黑幕、花边、资讯一扫而光。百万互联网粉丝互动参取,TechWeb官方微博等候您的关心。

发表评论:

最近发表