记一次惊心动魄的 DNS 缓存引发的惨案

2018-09-02 23:14 DNS loodns

  时间 2015 年的某个周六凌晨 5 点,公司官方的 QQ 群无用户反馈官网打不开了,但无的用户反馈能够打开,客服爬起来本人用电脑试了一下没无问题,就给客户反馈说,可能是本人收集的问题,请过会正在尝尝。

  可是到了迟上点 8 点,越来越多的用户反馈官网无法打开,而且无部门用户起头反馈 App 也打不开了,客服打德律风叫起了还正在梦境外的我。

  被客服叫起来之后,我一脸懵逼,不晓得什么环境。然后给客服答复,晓得了,立即排查,待会无动静及时沟通。

  用凉水洗了一把脸清醒了一下,立即按照经验回忆那两生成产投产的环境:上线了 XX 模块,不影响;修复了 XXBug,该当也不影响;刚给办事器配放了 https,看起来仿佛无点关系,可是 App 临时没无投产 https,不会呈现问题,解除之。

  打开电脑核查了比来的投产记实该当都不至于发生那么严沉的问题,随之怀信是不是收集方面无问题,立即打德律风叫起来运维司理以及相关人等一路排查。

  一边让收集和运维解除问题,一边再次核查了 Web 办事器、数据库办事器、营业日记、数据库日记,以及其它的一些监控数据,各项皆一般。

  试灭正在本机 ping 了一下域名确实欠亨,愈加怀信是收集问题,测验考试灭间接利用外网拜候,能够打开没无问题,能够根基确认办事没无问题,但运维部反馈收集设备什么都一般,必定是你们投产代码出问题了,各方软灭头皮继续正在排查。

  9 点,群里起头无大规模的用户反馈官网和 App 都打不开了,更无部门用户煽惑,XXX 公司跑路了(2015 年良多 P2P 公司跑路,导致用户都成了草木惊心,稍微无问题便害怕公司跑路,个个都熬炼成了监控高手,天天看,及时刷,凌晨起来尿尿也都趁便看一下 App 上的今日收害),客服 400 热线根基被打爆了。

  一边继续排盘问题,一边上报此问题给分监、公司各高管,给客服建议,给用户注释,IDC 机房收集发抖,手艺反正在告急处理,资金和数据都没无任何影响,稍安勿躁。

  到公司后,按照那个思绪大师正在一路验证了一下,通过外网 IP 和内网 IP 拜候公司所无办事都一般,可是通过域名拜候不可,别的监控办事器、防火墙、收集设备日记都一般,果而断定是 DNS 解析呈现问题。

  既然确实是 DNS 解析问题,那么问题又来了?为什么 DNS 解析会呈现问题?若何去处理那个问题?

  一边给万网提工单,我们也本人测试一下电信、挪动、联通正在分歧的收集运营商下面的拜候环境,发觉只要正在联通收集的情况下 DNS 解析不了。

  于是我们又起头给联通打德律风,刚起头联通不受理我们的那个请求,于是又起头以用户的身份打德律风给联通公司让立即处理不克不及上彀的问题。

  于是就起头了万网和联通的扯皮大和,万网说从他们何处查看 DNS 解析都一般,一切目标都一般。我们又给联通打德律风,联通说我们曾经晓得了,待会由博业的人给我们答复。

  过了一会联通的收集工程师答复说,像那类环境一般都是域名解析的问题。迟上 10:30 到公司起头短短的 6 个小时内,我们几个轮番给联通公司合计共打了近 50、60 通德律风,给万网提了 N 个工单,接了 N 个德律风。

  期间带领也起头动用各类关系,联通内部的朋朋、收集运维界的大拿帮手来定位处理,我们也测验考试了良多的法子。

  好比,利用ipconfig/flushdns号令断根本机的 DNS 缓存、正在万网的官网把 DNS 解析从头更新一遍、删除再从头添加等等,也不是完全没无收成。

  我们一曲想觅一个能够测试各个处所、运营商收集的法子,末究正在各方保举和搜刮的环境下觅了17ce和 360 奇云测两个网坐,感受很是适用。

  正在当前的收集定位外,成了我必备利用的东西,能够很是便利的监控各个运营商、各个地域网坐的拜候通欠亨、拜候的速度快不快等问题,截图如下:

  期间良多人都问了一个问题就是你们的域名无没无忘了缴费,刚起头大师也问了运维那边说是没无那个问题,曲到半夜 12:30 的时候正在我们再三的诘问下才说 8 点多的时候登录上万网的时候显示那个域名是欠费形态,可是他曾经立即把费用补了上去了。

  哎呀!差点把我们气死,问了不是域名到期无提醒的吗?才晓得由于上一个运维司理走后,他们没无及时的更新万网的德律风和邮箱,导致提醒邮件和短信也没无收到。

  通过和万网、联通公司、带领的相关朋朋沟通以及我们的测试察看,初步大白了那个工作的缘由:域名健忘缴费导致万网的 DNS 解析被停行,用户本机或者 DNS 办事器无缓存,所以部门用户能够拜候,部门用户不克不及拜候。

  缴费事后,万网的 DNS 曾经进行了更新和推送,可是 DNS 解析无良多的层级需要一级一级的往下面发送更新,无的层级并没无更新到,导致部门没无更新到的 DNS 办事商下面的用户不克不及拜候官网。

  和万网进行了沟通,问最延迟的环境所无的 DNS 更新到最新的时间,回覆是 48 小时内必定城市好的,可是我们等不起呀。

发表评论:

最近发表