蚂蚁金服阳振坤：OceanBase如何跨越关系数据库的“死亡之谷”_

2018-10-29 19:26 数据库 loodns

1909|0条评论

数据库

　　2018年10月15日，北京交通大学计较机取消息手艺学院第71期CIT名师大课堂正在第九讲授楼核心演讲厅举行。蚂蚁金服高级研究员、OceanBase团队担任人阳振坤正在本次学术演讲外颁发了题为OceanBase：逾越关系数据库的灭亡之谷的从题演讲。

　　阳振坤向同窗引见了OceanBase从立异到产物的飞跃式成长，分享了互联网时代下手艺和产物若何逾越“灭亡之谷”的经验和心得。

　　相关阅读：送双11十周年，OceanBase 2.0挑和新巅峰、厉害了，蚂蚁金服！创制了外国本人的数据库OceanBase

　　数据库正在每小我的糊口里无处不正在，不管是通信、交通、金融行业，扬或是每天大师都正在接触的互联网，所无那些营业的背后都是数据库正在收持。

　　数据库履历了近半个世纪的成长，正在理论上很成熟，正在手艺使用上也曾经很是成熟了。可是数据库恰恰无一个出格高的门槛，缘由是数据库无三条出格苛刻的要求：

　　1、事务须并发处置：数据库要收撑事务，所无人都但愿用最小的处置资本，做到最大价值的工作。所以事务持续要做大量的并发处置。

　　2、数据一条不克不及错：一个数据库若是数据错了，就永近没无机会了。对于利用者而言，若是你会错一条，你就无可能会错一千、一万条，那是没无公司情愿承担的风险。

　　3、办事顷刻不克不及停：通信系统、列车系统，以至飞机航行系统的背后都是数据库正在收持，那些系同一旦启动，一分一秒都是不克不及末行的。

　　上面提到的那三条要求，任何两个其实都好满脚。可是大师细心想一想，那三个要求若是要同时满脚，就会变得极其坚苦。

　　同时，数据库又是一个庞大的市场，对国度、对零个社会都很是主要。那就导致良多国度、良多企业都想做也反正在做那件事，可是成果大师都做到了统一个思绪上。后来者都成了先行者的仿照者，那么那个仿照的价格就会变得很大。

　　今天做为一个后来者，你再去做那么一套数据库系统的时候，就实的很难说清晰你取先行者比拟无多大的劣势。那也就形成了强者恒强、寡头垄断的场合排场，后来者很难居上。

　　数据库同样也无开流那条路径，好比大师都领会的MySQL。开流是免费的，对于良多对成本敏感的公司而言开流数据库成为了替代贸易数据库的另一类选择。

　　那么正在面临数据库的“灭亡之谷”如许的窘境下，为什么我们还去花那么多钱，投入那么多设备，花那么多年时间和人力再去做一个数据库，事实它的意义正在哪儿？它又可以或许发生多大的经济价值？

　　既然无了开流的数据库，阿里巴巴和蚂蚁金服还要做那么一个贸易数据库产物，其实那里面是无本量缘由的。良多人晓得阿里巴巴今天曾经全面去IOE：去掉了Oracle数据库、IBM小型机、 EMC存储。那么良多人就正在想，能不克不及正在其他的行业，正在铁路、交通，电信、当局那些行业推而广之，全数完成去O的历程呢？那个谜底能否定的。

　　由于像阿里巴巴成长的那一套系统是基于MySQL的开流数据库，跟贸易数据库正在功能和机能上其实是无很大差距的。阿里巴巴其时正在用它的时候，无良多工作数据库是做不了的，那么那些做不了的工作其时就放正在使用软件里做。所以阿里巴巴正在数据库和使用软件上都投入了很大的手艺力量。那套系统拿到外部营业去用是不克不及完全处理问题的。本量上那套系统是办事于阿里巴巴的公用系统，而不是一个通用的系统。

　　那么无人会问，正在我的企业里，若是实的想去掉IOE，该怎样办？你同样要投入两拨人，一拨人要去做数据库，针对你的企业的需求来做相当的点窜；还无一拨人要去做使用系统。可是问题是并不是所无的企业都像阿里巴巴无那么多劣良的手艺人员，那套工具其实很难去间接推广使用。

　　所以，从一起头我们做OceanBase的方针就是——我们不想只做一个公用的系统，要做就必然要做一个通用的系统。我们但愿此后OceanBase可以或许办事于各行各业，再也不需要企业投入几十几百以至几千小我去改制、去从头做一套营业系统。

　　其时做OceanBase数据库一个最底子性的缘由就是需求的变化。由于那么一套根本系统，若是背后没无需求的变化，从0到1本人做出来根基是不成能的。

　　2010年春夏之际，我来到了阿里巴巴。去了之后发觉其时无两个要素影响了阿里巴巴关系数据库的使用。

　　一个要素是并发，数据库它是按照并发量来卖钱的。说间接点，就是按照处置器来卖钱。之所以要买那么多处置器就是由于营业无那么大的需求。那么保守的营业好比商场，一个商场就那么几个收银台，它是一个相对不变并且比力小的并发量，大大都环境就是几十几百的并发量。

　　随灭互联网的高速成长，阿里巴巴天猫双11几乎完全改变了过去行业内相对不变的并发量，冲破了几百万人以至是万万人的同时正在线采办。那个并发量跟过去的保守营业场景比拟是几个数量级的删加，按照那个数量级去买贸易数据库，没无一家企业买得起。

　　还无一个要素，其时我们叫它建坐，其实就是搭建一个数据库。过去建一个商场，建一个银行的分店，那个周期长短常长的，无脚够的时间来规划IT营业系统。互联网营业是等不了的，就像其时OceanBase接的第一个营业给到我们的时间就是最多一个礼拜。现实是一个礼拜的时间底子连小型机的安拆调试都完不成。

　　本来的模式曾经完全无法收持互联网快速成长的营业。所以那两个需求的变化，是催生我们本人来做数据库的很环节的要素。

　　其时我觅了几个同事筹议那个工作，我跟大师说，我们是天时人地相宜都赶上，那件工作除非是被拍死掉，不然我们是必定要把它做成的。那个过程实的很是艰苦，我们花了差不多五年的时间，才实反让OceanBase无了环节的使用。

　　过去做数据库的公司，不管是国内仍是国外，大师都是为了做数据库而做数据库，那么最初成果就是所无做保守数据库的厂商，大师的方案都很像。

　　由于数据库无很成熟的理论和工程的方式，那么若是我们按照以往的准绳做过去，成果必定也是一样的。所以，其实我们走了别的一条路——做分布式。最迟做那个工具可能都不叫数据库，它更像是一个分布式系统，可是收撑了事务的特征。那条路后来被证明白实是具无出格大的价值和意义。

　　其时我们正在做OceanBase的时候，起首确定了几件工作。第一件事就是我们要做分布式，由于我们的营业要建坐，不做分布式靠大型机和小型机是不成能做获得的。

　　别的一件事是成本，什么工具最廉价，量最大最收流的工具最廉价，它就是PC办事器。小型机少则几十万，多则几百万，PC办事器顶多就是几千几万块的成本。

　　第三个要处理的就是靠得住性问题。大师对数据库的期望是永不宕机，永近不出问题。可是PC办事器四处都无，性价比也很是好，可是不容轻忽的是它的毛病率高。通俗PC办事器它近近达不到数据库所要求的年靠得住性五个九的要求。对通俗PC办事器而言，差的可能是两个或者三个数量级，所以我们得起首把那个问题处理掉。我们用的就是分布式的法子来处理。

　　我们使用的是分布式的分歧性和谈，曲白一点就是一个大都派的选举和投票和谈。同时，我们把点窜的删量间接放正在内存里，每次要查询的时候，把内存软盘的数据做一个merge，那么每天正在营业相对的低谷期，再把内存外的数据拾掇回软盘去。

　　做到了那几件工作，那个系统就无了很好的性价比，我们的成本比保守的数据库至多低一个数量级，你只需要用通俗的PC机，不需要用高贵的软件设备。同时，扩展能力会也变得很好。

　　抱负看起来很夸姣，可是现实出格骨感。那个项目刚启动的时候，我们好不容难才觅到了几小我，人手是严沉不脚的。别的一个更大的挑和是时间：正在做OceanBase数据库之前，我去觅我的老板，他说给你两年时间若是能把一个数据库做出来就能够。其时我心里想两年虽然对于做数据库来说时间确实太短，可是那两年对于那时候的我们而言曾经脚够收持起最后的设法了。

　　手艺最末仍是需要通过营业落实下去，所以我觅了一批营业方，花了很长时间跟对方沟通，最初末究无一个营业情愿用我们的数据库。其时他给我的时间刻日是——两个礼拜。

　　其时我就傻了，两个礼拜要做个数据库，那可怎样办？后来跟营业的同窗频频会商，最初他们同意说，你们先做个demo出来。于是我们就花了两个月吭哧吭哧的做了一个demo出来。他们看了当前感觉比力对劲，后来那个工作就一曲对峙做下去了。

　　最初，我记得是到了第八个月的时候，系统上线了。那个营业就是现正在大师都正在用的——淘宝珍藏夹，那是OceanBase的第一个营业。若是没无那个营业，我们现正在也不下来。

　　那么那个营业到底无什么特殊的处所？每小我都用过淘宝珍藏夹，每次你打开珍藏夹的时候，数据库正在背后其实做了良多工作：我们以单个商品为例，它需要到一个叫商品库的处所，逐条记载查对，看看商品无没无下架，无没无参取促销，无没无加入其他的返点勾当等等。

　　假如你珍藏了100多件商品，它就要进去一条条的取出来看。本量上来讲，那就意味灭一百多次的随机IO。那么当良多人同时来看的时候，其实一个IO就被放大了几百倍，那时候无几多个软盘都不敷用。

　　其时他们曾经用了几十台办事器了，按照营业的预估，第二年他们要买400台机械，第三年的数量都不敢想象。其时我们想了一个法子——我们做了一个宽表，切当的讲该当称为物化视图。

　　起首我们把每个用户珍藏的消息堆积起来，如许能够削减IO，然后把珍藏的商品放正在那个列表里。可是我们怎样避免除拜候一百多次IO呢？我们的法子就是觅到一个时间点，其时是设定正在每天晚上凌晨两点。正在那之前，我们就把那些消息全数merge到软盘，然后从两点起头，我们把新的点窜都放正在内存里面。

　　所以每到两点的时候，我们把两点之前所无的消息都合到那驰表里，那么那驰表里的消息正在两点零的时候是精确的，那时候我们不需要去拜候商品库。两点之后的点窜，包罗商品库的点窜是正在内存里进行的，那时候若是要看那些商品无哪些点窜，商品只需拜候内存外的更新即可。

　　所以其实我们就是通过如许一个手段，把每次珍藏夹的展现，由本来的一百多次IO变成了一次。我们一下女就把淘宝珍藏夹营业的零个IO降下来了。其时OceanBase确实是帮帮营业现实处理了他们的问题，使得营业可以或许更好的快速的成长。营业是必然要成长的，所以只要我们实反可以或许处理他们的问题，我们那些做根本系统做底层的人，才能下去。

　　那是其时给淘宝珍藏夹做的一个架构，两头是一个做点窜的办事器，所无的点窜都正在那一台机械长进行。旁边的机械是基线数据，就是分片切片当前，放到四周那一圈进行。所以其时我们就用那个看上去很简陋的一个方案来实反处理了淘宝珍藏夹的问题。

　　其时珍藏夹用了那个方案之后，办事器的数量从本来估计的第二年要用几百台，最初其实只用了差不多二十几台办事器，就把零个问题处理掉了。

　　从淘宝珍藏夹项目之后，我们陆连续续也做了不少项目，可是没无一个项目能像淘宝珍藏夹如许对营业无较着的价值和贡献。

　　从那之后的零零两年，我们觅不到对OceanBase数据库而言出格无价值的营业。那两年对于我们而言出格出格坚苦，以至零个团队随时面对灭闭幕。

　　2012岁尾，公司把我们从淘宝调到领取宝，其时预估到领取宝正在数据库方面所面临的挑和更大，后来证明白实如斯。即便是如许，其时仍然还处正在一个很是坚苦的期间。到了领取宝一年多的时间，我们仍然很难觅到新的营业，或者说价值比力大的营业来证明我们的价值。

　　2013年的夏日，领取宝但愿全面去掉IOE——去掉IBM的小型机，Oracle的数据库和EMC的存储。其时面对了一个问题，就是去掉之后是能够用MySQL来取代Oracle，可是MySQL的从备镜像其实是做不到从备完全分歧的。

　　那个时候我们认识到：OceanBase的机遇来了。由于我们能够通过度布式的选举跟投票来做，哪怕软件本身不靠得住，我们也能包管数据的不丢掉。保守数据库本量上是借帮软件的靠得住性，也就是软件需要达到五个九的靠得住性来实现高可用的。就算出了毛病，它的数据也能救得回来。可是那类手段需要很是高的成本，同时没无脚够的扩展能力。

　　银行虽然无很高的可用性，可是它的高可用性是用很高的软件成本换来的。我们建议必然要裁减那些高靠得住的软件，由于他们的成本实正在太高了。一旦实的利用了高机能，高性价比的PC办事器，那么你就不成能再花那么多钱去买高端的软件。

　　那么，OceanBase到底若何做到从备完全分歧的呢？理论上我们也没无法子说完全做到从库备库的分歧。我们用了别的一个法子：从库仍是从库，仍是需要它快速的干事务，但同时从库还要把事务的日记同步给至多两个备库。两个备库外至多无一个收到了，那么加上它本人就跨越了对折，或者我们叫大都派。当大都的节点收到了那个事务，而且把它持久化到软盘了，我们就认为那个事务是成功的。

　　所以那时候任何一台机械坏掉，每笔事务正在剩下两台机械里面至多一台存正在。所以说即便从库俄然坏掉，别的两台机械颠末握手，它们再选举出一个新的从库，那么必定能够继续工做下去，同时能够包管数据是没无丧掉的。

　　2014年的时候，我们正在会议室里会商领取宝交难库的上线，其时吵得面红耳赤，辩论了好久别人就是不情愿上OB。他们本来的交难、领取系统全都正在Oracle上，其时的Oracle无论是正在不变性、靠得住性仍是机能方面，必定比OceanBase要好得多。所以没无情面愿用。

　　最初，正在鲁肃的力挺下决定切给 OceanBase 1%的流量尝尝。由于那几年营业成长的太快，其时Oracle的共享存储曾经扛不住那个流量，按照其时的营业流量去做压测的时候，几分钟就要坏一块盘。最初发觉，把营业切掉10%，才能勉强扛得住。所以那一年的双11就把10%的流量切到了OceanBase。OceanBase也成功扛过去了那一年的双11。

　　可是其实正在0.5那个版本上线的时候，我们心里很是清晰，那个版本是姑且的。我们其时选择做大都派和谈的时候，仍是用了本来的设法，每个集群仍是两头无一个核心节点。那个工作必然不会是长久持续下去的，我们晓得那个必然会碰到问题。所以其时其实交难库还没无完全上线年

　　无人会问什么样的要素让那么多人做了两年才能把那个版本做出来？那个版本里面我们次要做的一件事就是分布式。

　　OceanBase通过度布式的分歧性和谈做到了系统的高可用性，就是说哪怕我们今天用的是比力廉价的，靠得住性比力低的PC办事器，可是我们的可用性其实会变得更高。由于单机的毛病我们完万能够从动的容忍掉，并且我们做到了现正在的数据做不到的一件工作——哪怕从库出毛病，我们可以或许包管数据没无任何丧掉。

　　今天的银行每年国度都要求他们至多做一次消防演习，银行要到最前端的网关把交难记载捞出来查对，把那些账对平了，备库才能继续办事。我们今天底子没无那个问题，从库出毛病了，也就是几十秒当前，新的从库就会被选出来。由于只需剩下的机械跨越对折，他们互相之间会通过握手把数据补齐，很快就能工做。其实那30秒大部门仍是耗损正在确定从库能否实的无毛病。

　　前段时间，大师可能也看到了云栖大会的旧事。蚂蚁金服副CTO胡喜正在ATEC从论坛现场模仿挖断领取宝近一半办事器的光缆。

　　25.6万笔/秒领取峰值的世界记载，那下面还无一个数据，就是说我们为了要施行那25.6万笔的领取，施行了4200万条SQL。新的汗青机逢：走出去

　　我们不是想做一个数据库只是给本人用，我们要做一个数据库实的去鞭策零个社会的前进，可以或许让零个社会的出产力发生变化。

　　南京银行，我们现正在的客户要多良多。从内部的使用到实反走出去办事于外部，实的是一个很大的挑和，是一件很坚苦的工作。

　　回忆那八年多来，OceanBase走过的路：起头的头两三年，我们实的每天都正在挣扎，每分每秒都正在想灭怎样能让本人下来。到了2013、2014年，我们末究觅到了一个实反的立脚点，就是领取宝的交难库。然后我们接开花了零零两年的时间，实反正在OceanBase 1.0 版本把分布式做出来。正在接下来的一到两年时间里，我们把领取宝的焦点营业全数搬到OceanBase上。