一年一度的双十一刚刚落幕,全天交易额 571 亿再次创下世界纪录。奇迹背后,是刘振飞和他领导下的阿里技术保障部(关于技术保障部的故事,请阅读《阿里技术保障部:阿里云的幕后英雄》)的保驾护航,经过多次历练,他们对于世界最大规模的促销活动已经轻车熟路,有了成体系的打法。
然而,同时也在负责阿里云基础设施的刘振飞一度非常困惑:淘宝、天猫、支付宝这么大的网站,我们可以把它的稳定性搞得很好,双十一这么大的活动,我们也能 hold 得住。为什么同一个平台,同一班人马,支撑云计算平台上面那些小得多的客户却不那么轻松呢?
2014 年 10 月的阿里云开发者大会上,刘振飞现场列举的几条用户投诉单非常直观地反映出目前云计算平台所面临的各种困难:
对此,刘振飞其实做过很长时间的思考,他在采访中特地总结了云计算的几点特殊性。
第一,客户数量。云计算平台上的客户数量数以百万计(到 2014 年 6 月阿里云的客户已经超过 140 万),虽然规模远不如阿里内部客户,但这个数量对于平台是很大的挑战。每天如果有万分之一的客户有问题,那也是几百个问题,如果没有很好的对应的自动化流程,会让技术保障团队疲于奔命。
第二,客户技术水平。之前淘宝和天猫等应用的体量大,系统架构做得好,在应用层面就屏蔽了底层基础设施各种可能发生的问题,可以让消费者和商家对底层问题无感知。云计算对外服务则大不一样,外部客户的应用类型千差万别,技术水平不尽相同,底层机房、服务器、网络、存储等硬件的小故障,都可能直接命中上层的客户业务应用,致使服务受影响。
第三,对客户的了解。内部客户的各种业务活动技术保障部门是预先知道的,应用怎么写、架构也可以比较了解。很多时候可以针对性地做工作,防范各种可能的风险。双十一就是很好的例子,平台保障团队可以事先演练各种预案,做到万无一失。对于云计算的外部客户就做不到这一点,每天他们在做什么事情服务方是无法知道的。比如前面投诉单上出现的让人哭笑不得的一幕:客户的某次促销活动,被系统判定为 DDoS 攻击。
正是这些差异,使得之前在淘宝、双十一都行之有效的套路,放到云计算上却不那么灵了。归结为一句话就是:
做云计算很难,要求比保障双十一更高
刘振飞说,云计算其实是要将数据中心、网络、服务器、存储等硬件资源再加上操作系统、数据库等系统软件资源,打包成服务,变成一种社会化资源,向全社会提供。中国过去多年追求核心高端基础的软硬件技术自主化,过程非常艰辛。而现在,不仅要掌握这些技术,还要用全新的服务模式售卖出去,其难度可想而知。
提供服务比提供 Windows 那样的软件难度更大,它需要研发和运维成为一个有机的体系,而且规模必须很大。其中的核心,除了大量的资本与人力投入之外,至关重要的经验也必须经过时间积累。
刘振飞坦言,云计算服务最终只有少数大规模的互联网公司可以提供,美国是 Amazon、微软和 Google,中国现在阿里、百度和腾讯具备这种能力。“你根本没有做过,从来没有搞过那么大规模,相关的问题从来没有遇到过,怎么可能做好呢?”他举例说,像之前他们做的 5000 台集群直接拉闸断电测试,很多公司就根本做不了,因为他们连 5000 台机器都没有。云计算一定要上规模,没规模是不行的。这也是私有云只是过渡的原因。
与此同时,在阿里巴巴整个集团的愿景中,云计算已经被提升到非常关键的战略地位。
一方面,阿里通过令人眼花缭乱的收购,已经进入零售、金融、物流、文化、娱乐、健康、无线甚至包括足球等诸多领域,这些新业务都将由阿里云支撑。
另一方面,阿里云要面向全社会,面向整个实体经济,打造商业基础设施。包括政府机构、交通物流、金融体系、农牧水利、建筑工程、医药卫生等国计民生的系统都将有望运行在阿里云的平台上。这意味着阿里技术保障要完成转型,从单纯保障阿里业务,成长为技术驱动的商业基础设施服务商。
刘振飞他们将要面临的业务多样性将超出过去的想象。与之俱来的是更重的责任,是对技术实力和管理运营服务水平的更高要求。以前淘宝和天猫出问题,甚至双十一有问题,不过是用户买不了东西抱怨一下的事情,而未来,云计算将承担类似电网和电信运营商的社会责任,在台风、暴雪、地震等场景下如果掉链子,可能影响到许多人的生活甚至生命了。“其实这是让我非常恐惧的一件事情。云计算将要承载的东西意义太大了。”
在这样的大背景下,刘振飞在思考技术保障部的未来该怎么走。“我们这个部门,整个团队思想意识要快速扭转。以前我们自己开玩笑叫活在当下,说直白点,就只干一件事儿:维稳,一直在维稳,保证别出事儿。后来再加上一个双十一,就这两件事。而面临云计算、面临大数据的时候,我们需要大的组织性变革。简单说,就是‘疯狂搞人’、‘疯狂搞技术’。”
所谓“疯狂搞人”,就是大规模招聘高端人才。阿里技术保障部原有的人力大多在传统的网站稳定性上,而如何做好服务商,服务运营、业务运营、系统研发和运营能力还比较弱,赶不上公司发展的要求。
刘振飞列了一个巨大的招聘计划,其中满眼都是高级专家以上的岗位。他补充说,这些岗位除了锁定国内的顶尖人才,还需要引入海外人才。目前阿里技术保障已经在硅谷成立研发团队,加强计算、存储、网络等基础技术的研发实力,人才吸引的重点也放在了美国几大互联网巨头身上。
而技术保障部下一步需要哪些能力呢?
“首先,我们需要很强的运营能力。”刘振飞拿出事先精心准备的演讲稿,为我展示出一幅宏伟的发展蓝图。运营能力包括三点。
第一是从传统运维到商业市场的考虑。比如每年花这么多预算对不对,整个运营体系怎么优化,从云计算到采购、谈判、供应链,然后下单、装机器,然后上架,这个链条会对云计算的成本和弹性最终对平台竞争力产生巨大影响。这本身就是需要算法和系统来优化的。
第二是数据驱动。所有事情都要用大数据来驱动、来指导我们的方向。比如服务器的数量,多少是合理的,服务器的负荷每天有波峰波谷,怎么优化,其实有很大空间。
第三是需要很强的技术能力,从数据中心的风火水电(空调、电力和制冷等)开始做起,到网络,到服务器,到操作系统,到数据库,一直到中间件,云计算的架构,所有的东西都要加强,要大胆创新,走到底层,走到业界前沿去。这就是所谓“疯狂搞技术”。
为了尽快完成转型,阿里技术保障今年也进行了组织架构重组,新增了系统研发、性能与容量、平台与工具等部门,加强了技术规划、研发和运营方面的投入,而原来的重点职能(维稳和双十一)只占 50% 左右。
新增的职能不少是由部门中资深的技术专家承担,首先给他们减负,从日常业务中抽离出来,既不用管维稳,也不用直接负责双十一保障,让他们专心思考。有的负责前沿技术,有的承担创新任务,有的要将规范、流程、方法工具沉淀下来。
刘振飞也强调,阿里整个集团并不是只有技术保障部在做平台性的、系统技术的工作,包括阿里云本身、支付宝和淘系公司都有很多同事在一起努力,大家共同构成了对外的阿里平台。比如数据库层面,他们的计划是逐步用自研数据库 OceanBase 替代商业解决方案,而 OceanBase 的核心团队就属于支付宝。本次双十一 OceanBase 承担了 10% 的流量,顺利通过大考,下一步的计划就是进一步扩大应用范围,最终 OceanBase 会通过阿里云向社会提供产品化的服务。
在阿里技术保障部的办公区,我看到几个易拉宝,展示了他们的一些创新工作,从定制自研的 AliRack 整机柜服务器到生态环保数据中心。我知道,这些仅仅是一个开始。