从“商业软件”、“开源软件”最终演变自主技术和云计算服务能力,阿里巴巴的 IT 后台在发生着怎样的变化。
过去的一年间,高调的阿里巴巴赚足了眼球。
从“双十一”191 亿元的巨额交易额,到闪电般地拆分成七家公司、25 个分支机构,再到在金融业的肆意扩张,和移动互联网领域的大举收购……马云构建的阿里生态圈,正在从城邦成长为“帝国”。
事实上,在阿里巴巴从城邦到“帝国”的这一系列高调动作的背后,实则都与一位低调的人有关,他就是王坚。
2008 年,王坚加盟阿里巴巴成为集团首席架构师,即现在的首席技术官。这位前微软亚洲研究院常务副院长被马云定位为:将帮助阿里巴巴集团建立世界级的技术团队,并负责集团技术架构以及基础技术平台搭建。
在加入阿里后,带着技术基因和学者风范的王坚就在阿里巴巴集团提出了被称为“去 IOE”(在 IT 建设过程中,去除 IBM 小型机、Oracle 数据库及 EMC 存储设备)的想法,并开始把云计算的本质,植入阿里 IT 基因。
这些工作将阿里 IT 发展策略从依赖“商业软件”、到拥抱“开源软件”最终演变为拥有强大的自主技术和云计算服务能力,更为 2009 年“阿里云计算有限公司”的成立埋下伏笔。2011 年 7 月 28 日,阿里云自主研发的“飞天“云计算平台开始以公共云计算服务的方式对外提供云计算商业服务。灵活的 IT 支撑起阿里集团的业务闪变,并在淘宝、支付宝等核心业务之外,勾勒出了新的极具潜力的盈利模式——云服务。
2012 年 10 月,阿里云开发者大会上,王坚曾宣称:“阿里云能在 24 个月内实现收支平衡。”10 个月过去了,在接受《商业价值》采访时,他依然坚持这句承诺。作为阿里巴巴在 IT 领域的触角,“阿里云”的未来充满了想象。
与此同时,王坚最初提出的“去 IOE”的想法,一天都没有停止过。甚至,阿里巴巴的“去 IOE”运动引发了大型企业 IT 底层建设的新思潮,也使 IBM、Oracle 等国外大型厂商在中国倍感转型压力。
“平台、金融和数据”是马云承诺阿里集团的三大业务,阿里集团的 IT 格局支撑起这三大业务的发展;“阿里云”则成为阿里巴巴延伸向更多中小企业的重要 IT 触手。带着对阿里巴巴 IT 布局的探究,《商业价值》出版人刘湘明在杭州阿里云总部与阿里巴巴首席技术官、阿里云总裁王坚展开对话,ITValue 将以连载的形式通过四篇文章完整展现。
【连载一】
王坚:我为什么反对有些企业的“去 IOE”运动?
在阿里巴巴首席技术官、阿里云总裁王坚的办公室有一面墙摆满了书,《丰乳肥臀》、《史蒂夫·乔布斯传》、《分布式系统原理与范型》这三本被摆放在右侧第三排上。
用这三本书来概括王坚似乎也很合适。工程心理学出身的王坚,用魔幻现实主义色彩带领着团队,所有的阿里云产品在内部被冠以传统神话中神的名字:阿里云的核心技术引擎被命名为“飞天”,一位亲水的神仙;协同调度系统称为“女娲”;“分布式文件系统”叫做盘古等等
从 2008 年 11 月加盟阿里集团开始,王坚在集团首席技术官和阿里云总裁角色之间不断转换。办公室里整墙贴满“云 OS”效果图,与团队在办公室旁的“钟馗道-争端解决室”开会到深夜已成常态,王坚有着产品经理敏感执着的特质。
在王坚眼里云计算是一场革命,是一场用服务颠覆传统软件硬件时代 IT 建设旧思维的革命。王坚这样概括“去 IOE”运动和阿里云之间的关系:“去 IOE”彻底改变了阿里集团 IT 架构的基础,是阿里拥抱云计算,产出计算服务的基础。“去 IOE”的本质是分布化,让随处可以买到的 Commodity PC 架构成为可能,使云计算能够落地的首要条件。
从“去 IOE”到拥抱开源技术,从整个集团的 IT 支持到阿里云未来发展,这些都使王坚有了几分神秘的色彩。在 ITValue 社区(中国最大的基于知识分享的 CIO 人际社区) 会员通过发帖和微信交流群对王坚展开提问,王坚认为:“与 CIO 的交流将成为阿里云竞争力的来源,是中国的用户在把云计算推到一个新高度。”
Q:为什么“IOE”对互联网企业的发展是—个问题?“去 IOE”和开源对 IT 团队的技术储备有多高要求?(by 博士伦中国公司 IT director 汪华)
A:不同的人在理解“去 IOE”的原因是不一样的。我最怕将“去 IOE”的原因归结到两个极端:一是单纯变为企业成本问题,二是简单地变成一个是否用国外产品和技术的问题去讨论。成本降低是“去 IOE”最先能够看到的,但最根本的原因是在互联网时代,不只是互联网企业,绝大部分企业对计算需求难以通过 IOE 提供的技术来满足了,IOE 约束了企业长远的发展;技术路径上依赖于专用的硬件设备比较危险,随处可以买到的 Commodity PC 的架构长远来讲对于阿里和大多数企业则是最安全的。对于成本,我想说今天所有讲的开源技术只解决了软件使用成本的问题,而忽略了开源软件的升级和维护成本。
理论上只要计算能力够,“IOE”就一定能去掉!但实际上“去 IOE”这件事有技术挑战和风险。对绝大多数企业,“去 IOE”不是简单改变软件和硬件本身,用新的软硬件取代旧的软硬件,而是用新的方式取代旧的方式,是用云计算彻底改变 IT 基础架构。
“IOE”是软件时代或是“买计算机”时代的产物。在云计算时代,则变成买“计算”的时代,“去 IOE”最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。这是一个行业的变化而不是策略的选择,这件事情的挑战是你心里是否接受所谓的“私有云”的消失,从信任传统软硬件厂商到信任云计算是一种安全的服务。
Q:是否有一天企业都采用开源,而且没有软件供应商只有服务供应商时,IT 建设的一些困难才能够解决?(by 宁波方太厨具有限公司 CIO 邴哲)
A:我想从阿里集团自身技术的发展解释这一问题。阿里的技术发展从主要依靠商业软件、到开源再发展到更多的自有技术或是说云计算。
阿里最早依赖商业软件,从拥有 20 多个节点的 Oracle RAC 数据库集群(当时是亚洲最大),到成为开发使用开源软件 MySQL 最好的企业之一,到研发自己的关系数据库 OceanBase,也已用在了不同的业务场景。从用 Oracle 做处理数据,到用 Hadoop 集群(是业内单个机群节点数最多的 Hadoop 机群),再到用自己飞天平台上的 ODPS。这样的演变路径也表明:商业软件、开源软件跟自有技术永远是一个搭档,对于不同企业来说,只是百分比的问题,对于大的互联网企业来说自有技术变得非常重要。阿里巴巴的许多自有技术,如飞天的核心平台通过云计算的方式开放给别人,所以云计算是适合许多企业的另一种方式。我相信在未来,对大多企业来讲,云计算平台+自有技术+开源技术会变得越来越重要。
在很多场合大家习惯性的把开放直接等同于开源,其实开源不是开放的唯一手段,在互联网时代,云计算是一种新的开放形式。在许多业务和应用场景下,与云计算相比,开源未必是最好的手段。开源软件还是软件,开源软件本身是伴随着软件时代的产物,仍然需要较大成本投入在维护和升级。今天云计算的发展得益于开源软件的发展同时云计算的出现对开源软件的应用也会有冲击,例如当云计算提供了关系数据库服务时,你就要考虑是否还要购买或使用商业数据库软件或开源数据库软件。阿里云和 CODE.CSDN 及开源中国等机构的合作,也是希望开源社区和技术与云计算能更好融合,共同服务好用户。
在互联网时代,运行在数据中心里的软件面临运营的挑战,复杂度很大。从使用软件(包括开源软件)到运营数据中心里的软件是一次根本的变化,大部分企业还没有这种服务能力,社会的分工也不能要求每个企业都去做这种运营。云计算给了企业一个机会,企业不需要买软件,就可以享受最好的服务和计算能力。这就是为什么在互联网时代,云计算平台+开源软件+自有技术会是一个基本格局,传统靠收许可和服务费的商业软件会越来越没有市场。
Q:阿里云、天猫和淘宝的技术体系是怎样的?在去 IOE 过程中,他们是如何协同?(by 中国南方航空公司技术总监龙庚)
A:支付宝、天猫和淘宝、阿里云的实际技术应用确实有所不同,我们也一样会遇到所有公司都会遇到的挑战,但我们很幸运的是阿里巴巴整个技术体系是协同在一起的。
阿里整体技术的协同效率可以用几个关键的事例来说明:第一是在“去 IOE”过程中逐渐建立起对技术方向的认同和协作,当淘宝刚开始做这件事的时候,没有技术、产品和业务等各团队的相互协同,这是一件不可能的事;第二是在 2011 年,阿里集团所有的技术后台运维和运营部门都集中在首席技术官下面,成立统一的技术保障部,原来在不同子公司和事业部的人,从工具到理念都需要融合,结果表明这样对适应集团业务的快速发展和变化是很成功的,并且能够用这样的方法驾驭大型互联网企业对技术服务的挑战。这一过程中,我们经历的技术和组织的挑战与付出的学费可以为其他企业的借鉴。第三则是业务驱动的技术协同,淘宝“聚石塔”、支付宝“聚宝盆”等业务,都是在业务驱使下使得各自客户的 IT 系统运行在了阿里云“飞天”平台上,它是一种自然协同的结果。
Q:阿里云如何消除用户对云计算安全的忧虑?用户访问速度如何保障?有无简单的退出机制和迁移工具?(by 州逸酒店和度假村集团副总裁朱明生)
A:安全忧虑的本质是信任问题,信任问题唯一可以解决的方法是靠透明,阿里云欢迎所有 CIO 来挑战云安全问题,透明真的是唯一的方式。在一次工信部召开的全国各省通信管理局负责人的会上,我也讲,我们有强烈的需求让政府监管我们!我们可以想一个方法,从你们的 CIO 俱乐部开始,制定一个很透明的机制,阿里云愿意被监管。
用户访问速度涉及两个方面:一个是互联网本身的速度;另一个是服务响应速度。今天我们的云计算服务解决了不同运营商互通互联的问题,互联网本身的速度是足够满足需求的。但应用服务的架构也会影响到响应时间,这需要技术的改进。很多人把服务和应用搬到云上来,是直接把原来的架构搬上来,这就需要我们和企业一起努力解决的问题。
关于退出机制,今天我们的很多客户是从亚马逊搬来的,同样也有客户因为不满意我们的服务搬到别处去了。云计算是有黏性的,但今天是一个开放竞争的环境,没有人有能力画地为牢。我们也提供相应的迁移工具,只是任何迁移都是有成本的。我认为这可以和信任问题一起讨论,需要大家的共同规范。
(未完待续,此文吴以四、李静怡亦有贡献)