资料图
阿里巴巴 11 月 6 日宣布,其大数据团队自研的实时数据计算平台 Galaxy ,目前每秒可运算数据超过 500 万条,预计双十一当天每秒运算量将超过 1000 万条,日处理消息数将超过 1 万亿条。针对每一笔交易数据,系统将实时反复检测 70 余次以保证数据质量。
一分钟成交破亿,一千多万人涌入天猫。这是 2013 双十一购物狂欢节第一分钟的战况。这些数据在杭州淘宝城内的数据大屏实时播报。大屏上跳动的每个数字,来自于阿里内部 60 多个系统间的紧密合作:当你在以最快速度秒杀到双十一热卖商品的同时,这些系统已经完成了无数轮的数据采集、传输、加工、计算以及反馈到页面的工作。这正是阿里未曾公开的技术--如何在保障数据质量的前提下实现实时计算?
Galaxy 是阿里巴巴自研的通用增量计算平台,能提供从分钟级别到秒级别、甚至毫秒级别延迟的实时数据计算能力。Galaxy 解决了计算通用性、开发成本、数据质量等诸多难题,并提供可扩展、规模化的集群服务能力。
目前,Galaxy 每秒可计算数据已达 500 万条,每日处理的记录数超过 2500 亿,日处理数据量近 2PB。想象一下:当你还在努力算出 1024×1024 等于多少时,这一秒钟内 Galaxy 已经拿到数据、计算结束、交出结果这一整套流程 500 万遍了。今年双十一,用户浏览、成交、手机 APP 等产生的数据量都将大规模增长。当天 Galaxy 的运算量预计每秒将超过 1000 万,日处理消息数将超过 1 万亿条。
阿里巴巴数据质量团队介绍:“Galaxy 不光要算得快,还得保证不能算错。”除了 Galaxy 之外,阿里研发了一套可以实时检测线上数据的系统,能够在 1 秒钟以内完成从数据产生到校验的过程,每笔交易可以实时建议 70 多次,以保障双十一的数据不会算错。
比如,一个美国用户在双十一活动下单,刚付完款,可能由于国际间网络突然闪断,导致"已付款"状态数据没有传输回来。这时,呈现给买家的可能就是"交易失败"的状态。但通过数据实时检测系统,能在这个问题被消费者发现之前就开始报警进行处理。也许,还没消费者回过神来,这个问题就已经被纠正,丝毫感受不到"交易失败"曾经出现过。
此外,Galaxy 还设计了数据"防漏"措施,哪怕服务器突然宕机,也能保障数据不丢失,快速恢复后继续工作。想象一下:如果在你跟朋友约好晚上看电影的时候,你突然发了一场高烧昏厥过去,正常情况下,要去医院才能治好,并且得休息好几天。Galaxy 不仅能自我修复,而且还能将时光倒回到那个晚上,你和朋友继续去看电影。
目前,Galaxy 已逐步支撑阿里集团绝大部分的实时业务和应用,包括淘宝、天猫、阿里云、菜鸟、聚划算、无线、搜索、广告、数据魔方等业务提供实时计算服务。