刚刚宣布放宽计算及内存限制,Aster 提供R语言分析能力之后,Teradata 迅速出手,宣布由 Teradata 实验室收购了 Revelytix 和 Hadapt。前者主要致力于 Hadoop 上的数据管理,而 Hadapt 则是一家专注 SQL-on-Hadoop 的公司。显然,Teradata 构建统一数据架构方面正在加速奔跑。
构建统一数据架构
事实上,结构化数据和非结构化数据通过传统的 SQL 分析和新的分析算法(时间序列、路径、图和文字)正在产生新的价值。为了最高效率、最优存储、分析和应用的成本,大数据的技术链条正在分层。在 Teradata 天睿公司大中华区大数据事业部总监孔宇华的分析中,统一数据架构可以分为三层:Teradata 整合cangku.html" target="_blank">数据仓库、以 Aster 为主的探索分析平台,以及以 Hadoop 为主的数据平台 。
Teradata 天睿公司大中华区大数据事业部总监孔宇华
Hadoop 自然是为了实现快速数据加载和获取,数据过滤和预处理以及在线归档;Aster 则是数据发现、快速假设校验和试错、模式监测,实现路径、图、时间序列分析;Teradata 数据仓库是实现战略智能、预测分析和操作型智能。
这也是业内比较认可的技术分层模式。通过三个平台的整合,来满足更多行业深入的数据分析需求。
以医疗行业为例,要实现对病人住院情况进行分析,需要在数据平台上复查住院治疗数据,并通过运用 Aster 中的时间序列路径函数,聚集函数以及 Sigma 值函数,识别一个病人从住院到出院的所有治疗程序以及为其提供医疗服务的医生,进而在 Teradata 中生成时间、地域、交叉、医疗效果等可视化分析图谱。而通过对美国一家医院肺炎患者的相关分析并指导业务改进,“降低了 10% 的住院时间,节省了 5000 万美元”。孔宇华表示。
同样可分享的案例还有运营商、银行、零售、电商、高科技制造等。而回到技术上,整合数据仓库,无论是在共享相关性、一致性和整合数据,还是快速部署新应用,形成业务视图等方面都较为成熟。与之相对应的是,最有技术挑战的是数据平台和探索平台。
在 Hadoop 基础上发挥 Aster 优势
这两者在技术发展上有重叠,也各有侧重。对 Teradata 而言,就是如何有效利用 Hadoop,并在其上通过 Aster 实现挖掘和分析。
在孔宇华看来,Aster 和 Hadoop 同样是 MPP 架构,但在存储,运算引擎以及界面方面都有较多的差异,这决定两者所擅长任务的差别(如图)。
在 Hadoop 基础上进行创新并不鲜见。但能够在企业级市场拥有如此多引擎的并不多。Aster 的优势就在于此。以 Aster SQL-Graph 引擎为例,相比 Hadoop Giraph 或者 Google 相关产品,Aster SQL-Graph 的优势在于:
图并行架构
通用目标的 BSP 框架无内存绑定,高可扩展
易于开发使用的 APIs
面向顶点编程的 API构建用户自定义图函数的 SDK 和 IDE
预定义的图函数
开箱即用的函数,适合图并行执行
和现有平台集成能力
和 Aster 关系存储、文件存储、外部数据源的
数据一起工作
和其它分析引擎集成 (SQL, SQL-MR)
其它企业服务
突破开源R语言的限制
不止如此,Aster 对R的支持已经进入企业级标准。这与趋势相符。Rexer Analytics 咨询公司调查显示,70% 的调查对象称他们正在使用R语言。数据显示,从 2010 年开始到 2013 年,使用R的人群是陡然剧增的。
但R也有不得不面对的挑战。如R分散于各节点或各服务器,各节点或各服务器单独运行,尽管有利于行的独立分析处理,例如模型评分,但并不利于分析功能所需要的所有数据,例如模型搭建等。要突破开源R语言的限制,整合 Aster 和R,实现企业级分析需求,需要更多技术优化:
孔宇华表示:“Teradata Aster R 以软件数据包形式,实现开源R语言的大规模并发,这对数据分析人员而言,更具优势。”
从 Hadoop 中读取数据,在 Teradata 数据仓库或 Teradata Aster 数据库中智能地运用多种异构处理引擎的功能进行数据分析,形成可视化报告,进而带动业务洞察和创新。这个技术架构已经极为流畅,对 Teradata 而言,更重要的挑战是如何尽快在更多行业落地,驱动数据分析变革。