上线" />
9 月 4 日消息,企业级云服务商青云 QingCloud 近日宣布 SparkMR on QingCloud 服务正式登陆 AppCenter。SparkMR on QingCloud 集成了 Spark 与 Hadoop MapReduce 双计算引擎,提供统一的 HDFS 数据存储引擎及 YARN 调度系统,为用户提供灵活、高效、可多模式切换的全新云端大数据处理平台。
大数据时代,数据资源是企业的无形资产,也是核心竞争力之一。如何低成本、高效率地进行数据统一管理和分析,获得商业决策支持成为摆在企业面前的一道难题。大数据平台正是为了企业的这种需求应运而生并持续发展创新。青云 QingCloud 于 2015 年 8 月推出了基于 Spark 的大数据集群服务,同年 12 月,推出 Hadoop 集群服务作为大数据基础平台的有力补充,以此来满足企业在大数据领域的不同需求。
但由于 Spark 与 Hadoop 作为两个独立的服务,用户同时使用这两种处理引擎时,需要部署两套 HDFS,相同的数据需要加载并存放两份,无论是成本还是效率都不是最好的选择。从数据统一管理角度出发,青云 QingCloud 推出 SparkMR on QingCloud,通过 QingCloud AppCenter 以云应用的方式交付用户使用,对原有大数据平台的 Spark 与 Hadoop 服务进行了全方位的整合与升级。
目前,SparkMR 支持 Apache Hadoop 2.7.3 与 Apache Spark 2.2.0。Spark 和 Hadoop 两者结合后,成本会显著降低。同时,相对原大数据平台提供更丰富、更灵活的可选配置,用户可以分角色定制节点配置(CPU 2~16 核可选,内存 2~64GB 可选)。SparkMR on QingCloud 作为支撑全新双引擎大数据平台的重要组件,具有以下多重亮点:
计算模式:SparkMR 在底层提供统一的 HDFS 作为数据存储引擎,在上层提供 Spark 与 MapReduce 两种计算引擎,并提供 YARN 作为调度系统。用户可以实现三种不同的计算模式,即 Spark Standalone、Spark on YARN 和 MapReduce on YARN 三者之间的切换。
计算能力: SparkMR 为了方便用户开发 Spark 应用,除了支持 Java 和 Scala 开发之外,还提供了 Python 与 R 两种语言的运行环境。其中为 Python 用户提供了 Anaconda 发行版的 Python 2 和 Python 3,并支持在这两种 Python 版本间进行切换。同时,分别为这两个 Python 版本预置了多个 Anaconda 发行版的数据科学包,为数据科学和机器学习/深度学习等 AI 开发场景提供了强大的计算能力支撑。
集成能力:SparkMR 支持指定依赖服务的功能,即通过 AppCenter 2.0 框架内原生的应用感知机制,实现与其他大数据分析组件之间自动化的无缝集成。SparkMR 与 QingStor 对象存储平台也进行了预置集成,用户可以通过简单的配置即可开启对 QingStor 对象存储的支持,以应对海量大规模数据的存储问题。
调度策略: SparkMR 提供 Spark 与 YARN 的自定义调度器的功能,用户可以根据自己实际的需求,自定义集群内资源调度策略,赋予用户在多租户使用场景下更为精细化的管理能力。
服务定制:SparkMR 通过控制台提供近 60 个配置参数,用户通过控制台的 UI 操作即可完成集群部署及服务的个性化定制。比如用户可以通过 UI 即可完成设置 Hadoop 代理用户的功能。SparkMR 的 Client(客户端)节点也实现了完全的自动化配置,用户无需再单独创建并手动配置 BigData Client 或者 Spark Client。这意味着用户在控制台完成配置及服务定制后,在部署完成时,已经可以开始执行计算任务,真正实现了一键部署、即刻使用。
服务监控:SparkMR 提供了完善的服务级别分角色的监控能力,用户不仅可以看到常规资源层监控,还可以通过可视化的方式清晰了解整体服务的运行情况。同时基于服务监控,还提供了监控告警、健康检查和服务自动恢复等功能。