知识点
ZB是多少?
Zettabyte(泽字节)这个概念对普通人来说可能有些陌生,我们可以这样换算:1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB.....
So,如何应对这个问题?嗯,又是一个「大」工程,不过也挺简单,多生产点大容量硬盘,把所有这些数据都存储进去,大数据其实也挺简单嘛。对此,只能说:
首先必须明确一点:我们为什么要斥巨资买那么多大硬盘,存储那么多数据?难道仅仅是为了满足老板的「数据囤积癖好」?并不能!重点在于,存那么多数据,还是为了能从中有所收获的。
例如,母婴用品公司的销售额,与新生儿数量有直接关系,这谁都知道,但这是否与不同地区的经济发展趋势以及相关政策的变化有关?
市政府想要改善交通状况,可人员最密集的热点地区,人们都是从哪里来的,来这里做什么,如何进行合理规划实现分流?
科学家使用大型强子对撞机之类的设备每秒钟就会产生上亿次对撞,如何从中找出一两个可能是自己需要的结果?
答案很简单:需要对各种数据进行分析!So,新的问题来了:数据分析处理问题该如何解决?继续依赖现有数据库技术?别忘了,传统的关系型数据库技术只擅长处理结构化数据,而目前企业里 85% 的数据都是非结构化的。
知识点
结构化和非结构化数据,分别是什么?
结构化数据:可以用二维逻辑的形式来呈现的行数据,如 Excel 表格或 SQL 数据库中的数据。
非结构化数据:无法用二维逻辑的形式呈现的数据,如 Word 文档、图片、音频、视频。
解释到这儿,其实小编想说的是:我们需要一套有效、有用的「大数据」解决方案,对于这种解决方案来说,装下足够多的数据只是第一步,在此基础上,还要能用简单快捷的操作及时分析海量数据,在足够短的时间内得出我们想要的结果!也就是说,这样的解决方案必须能同时满足下面的需求:
→可以同时处理结构化、非结构化、甚至半结构化,各种类型和来源的各类数据;
→可以高效率地容纳并妥善存储极为大量的数据;
→必须具备极高的扩展性和可靠性,以便应对不知道什么时候会面临的数据「大爆炸」;
→必须能用各种技术对这些数据进行各种复杂的分析,进而给用户提供所需的见解;
→进行上述分析时速度必须足够快速,提出问题,等一年才能给出答案的解决方案是不行的;
→必须简单易用,不仅具备专业技能的数据科学家,最好是普通用户也能无障碍使用;
→当然,好用、实用、易用、有用的同时,越便宜越好咯。
亲,要求辣么多?有点强人所难了吧!
你可以试试这个现成的解决方案
北京红象云腾(Redoop)系统技术有限公司是一家创立于 2013 年的 Hadoop 大数据解决方案提供商,致力于工业大数据和基于数据处理的机器学习解决方案的开发。
通过与微软的合作,红象云腾利用基于 Azure 云平台和 Hadoop 技术,推出了红象大数据快速部署平台(CRH)平台,并通过 Azure Marketplace 进行发布,将大数据平台推向大众。CHR 平台是为公有云集成的一套完整的大数据开发平台,产品完整涵括了集群管理和调度、企业cangku.html" target="_blank">数据仓库、数据集市、实时计算、数据挖掘和数据查询等领域,可以帮助用户在云平台上快速便捷的构建大数据应用,快速探索和发现数据的价值。
Azure+Redoop
是如何应对上文那些挑战的?
大数据解决方案面临的一系列挑战,Redoop 通过基于 Azure 构建的大数据解决方案是如何解决的?
→高度集成的 Hadoop 平台:一个整体的云端数据存储和计算平台。大量 Hadoop 生态工具在 Azure 的无缝集成使不同业务可以集中在一个平台内完成,利用 Azure 提供的 Resource Manager 提供统一的资源调度,智能分配集群中 CPU、内存等,充分利用计算资源。
→计算能力自动缩放:基于集群 CPU 使用量需求情况,通过和 Azure 提供的界面自动启动新节点,通过 CRH 提供的 Rest API 启动计算节点服务。在资源闲置情况下自动伸缩,节省成本。
→多数据分析平台:通过不同的计算框架实现业务运营最优化。例如:针对批处理的 MapReduce 计算框架、针对交互式查询的 SparkSQL 内存查询引擎、针对内存以及流计算的 Spark/Storm 框架、针对机器学习、数据挖掘等业务的训练测试模型等。这些框架都通过 Azure 底层对大数据平台良好的支持性实现。
→增强的数据安全及审核技术:在微软 Azure 高度安全且具备多项合规性认证的云端环境中,利用 Kerberos 提供统一的认证、授权等技术,充分保证大数据平台的安全。
→高度可管理性:结合 Azure 平台所提供的高可用性、高容错等特性,结合自动化数据备份,进一步提升了 CRH 的自愈性。端到端的图形化管理工具提供直观的管理、诊断、监控、集成等功能,保证企业的大数据平台可靠运行。支持通过图形化的管理工具实现大数据平台的部署和管理,配合主动诊断及支持服务,一目了然的图形化面板,确保系统稳定运行。
强大如此的大数据解决方案
也能这样平易近人
基于 Azure Hadoop、Azure Storage、IoT 技术构建的红象云腾 CRH 一键部署大数据平台解决方案,为企业客户和自身带来了众多收益:
大数据应用一键部署,优化客户体验
解决大数据平台选型问题,帮助用户在 Azure 云平台上一键部署快速便捷的构建大数据应用,快速探索发现数据价值,同时让「高大上」的大数据变得越来越平易近人。
用更短时间和更低成本满足客户需求
Azure 大幅降低了红象云腾的研发及客户采纳、部署成本,无需基础设施、大规模计算和存储硬件,以及网络投入,也无需考虑数据增长需求,缩短交互周期,提升交互效率,降低硬件成本和运维难度与成本。
提升国内外客户的品牌认同,促进战略发展
随着红象云腾加入 ODPI Linux Foundation 等多个国际化技术组织和社区,其全球化大数据战略的发展目标逐渐显现,利用 Azure 这一开放灵活的公有云平台和微软在全球的良好声誉,为全球其他国家的客户提供数据后端处理和大数据分析解决方案,为国际化战略抢占先机。
借由 Azure 平台的技术支撑,红象云腾大数据快速部署平台已登录 Azure 镜像市场!只需简单点击鼠标,便可在自己的 Azure 订阅中迅速部署一套功能完备的大数据平台解决方案,用最低投入、最快速度上线大数据平台。
立即访问http://market.azure.cn