Intel 数据中心软件部首席架构师陈奇:IntelHadoop 助推大数据社会" />
Intel 数据中心软件部首席架构师陈奇
“IntelHadoop 是一个开源技术,Intel 利用自己的力量改进了版本,这些改进会放到开源的社区,希望相互的开放式的结构不光是为程序员作贡献,为整个社会也作贡献,数据社会就需要交互,不是封闭的。”
陈奇现场讲话 实录:
大家对英特尔很熟悉。 首先讲到英特尔,他们肯定会想到 CPU,它主要是开放架构的。听了我的讲座,你可能就会记住 Intel Hadoop。 英特尔不光会做 CPU,不光会做硬件,特别是在大数据这个领域,更想建立 Hadoop 的基础架构,叫 Intel Hadoop。前面讲的智慧城市,物联网,云计算等等, 都会产生巨量数据。这些数据怎么存储,你怎么从数据中挖掘出你所想要的这些东西,最终怎么解决这些命题, 都是我们今天要讲的基础架构可以帮助实现的。我们前面讲到过各种各样的技术演变,结果就会产生各种各样的价值。
我的题目叫 Hadoop,可能有的人不熟悉 Hadoop,前面有的人也谈到 Hadoop,我现在不谈 Hadoop 做什么,是谈 Intel 在这个领域是不是可以加上 Intel 的标签,这个我们在国内已经做了,而且做的很成功。
我们这个会议主题是数据社会,可能不谈你的数据量有多大,现在谈的更多的是大数据,谈到大数据,就是这些数据怎么存储,怎么被利用。以前就是简单的数据存储,现在这些数据是不是要进行一些挖掘。就是你的数据能不能预测将来,不是说你们的数据能够帮助你预测你的命运,但是我现在要是说的是利用 Intel 的基础架构,利用我们的技术帮你做一些想要做的事情。我们国家谈论城市的城镇化,城镇化不光是土地面积有多大,城市扩展有多大,更讲得是一个智慧城市。
智慧城市也会产生各种各样的数据,我前面提到智慧城市,云计算都离不开数据。前面有位嘉宾提到,比如你在工厂里面做工,老是放着摄象头来监视你。这些摄像头就会产生大量的数据与视频,你不能靠几十个人 24 小时目不转睛地盯着屏幕看, 这就需要 Intel Hadoop 来帮你完成实时的分析,预警。我上次去一家很大的半导体公司,它关心的是员工会不会把数据偷出去给第三方,这也需要很好的数据挖掘, 也需要我们的开放架构。在我们国家,不管是智慧交通,城市安全监控,我们在硬件上还是做的比较好的,因为我们装了很多摄象头,这些摄象头的数据怎么被利用,政府要关心,我们公民也希望可以享受到它带来的交通便利,智慧管理,这就更需要我今天讲的 Intel Hadoop。
我之前举了一个例子,像电信业,中国的人口非常多,一般的电信公司每月会产生 30T 的记录。很多人用 3G 上网,你的手机流量怎么算,这个年轻人比较关心,是不是到国外去一趟,产生一万块钱的帐单。如果你跟大公司打交道,他们给你提供很好的便利手段, 让你随时随地知道你的手机流量,同时也让公司知道用户的使用习惯与喜好, 这就是个双赢的局面, 是非常方便的。这就是我们正在帮这些公司做的,也很好地利用了我们提供的开放 Hadoop 平台。它的数据量很大,首先它存在那儿,这些数据能帮你做什么,我们就提供了各种各样的工具,最重要是我们提供了一个基础架构,这个基础架构是个开源的架构,就是开放的架构,叫 Intel Hadoop。随着互联网的发生,想到大数据就会想到一个重要的架构,就是 Hadoop。
Hadoop 运营在开放平台上,是个开放的分布式的系统,它是用比较廉价的制式,而不是价格很贵的制式。我三年前跟他们说 Hadoop,很多大型企业不知道什么叫 Hadoop,但是这几年,包括银行、电信、制造公司等等这些点名说我们需要用这种技术。大数据在我们国家也成为一个战略决策,当然,要响应这个战略决策,要有一个基础架构,开放式的平台,这个开放式的平台不是以前数据库的平台,更多是 Hadoop 的平台。
Hadoop 是跑在 Intel 的 CPU 上,但是因为它是刚刚出现的技术,Intel 希望把它做的更好,同时让 Intel 的硬件更好的发挥作用。这是一张预测表,就是 2017 年运行 Hadoop 的 Intel Xeon 处理器的数量。这里讲的是 Intel Hadoop 的基础架构。
当讲到你的数据存储时,得考虑到它的安全性,这方面 Intel 有自己的特点,在 Hadoop 的平台上进行了很大的改进,然后是数据的管理等等方面的改进。然后就是架构上的提速,Intel 提倡的是开放的架构。现在提到大数据,都会想到的是 Hadoop,这也是一个实实在在的架构。 不像云计算, 没有统一的架构, 云里雾里。 Hadoop 确实一个很实在的标准开放架构,Intel 也希望在这个实实在在的架构里面发挥它的作用。Intel 还有各种各样的大数据解决方案,不光是架构上发挥它本身硬件的作用,在更深更广的层面上利用自身的软硬件优势,可以帮助我们实现大数据,更好、更快、更正确的分析这些你想要的东西。
Intel 所做的贡献,它进行改进产生的结果是什么?首先是 Intel 在 CPU 上可以说是独当一面,用 Intel 的 CPU 可以提升 50% 的性能,Intel 有它自己的技术,把硬件技术结合在软件技术上。所以用 Intel Hadoop 将会有 50% 的性能提升。还有就是 Intel 在存储上的加速。再有就是 Intel 在大数据的存储、管理这个方面的改进,特别是利用 Intel 的硬件可以提高性能。现在市场上有各种各样的技术,谈到大数据的时候你想到的一个标准技术就是 Hadoop。Hadoop 是一个开放的平台,但是原始的平台并没有很好的利用硬件的特性,Intel 在硬件的特性上有独特的优势,对现有的平台结合硬件进行了改进。 举个例子, 处理 1T 的数据,用原始的开放 Hadoop 平台,一般是四个小时, 但如果你用 Intel Hadoop, 只需要几分钟时间, 这就是 Intel 对这种开放平台的贡献, 在 Hadoop 平台上贴上了 Intel 的标签。Intel Hadoop 是基于开放架构,Intel 利用自己的力量进行了改进,这些改进会放到开源的社区,希望相互的开放式的结构不光是为程序员作贡献,为整个社会也作贡献,数据社会就需要交互,不是封闭的。这个是 Intel 在大数据领域,特别是在企业界应用最广的基础。Intel 在硬件上是独当一面,在开放架构上 Intel Hadoop 国内被应用的程度也是最广的。另外,Intel 利用软件和硬件相结合,保证它很可靠的运行。因为这种大的企业,并不是互联网的企业,首先考虑的是数据的安全性、可靠性,然后是你性能的提高。
Intel 是一家提倡开方式架构的公司。当然 Intel 不光是一个软件公司,也是一个硬件公司,Intel 希望更好的成为开源软件的公司,就是与开源软件相结合,这张图里面有各种各样的与 Intel 合作的公司。Intel 并不是他自己的力量在做,Intel 更多靠的是自己的合作伙伴,这些合作伙伴当他们出去,比如他们研发一些大数据技术,或者应用这些大数据工具,他们会首先想到 Intel Hadoop。
我今天基本上讲的是这些,因为讲的不是技术东西,主要让大家知道提到大数据的时候,大家就会想到 Hadoop 的技术,想到 Hadoop 的技术,就会想到 Intel Hadoop. Intel 在这方面有它的领先优势,对 Hadoop 的技术进行了很好的改进,然后慢慢就会主导 Hadoop 的市场,所以说以后你可能看到随着 Hadoop 的应用越来越广泛,Intel 版本的 Hadoop 将会被最广泛的应用。基本上我们现在活跃度和应用已经非常广了,谢谢大家!