Apache 基金会近日正式发布了 Hadoop 2.2 版本,该版本是 Hadoop 2.x 分支中的首个稳定版本(2.0.x 为 alpha 版本,2.1.x 为 beta 版本),标志着 Hadoop 2 时代的正式到来。
Apache 建议用户升级至最新版本,因为这个版本更加稳定,并保持与之前版本 API 和相关协议条款的兼容。与 Hadoop 1.x 相比,Hadoop 2 的主要亮点如下:
- 新的 Hadoop MapReduce 框架 YARN
- HDFS 高可用性
- HDFS Federation(HDFS 联盟):使得 HDFS 支持多个命名空间,并且允许在 HDFS 中同时存在多个 Name Node
- HDFS 快照
- NFSv3 可访问 HDFS 中的数据
- 支持在 Windows 平台上运行 Hadoop
- 兼容基于 Hadoop 1.x 构建的 MapReduce 应用
- 大量针对生态系统中其他项目的集成测试
此外,从 Hadoop 1.x 升级到 2.2 需要注意以下事情:
- HDFS 社区建议将 symlinks 功能从 2.3 版本中移除,目前该功能已停用
- 在新的 YARN/MapReduce 中,用户需要更改 ShuffleHandler 服务名称——需要将 mapreduce.shuffle 改为 mapreduce_shuffle
详细信息:Hadoop 2.2.0 发行说明
官网:http://hadoop.apache.org/