Facebook 再次颠覆了数据中心基础设施管理的传统理念,将过去相对独立的机房设施和服务器硬件数据纳入统一的管理软件。
还记得 2012 年 6 月底的“闰秒事件”吗?当时网络上关于 Java、Hadoop 和 Apache Cassandra 数据库等技术的闰秒问题吐槽声不断。包括 Reddit、Foursquare 等大型网站纷纷中招,Facebook 服务器 CPU 使用率瞬间升至 100%,耗电量瞬间飙升,导致 Facebook 位于弗吉尼亚数据中心的断路器发生故障,结果 300 个机架宕机。
一个不起眼的闰秒问题给互联网带来的实质性冲击远远超过 Y2K 问题!
而对于 Facebook 的工程师来说,从闰秒问题能吸取的最大教训就是考虑开发出能整合第三方建筑管理软件和 Facebook 自主开发的服务器性能监测工具的新型管理软件。
Facebook 网站运营副总裁 Tom Furlong 最近在接受媒体采访的时候透露,Facebook 最新的数据中心管理软件能够将温度、湿度等户外信息与整栋建筑的能耗,以及 CPU 存储和内存方面的数据进行综合分析和管理。
过去几个月中,Facebook 推出了新版本的数据中心基础设施管理(DCIM)项目,以及一个全新的集群规划系统用于将所有数据都可视化。Facebook 计划今年内更大范围地推广其 DCIM 项目。
Facebook 新推的数据中心管理软件可以减少工程师设计数据中心性能优化方案的时间。“从过去的 12 小时缩短到半个小时”Furlong 说道。
与此同时,一体化的数据中心管理软件还能帮助 Facebook 进一步提高其数据中心的能耗效率,同时减少了新建数据中心的需求。
Furlong 预计 Facebook 将在明年 1 月的开放计算峰会上讨论一体化数据中心管理软件,但还不确定是否会像 Open Compute Project 的数据中心硬件设计一样向公众公开。目前的一体化管理软件中集成了很多 Facebook 自有的监控工具,而这些是 Facebook 所不愿意公开的。