即使强如谷歌,短时间内也无法从 Nvidia 口中夺过 AI 硬件市场这款肥肉。
图形芯片制造商 Nvidia 的股价在过去一年时间里翻了三番,其 GPU 如今已经成了 AI 领域最受欢迎的深度学习主流平台。Nvidia 的 GPU 原本是为生成电脑游戏和仿真图形而设计的,如今却被用来处理拥有数百万条数据的,大型深度学习网络训练中的密集计算部分。
上周 Google 在其年度开发者大会上,推出了第二代 Tensor 处理单元——Cloud TPU。据雷锋网(公众号:雷锋网)了解,这是一款用于加速 Google 使用的深度学习数学模型的定制化芯片。Google 于两年前将第一代 TPU 引入了它的服务器基站,并于去年正式对外发布。第一代 TPU 只能处理深度学习的推理部分,运行已经训练有素的模型。Google 表示,Cloud TPU 比 Nvidia 的商用 GPU 更适合用于深度学习训练。
据了解,Google 希望未来能够通过 Google Cloud 向其他公司提供其 AI 硬件。此外,Google 还计划为开展公开 AI 研究的研究人员提供 1000 个 Cloud TPU。不过,这些 Cloud TPU 的真正用意,似乎是为了增强 Google cloud 的具竞争力。在云服务市场,亚马逊和微软两大巨头已经将 Google 远远甩在了身后,Google 不得不全力寻求差异化竞争。
Cloud TPU 对 Nvidia 的影响的是双重的。一方面,Nvidia 目前在 AI 硬件这片新兴市场仍占据着主导地位,Cloud TPU 则给了开发者更多的选择。另一方面,Google 上周发布 Cloud TPU 时透露,其公司内部仍然很依赖 Nvidia 的 GPU,而且其云服务也将支持 Nvidia 的下一代 GPU Volta。
综合考虑,我认为 Google 未来在 AI 硬件市场将遭遇严峻挑战,主要原因有二:
Cloud TPU 的局限性
首先,Cloud TPU 将用户锁定在了 TensorFlow 框架以及 Google Cloud 云服务中。
伯恩斯坦研究公司高级分析师史蒂西·拉斯贡(Stacy Rasgon)说道:
“如果你使用的是 TensorFlow 框架,那么 Cloud TPU 很棒。但如果你不想使用 TensorFlow 框架呢?Nvidia 的优势在于你不会被它的服务锁住,这一点很重要。”
Nvidia 的 GPU 在 Google、亚马逊、微软和 IBM 等主流云服务厂商的云端都是可用的。开发者们可以根据自己的喜好自由选择,并随时更换云服务厂商。此外,Nvidia 还对其硬件进行了优化,能够运行 Caffe、Torch 和 PaddlePaddle 等多种深度学习框架。AI 市场目前还很年轻,谁也不知道哪种框架会最终胜出。因此,将自己束缚在 Google 的 TensorFlow 框架中,对任何一家公司来说都是冒险。
AI 创业公司 Clarifai 的创始人兼 CEO Matt Zeiler 表示:
“很明显,Cloud TPU 是 Google 吸引你使用 Google Cloud,并将你锁定其中的一种策略。”
虽然学术圈可以免费使用 Cloud TPU,但只能使用 TensorFlow 框架这一限制,使其魅力大打折扣。加州大学伯克利分校副教授 Alexei Efros 在一封电子邮件中说道:
“对我们而言,使用 Cloud TPU 的最大阻力就在于它只能运行 TensorFlow。因为我的实验室中用到了很多不同的软件包,PyTorch 似乎最受欢迎。Nvidia Titan X 目前仍是我们的主力平台,至于未来,我们拭目以待吧”。
即便对于那些已经全面采用 TensorFlow 的创业公司,阻力依然存在,那就是如何获得 Cloud TPU。AI 创业公司 Bonsai 的联合创始人兼 CEO Mark Hammond 表示:
“我们的项目建立在 TensorFlow 框架之上,因此 Cloud TPU 肯定是我们正在探索的。任何使 AI 基础架构更好、更快、更便宜的事物,都是 Bonsai 和 Bonsai 的客户乐见其成的。”
Google 不出售芯片
Google 的另一大软肋在于,它不会像 Nvidia 那样直接向客户出售芯片。Zeiler 表示,很多深度学习创业公司都喜欢用自己的硬件训练,因为在云端存储大量训练数据的成本可能非常高昂。比如 Clarifai 就选择购买 Nvidia 的 GeForce 游戏显卡,在自己位于新泽西州的数据中心训练神经网络。Zeiler 说道:
“我们之所以使用自己的硬件和 GPU 训练,就是因为它成本更低,尤其是考虑到我们拥有庞大的实验量和数据集。”
Nvidia 的真正竞争更可能来自芯片公司。目前,数十个 AI 芯片创业公司正冉冉升起,英特尔甚至为了收购顶级芯片创业公司 Nervana,耗资超过 4 亿美元。
Zeiler 表示,随着时间推移,TPU 可能会影响到 GPU 市场,但影响力不仅仅来源于 Google,毕竟其他芯片制造商不会干坐着。
AI 芯片创业公司 Cerebras systems.html" target="_blank">Systems 的联合创始人兼 CEO Andrew Feldman 认为,Nvidia 最大的问题在于,GPU 是为生成图形而非处理 AI 算法所设计的。Feldman 说道:
“我不认为 GPU 很适合机器学习,它只是比英特尔的 CPU 更好而已。不过 GPU 在过去 25 年间针对不同问题进行了优化。”
Nvidia 也意识到了这一点。因此它在最新的图形芯片架构中加入了专门的 Tensor Cores 计算核心。Tensor Cores 针对利于深度学习操作的数学运算进行了优化。有了 Tensor Cores 之后,Nvidia 的 GPU 越来越像专业的 AI 处理器了,而不仅仅是用于生成图形的工具。Nvidia 加速计算副总裁 Ian Buck 说道:
“你将看到我们在 GPU 中增加更多的 AI 功能以及专业化功能。”
对于 AI 领域日益激烈的竞争,Nvidia 表示,现在市场增长太快了,每家企业都有存在的价值。Buck 说道:
“我认为这是一个爆炸式增长的市场,每个人都有发展的空间。”
via forbes