BI 中文站 7 月 31 日报道
每隔一段时间,我们就会听到一些流行术语,如 CRISPR 基因组编辑技术、虚拟现实(VR)和机器学习(Machine Learning)等。由于曝光过于频繁,人们很容易对其失去兴趣。
CRISPR 可能改变我们的生活,但我们没必要知道它的工作原理。VR 最终或胜过当前的所有媒体,但其苛刻的硬件需求使之真正走进我们的日常生活尚需时日。
但请不要忽略机器学习。没错,机器学习能帮助我们开发一些奇妙的应用,但这还不是我们应该关注它的主要原因。
我们应该关注机器学习,是因为它是谷歌、Facebook 和亚马逊正在钻研的技术,而这三家公司正是推动全球科技产业向前发展的先锋。即使这些公司只能开启机器学习的一小部分价值,也会在很大程度上改变全球科技产业。
要了解机器学习的影响,让我们先探讨一下机器学习的属性。(下文中,我们会用到“机器学习”和“深度学习”两种说法,两者可以互换。)
机器学习让一切有章可循
机器学习(或深度学习)的目标是让一切有章可循。这一点我们在今年 1 月曾探讨过:
简而言之,深度学习就是以计算机的规模进行人类识别。创建一种算法的第一步是为一个程序提供大量的数据,而这些数据是经过人类整理的,如已标记的图片。该程序会对原始数据进行分析,找出与人类整理过的数据相关联的模式。接下来,该程序就会在大千世界中广泛搜寻这些已知模式。这就是 Facebook 能够允许用户标记图片、谷歌允许人们搜索图片的原因。
到目前为止,在人们正在使用的深度学习应用中,大部分基本属于“玩具”级别的,如智能相册和更好地语音识别。在该项技术的早期这段,这是可以理解的。如果学习算法漏掉了一个人脸(智能相册应用),或者迫使你编辑一个棘手的单词(语音识别应用),那也没什么大不了的。但随着我们的持续投资,这些算法将变得越来越可靠,我们就会看到深度学习技术被应用到更多有吸引力的环境中,从而催生出更多有价值的案例。
从中得知,机器学习允许企业开发更好的应用,与用户所创建的内容进行交互,如图片、语音、文本或其他形式的内容。例如,企业可以开发出能够了解人类的软件。这种技术的巨大潜力有助于解决自世界上第一台通用计算机 Eniac 诞生后就一直存在的用户界面(UI)问题,众所周知,UI 的重大改进有望开启一个新的计算时代。
鼠标和图形界面让计算机变得易于访问,最终普及到千家万户。
触摸界面让计算机变得更加普遍,成为了日常生活中的重要工具。而由机器学习所支持的用户界面将使计算无处不在。
机器学习的质量取决于培训数据
要确定一个机器学习模式,需要做好以下三件事情(按重要性排序):
1. 训练数据:由人类标记、分类或存储的数据。
2. 软件:软件库,用来创建机器学习模式(基于对训练数据的评估)。
3. 硬件:为软件计算提供动力的 CPU 和 GPU。
硬件很容易获得,无论是通过租赁,还是购买。
软件也容易获得,可以租赁,也可以免费获取。
接下来我们需要的就是训练数据,训练数据的规模十分庞大。
为什么需要大量的训练数据呢?
当前我们的深度和机器学习软件已经很优秀,至少比以往更出色。但要保证给出高质量的计算结果,我们还需要大量的训练数据。可以毫不夸张地说:我们所创建的机器学习模式的质量,与培训数据的数量和质量有着直接的关系。除非我们拥有更好的软件,否则在训练数据不足的情况下,我们无法创建出高质量的机器学习模式。
遗憾的是,更好的软件不是一夜之间就能开发出来的。大部分软件都是逐步完善的,因为开发人员需要一周、一周地持续寻找 Bug (漏洞)。而且,机器学习软件的完善还存在“断点平衡“的特点:时而进步很小、时而进步很快;时而小进步,时而大飞跃。
正因为该特点,为深度学习软件排除 Bug 是件极其困难的事情,因为我们完全不理解它是如何工作的。对于我而言,这也是有关机器学习的最古怪的事情。我们不能系统地为它排除 Bug,只能猜测,然后验证。
机器学习专家皮特·沃登(Pete Warden)曾表示:
虽然亚力克斯·克利则夫斯基(Alex Krizhevsky)的方法在 2012 年“ImageNet 图像识别大赛”上获胜,但没人真正理解这种方法为何如此有效,以及哪些设计决定和参数最重要。虽然它在实践中奏效,但这仍是一个在不断摸索的解决方案, 从理论上我们根本不知道它是如何工作的。这意味着我们不可能快速、有效地对该解决方案进行完善,因为研究人员也不确定它为何有效,也不知道如何进行优化。正如我的一位朋友指出,许多研究生都在研究它,但他们这样做只是为了获得高薪。
在我们真正了解深度学习如何工作之前,我们需要大量的训练数据。可以说,训练数据是机器学习的生命之源。
那么我们才能如何获得训练数据呢?
当前,平台公司尚未有效利用其用户。
如果计算机要了解凌乱的人类事物,他们需要由这个凌乱世界中的人类来指导。这合乎情理,但考虑到创建机器学习模式所需要的海量数据,我们就会面临一个不小的挑战:到哪里寻找这么多的人、愿意利用其闲暇时间来创建训练数据?
如果你说,“我可以招聘一些人”,那么我可以告诉你:这种规模的工作,你根本没法向他们支付薪水。
如果你说,“我会欺骗他们”,那么你的回答距离正确答案就不远了。
在互联网媒体上,许多撰稿人都说过一句话:“如果你不支付费用,那么你本人将变成产品。”这句话是针对基于广告赞助形式的产品的评价,如 Facebook、谷歌、Tumblr 和 SnapChat 等,他们把你的关注点打包,然后卖给广告主。但这些公司的这种重复性工作恰恰有利于机器学习。
这些使用免费服务的用户就是要训练计算机的人们,为了打造更好的产品和服务。这其中,“免费”很重要,因为这会产生大量的用户数据,而这正是创建机器学习模式所需要的海量训练数据。
这不禁让我想起了美洲印第安人充分利用水牛身体上每一个部分的故事。而这些在线服务提供商也学会了如何充分利用用户,例如,利用用户所关注的事情来提供广告,利用所掌握的用户信息来创建深度学习模式。
因此,要想获得充足的训练数据,需要做到以下两点:
1. 吸引一大批用户。
2. 说服他们创建你的训练数据。
互惠数据应用(RDA)崛起
一种新类别应用(或应用功能)正在崛起。设计这些应用的初衷就是为了创建训练数据,提供基于所捕获数据而开发的产品。这样,不仅人们能获得更好的应用,企业也能获取高质量的数据。
这种互惠数据应用(RDA)的一个最显著的应用案例就是 Facebook 照片(Facebook Photos)。
Facebook 照片的目的是刺激浏览者对照片上的人物进行标记,方便且快捷。在上传一张图片后,用户可以对照片上的好友或家人进行标记,以便于日后搜索。对上传内容进行标记能吸引他人关注,启动对话,而这也正是人们使用 Facebook 的两大主要原因。
与此同时,这些标记也生成了规模庞大的训练数据,而这些训练数据就可以被用于训练机器学习模式。有了更好的机器学习模式,就可以为用户提供更好的标记建议和其他功能。得益于这种 RDA 应用,Facebook 才拥有了世界上最好的人类图像识别模式(之一)。
谷歌搜索(Google Search)是另一个 RDA 应用案例。你的搜索和选择为谷歌提供了训练数据,反过来这些数据又会提升谷歌的搜索结果。
无论是 Facebook 照片,还是谷歌搜索,以及其他一些 RDA 应用,它们都能产生一种网络效应。更多人使用该应用,就会产生更多数据;从而让应用变得更好,就会吸引更多人使用。
在一些“由少数几个赢家垄断大部分份额”的市场,网络效应是风险投资公司所需要的发展引擎。之前,硅谷常见的网络效应模式就是社交/聊天(你去哪里,你的好友就到哪里)或市场(卖家去哪里,买家就到哪里)。这也正是为什么几乎每一个“非市场”、由风险投资资助的应用或服务都要拼命地增加共享或通信功能的原因,即便这样做并不符合情理。
RDA 是一种创建网络效应的新方法,直至今日人们才意识到。随着人们对其商业价值认知的提升,相信 RDA 将来会被更广泛地应用。
RDA 的普及将成为影响机器学习的第一项重要业务。不仅仅是因为 RDA 将带来资源转移,还因为 RDA 的属性和需求还将影响到硬件和软件。
以下就是 RDA 的一些属性:
1. 应用必须联网,最好是永远在线。否则,它无法将所收集的数据传回服务器。
2. 几乎所有的计算都要在设备之外进行。主要计算任务就是创建机器学习模式,这需要访问庞大的数据集(由用户所创建)。因此,模式创建不能发生在设备本身。将新数据与已计算好的模式进行对比(在设备本身进行),从计算的角度讲成本低廉。
3. 好的应用需要庞大的用户群。拥有了庞大的用户群,就相当于拥有了更多工人在创建训练数据。
4. 好的应用需要更多人使用。使用应用的时间越长,意味着每位用户拥有更多机会来创建训练数据。
5. 好的应用能带来更精准的数据。如果一项应用经常出现编码错误,那么所收集的数据质量也不高。应用在设计时要确保便于用户快速、准确地输入数据。
那么如何才能设计出一款优秀的 RDA 应用呢?
开发一款有价值的 RDA 应用
RDA 的数据价值可以通过一款产品来体现,尤其是前文“RDA 属性”部分所述的后三款产品(3、4、5)。
例如,你可以拥有一个相对较小的用户群,但前提是这些用户每天花费数小时、以一种可靠的方式来提供数据(例如交友应用 Tinder,利用大量的训练数据来决定图片的吸引力)。或者,你也可以拥有一个庞大的用户群,而这些用户只是偶尔地提供数据(例如 Facebook,用户只是在上传照片时才进行内容标记)。
所面临的一个挑战是:前文的属性 3 和 4 是一种“零和游戏“(Zero-sum game,博弈论的一个概念。在一项游戏中,游戏者有输有赢,一方所赢正是另一方所输,而游戏的总成绩永远为零)。如果全球 50% 的人花费其 20% 的时间访问 Facebook,那么留给你的用户和时间就不多了。即使你努力获得数亿用户,并赢得他们每天 2 分钟的时间,那么 Facebook 所收集的用户也远超过你。由于数据是持续不断收集的,因此不应该根据绝对值来衡量 RDA 的价值,而是根据收集速度。
但是,在上述情景中,如果你能收集到大量 Facebook 无法收集到的训练数据,那么你就不会被超越,虽然你的用户规模较小。因此,对于小企业或初创公司而言,要想保持市场竞争力,就要收集那些独一无二的数据。
我们认为,创建一项有价值的 RDA 有三种途径:
1. 赢得大量用户:开发一项有吸引力的应用来吸引大量用户。这是硅谷所熟悉和喜爱的模式。打造一项颠覆性的应用,吸引公众眼球,拼命投资把它做大。这是一种偶然的 RDA 途径,做大之后,对应用进行优化,以更好地收集训练数据,最终让你所收集的数据的价值多样化。这条路径很艰难,也需要大量的运气,还需要投入大量资金。我们并不推荐通过这种途径来创建一项有价值的 RDA。
2. 赢得大量时间:开发一项应用,说服人们花费相当多的时间来使用。多数情况下,这种应用或服务属于被动使用。想想导航应用或永远在线的数字助理,这些应用能随时为人们提供信息,或者为用户提供建议,从而提高了它们制造数据的速度。
3. 收集独一无二的数据:开发一项应用,收集其他人无法收集的训练数据。在这种情况下,你的应用在发布时无需有多大规模,但必须要有独特的见解,能收集独一无二的数据,用来打造独一无二的新功能。而这些新功能要有足够的吸引力,从而扩大用户规模,提高用户使用时间。此外,还要在大型竞争对手调整其应用、进入该市场之前,确保你的应用的数据收集速度足够快。这样,你才有可能与谷歌和 Facebook 竞争。
你可能会注意到,途径 2 所述案例可能不是运行在智能手机上。通过将计算引入新的环境中,我们可以开发出更具持续性的 RDA,从而增加用户使用时间。
理想情况下,这些新环境会带来新类型数据,这通常会将途径 2 整合到途径 3 中。
幸运的是,既然几乎所有的 RDA 功能价值都由远程服务来执行,个人设备就会被解放出来。由于大脑(服务器)在他处,所以能适应更多场合。
Pebble 发布 Pebble Core (一种运动配件,内置 GPS 芯片和 micro-SIM 卡槽,支持 3G、WiFi 和蓝牙连接)时,之所以没有提及 CPU,是因为设备本身不进行太多计算。
机器学习如何影响硬件
当大部分计算任务发生在服务器端时,运行 RDA 的设备本身就不需要拥有太强大的计算能力。此时,设备的 CPU 配置可能较低,因为将数据与事先计算好的模式进行对比只需要很少的计算能力。运行速度较慢的 CPU 意味着它们的体积会很小,因为需要的晶体管数量较少,所散发的热量也不多。较慢的 CPU 同时也意味着需要的能耗少,这意味着电池的体积也会很小。另外,整体成本也会很低。
所有这些都意味着:能够运行 RDA 的设备可能会迅速普及。如果能将一款廉价计算设备整合到一款产品中,能够收集到有价值的数据,我们可能就会开发它。将来,运行 RDA 的计算设备将无处不在:在汽车里、在手腕上、在浏览器中、在蓝牙音箱中,在电视中,等等。
最明显的一个案例就是 Pebble Core。它定位于运动追踪和音乐播放,事实上,它不只是一款通用计算设备。Pebble Core 价格低廉,仅售 69 美元。它配备了低能耗 CPU、WiFi、蜂窝连接、蓝牙、存储、耳机接口、两个按钮和一块电池。Pebble Core 的界面由语音控制,整合了亚马逊的 Alexa 技术。Alexa 就是一个 RDA。
通过将 Alexa 所需的计算转移到服务器端,亚马逊几乎可以在任何地方部署 Alexa。例如,Alexa 目前已经走进蓝牙音箱、 HDMI stick 和 Pebble Core。将来,Alexa 走进汽车几乎不可避免。
对于拓展 Alexa 等 RDA 应用,亚马逊和其他厂商也十分支持,因为这将增加用户的使用时间。这将带来更多训练数据,从而创建更好的机器学习模式。
需要指出的是,这些正在研究机器学习的企业并不准备开发功能强大的设备。功能强大的消费者设备不容易普及,因为它成本高,从而影响了 RDA 的价值,因为 RDA 就需要拥有庞大的用户群。因此,我们预计将来运行 RDA 的设备在计算能力方面将不会有显著提升,因为该行业正专注于通用、无处不在的廉价设备,而不是功能强大的高端产品。
机器学习的行业影响
总结起来,机器和深度学习投资将对科技产业带来以下影响:
1. 赢家会赢得更多。当前该领域的主要竞争对手 Facebook 和谷歌已经掌握了极大优势。它们拥有大量的用户、大量的用户使用时间,还拥有海量的数据和充足的资金,与这两家公司竞争很难。
2. 成功的初创公司将收集到建独一无二的训练数据。挑战者可以避开谷歌和 Facebook 的优势,而是另辟蹊径来寻找独一无二的训练数据。
3. RDA 是一种新的网络效应模式。随着 RDA 的出现和成熟,企业和投资者将更好地了解如何通过 RDA 来建立起具有网络效应的新业务模式。
4. 机器学习将加速物联网时代的到来。如前文所述,硬件的计算能力可能停滞不前,但形式将多种多样。将来,计算设备将拓展到几乎每一种场合,只要配备了传感器,具备网络连接,以便搜索训练数据。(编译/谭燃)