随着图像识别技术的不断发展,视觉搜索也愈加被人所重视,它会造就下一个谷歌吗?近日,FastCodesign 发布了一篇文章,介绍了该领域 Pinterest 近年来的发展状况及其背后的潜力与野心。作者为 MARK WILSON,文章由 36 氪编译。
一、
这一切都从 16 个月前一个牛油果开始的。
在 Pinterest 位于旧金山的总部,一个特殊的牛油果被放置在会议室的桌子上。Pinterest 的创意总监 Albert Pereta 被六名同事簇拥着,走近水果,小心翼翼地用手机瞄准拍摄。他正在测试该公司的最新发明,这是一项名为“Lens”的功能。如果测试正确,它不仅能识别出这种水果,还能搜索过去 7 年里上传至该服务的数十亿张照片,以寻找类似的图片。
Pereta 拍下照片后,应用花了一会儿时间与云同步,然后把结果反馈出来。Pereta 的手机屏幕上充满了看似无穷无尽的、从各个角度拍摄的牛油果。
“很多人都很惊叹,说‘这东西真好!’”Pereta 说道。Pinterest 已经能够通过视觉线索识别出了一个物体,这是一个非常困难的工程问题。但 Pereta 并不满意:“当我看着这个结果的时候,我在想,‘谁在乎呢?’”
视觉搜索技术的效果非常好,但其结果毫无意义。没有人会拍下牛油果的照片,希望能得到一幅几乎完全相同的牛油果照片,更不用说无穷无尽的照片了。“我们开始问,‘如果你给一个牛油果拍照,你想要什么?’”Pereta 回忆道。有人说他想要一份食谱。“所以你甚至不会看到牛油果,你会看到一些粘乎乎的牛油果酱,”Pereta 说。或者 Pinterest 可以提供关于如何种植牛油果的信息,或者你可以用牛油果做些什么。“那太不可思议了,”Pereta 回忆说。
如今,牛油果的故事已经成为了一个寓言,安放在 Pinterest 总部的胶合板墙内。这提醒人们,个性化比完美更有价值。随着该公司在去年 2 月推出 Lens Beta 版测试工具,深入到新兴的视觉搜索领域时,这一点尤为明显——这个版本并没有调用成千上万的牛油果图片。结合 Pereta 的见解,这款应用能够提供与它们相关的想法,比如,制作牛油果酱。这是一个早期的视角,即 Pinterest 在非常现实的情况下,如何将希望寄托在视觉人工智能上,从而彻底改变人们购物和饮食方式的一切行为。
二、
在过去的二十年里,我们通过在搜索栏中输入信息来寻找网络上的东西。由于机器学习技术的进步,计算机视觉即将让我们通过拍照来进行搜索。谷歌、Facebook、微软和亚马逊都在向这项技术投入大量资源。这也就不足为奇了:谷歌将在 2017 年通过传统文本搜索广告获得约 286 亿美元的收入。使用 Alexa、Siri 和 Google Assistant 等服务的语音搜索功能,现在才刚刚实现。视觉搜索呢?这可能是一件具有里程碑意义的事情,因为许多技术专家都设想未来的智能手机不会出现在我们的口袋里,而是在我们的眼睛里。
Pinterest 首席执行官 Ben Silbermann 表示:“我真的认为,摄像头将成为下一个键盘。它将成为你用来查询周围世界、发现身边事物、或想象某个东西可能适合你生活的一个基本工具。”
在这个竞争激烈的领域,Pinterest 看起来并不算什么。但其在那堆牛油果下隐藏了很多东西。当各种党派之争的内容占据了许多应用和网站的时候,Pinterest 的 2 亿月活跃用户就会转向该服务,从而寻求一种更美好的生活,比如更舒适的客厅、冒险的旅行,或者健康的零食。根据尼尔森的一项研究,他们不是在寻找美食照片,也不一些能够发到 Instagram 上的照片,而是他们可以真正烹饪的日常食物:98% 的 Pinterest 用户表示他们会尝试在该服务中发现的新东西。广告商们也开始接受这个网站。从 2015 年到 2017 年,Pinterest 的年营收预计将增长 5 倍,达到 5 亿美元,而其在全球范围内的用户增长将达到 40%。(Pinterest 拒绝就营收增长和预测发表评论。)
Ben Silbermann
Pinterest 的受欢迎程度在于,它能够为每一位用户创建一个独特的“品味图谱”,从而推断出其可能感兴趣的其他东西。现在,Pinterest 正致力于将计算机视觉技术融入到对用户偏好的深入理解中。“所有的东西都在不断涌现,这是 Pinterest 在为你的实际生活寻找创意时的有用之处,”Silbermann 说。“如果人们真的用 Pinterest 来决定他们在家里做的所有事情,比如他们准备烹饪的食物,或者是他们的下一个假期等等,那就会有巨大的价值。”这意味着 Pinterest 不仅需要像谷歌一样掌握你正在寻找的东西,还必须预测你永远不知道的,但你想要的东西。如果这家公司取得成功,它可以利用我们的相机开启一个无穷无尽的个人发现世界。Pinterest 联合创始人 Evan Sharp 表示:“视觉搜索能产生的持久影响不会是什么特定的产品或功能,而是它让人们能够做的事情:将人们看到的任何东西,变成可以用来在互联网上发现更多东西的东西。”
三、
我站在旧金山 SOMA 社区的一间花园公寓里拿出了 Pinterest 应用。即便是在地下室的照明设备中,镜头也能很好地工作,将我拍摄的物体与其突出的特征匹配起来。镜头不仅能看到一把椅子,还能看到是一把俱乐部的椅子。不仅仅是一个枕头,还是一个 kilim 枕头。不仅仅是“艺术”品,还是一幅 Rothko 的画作。通过这个过程,我实际上学到了许多东西。许多识别结果伴随着的都有可操作的链接,我可以用它来标记、甚至购买。
后来,我尝试通过 Google Lens 拍摄类似的照片,这是 Pinterest 的一个竞争对手,在今年早些时候在 Pixel 手机上推出了测试版。谷歌的版本不知道它看到了一把椅子,甚至是家具,并向我道歉。它甚至误把枕头当作被子。它唯一能与之匹配的是 Rothko 的作品,不过值得注意的是,人们普遍认为,识别 2D 艺术品是视觉搜索工具最简单的挑战之一。
Google Lens 不是很好。至少现在还没有很好。但你可以看到,视觉 AI 是如何与公司的更大的业务需求以及其他科技巨头相结合的。谷歌的业务是建立索引,因此该公司希望帮助用户直观地识别周围的世界,这是有道理的。Facebook 有自己的社交图谱,专注于将用户与朋友联系起来,以及利用人工智能识别人脸的既得利益。亚马逊拥有电子商务。对它来说,视觉搜索可以成为数字世界和现实世界之间的桥梁——例如,你拍摄一双鞋,在亚马逊上寻找类似的,也许是更便宜的。每家公司可能会以不同的方式对待视觉人工智能,但其含义是一样的:在这个新兴领域,即使现在还不能清楚地表达出它的价值,也会有一些资金在涌入这个新兴领域。Forrester 的搜索分析师 Collin Colburn 说:“想想看,你有可能会拍一张照片,去寻找你甚至无法描述的东西。这是非常强大的东西。这可能是最不成熟的搜索,但它可能最有潜力。”
谷歌有数百名员工独立从事视觉人工智能的开发工作。Facebook 拥有 2 万名员工和 300 名人工智能研究人员,此外它还在社交网络上进行 120 万个视觉人工智能实验。亚马逊拥有超过 50 万名员工,其中有 5000 名员工在 Alexa 上工作——它的新 Echo Show 不仅有麦克风,还配备了与 Alexa 互动的摄像头——可以让亚马逊看到你的整个房间。Pinterest?该公司只有 12 名员工致力于视觉搜索。
但 Pinterest 比看起来更强大。首先,它拥有大量数据来训练视觉人工智能。你拥有的图像越多,算法就会越智能,而且它在提供用户真正想要的推荐时也会变得更好。许多研究人员使用的最大公共数据集——Image Net,包括 1400 万个日常物品的众包照片网站。Pinterest 拥有数十亿张照片——由热心的 Pinner 从博客上浏览上传,或者是由公司自己发布——大部分都有完美的舞台和灯光效果,因为它们是官方的产品摄影。电脑能更容易地看到完美的图像。同样重要的是:这些照片已经被 Pinterest 的忠实用户亲手标记并贴上标签。
卡内基梅隆大学机器学习主管 Manuela Veloso 表示:“数据集越大,你感到惊讶的可能性就不会越大。Pinterest 的数十亿数据的有趣之处在于,它们将会覆盖各种极端案例。”
此外,Pinterest 的设计也会在用户搜索时提供一些模糊的结果。这是 Pinterest 从牛油果学到的经验。精确匹配是谷歌搜索的特色,它已经针对特定问题进行了优化,比如“你如何烤鱼?”后面将会有一个完美的链接。Pinterest 的用户往往会提出更含糊的问题:他们每周可能会搜索几次“海鲜晚餐创意”。对他们来说,不精确的答案并不是错误。而是灵感。
换句话说,Pinterest 的人工智能在视觉搜索方面可能会失败,但幸运的是能找到正确答案。想象一下,Siri 会做同样的事情。“在其他一些公司,我们谈到了精确的召回。但说到底,用户对功能的感觉是非常有用的,”Pinterest 的工程主管 Li Fan 表示。他们可能不需要 100% 的精确度。没关系。只要我们实现了预期,他们就会觉得这是一种持续的体验,他们觉得这很有用。”
Li Fan
在竞争平台因侵犯隐私而受到攻击的时候,Pinterest 也已经赢得了用户的信任。人们把 Pinterest 看作是搜索引擎或社交网络之外的东西。Silbermann 说:“我们试图与用户建立的关系是,当你分享自己的事情时,是基于你想要更好的推荐,我们会为你提供你想要的内容。”这一预期相当明确。你用 Pinterest 来寻找一个时尚风格,所以如果我们问你:“你最喜欢的颜色是什么?”这一点没有任何侵犯性。”这样的互动让 Pinterest 能够提供既出人意料又准确的结果。它的设计语言更像是精心挑选的而不是经过精心策划的,而且也比机器人更人性化。
四、
Pinterest 成立于 2010 年,主要是在设计上花费了巨大投资:它可以让用户收集和整理感兴趣的主题,而不是难看的蓝色文字链接,而是虚拟索引卡上的华丽照片。联合创始人 Sharp 是一位具有创造性而且有远见的人,他曾在哥伦比亚大学的研究生建筑学院接受过培训,是首席执行官 Silbermann 的完美补充——他是一名管理顾问,后来成为了企业家。该平台非常受欢迎:2012 年,comScore 分析公司宣布它是历史上增长最快的 Web 服务。
Pinterest 的照片卡采用了一种新颖的设计方式,比如谷歌等巨头,从搜索结果到 Android 操作系统,都在使用它们。不过,自那以后,它的飞速增长已经放缓。如今,光芒已经被 Instagram 的 8 亿月活跃用户和使用激进 AR 技术的 Snapchat 所掩盖。
不过,Pinterest 并未追求激进的增长,而是在其核心产品上加倍投资:预测用户想看什么。“我们最终在机器学习上投入了大量资金,”Sharp 说,他现在是公司的首席产品官。“大部分用户看到的内容都是通过算法来决定的,”他说。“这是一个推荐,一个搜索结果,或者一个 Related Pin。”
Evan Sharp
后一项功能是在 2013 年发布的,它能根据你看过的内容生成一个相对简单的推荐 Pin 列表。到 2014 年,公司才委派了一些人工智能工程师,让它变得更好。他们通过训练算法来推荐相关的话题,并根据视觉线索推荐类似的项目,优先选择能获得最多点击量的 Pin。如果你点击一个由倒放的树枝做成的衣架,Related Pins 中会包括一份韦恩(Venn)图,里面包含了一些合理的建议,包括房屋装饰和木质装潢,包括树干上的衣架、小房间的分隔物,以及一个回收的谷仓木钥匙托盘。今天,Related Pins 占据了 Pinterest 所有互动中的 40%。
2016 年,该公司在视觉人工智能领域进行了早期投资,并在谷歌上招募了计算机视觉专家 Li Fan。她在谷歌工作了 8 年,之后在百度工作,领导了 1000 名工程师。然后她又回到谷歌,选择了一个更加专注的角色,担任谷歌图片搜索的负责人。最后,Pinterest 找上门来。“作为领导者和个人,Li Fan 的价值观与 Pinterest 的价值观非常契合,”Silbermann 说。“有一件事让我产生了共鸣,那就是她认为科技是一种丰富人们生活的方式,而不是单单的技术。”
在 Li Fan 的领导下,Pinterest 在 Lens、Pins 和公司的浏览器扩展工具上进行的视觉搜索同比增长了近 70%,每月的搜索量超过 3 亿次。与此同时,Pinterest 的商业合作伙伴已经看到了他们的 “Shop the Look”Pins 点击量背后巨大的潜力——这一功能可以让用户点击,然后购买图片中的商品。
所有这些都汇聚成一个丰富的商业机会。FirstMark Capital 的风险投资人 Rick Heitzmann 表示:“最初,Pinterest 是由用户类别进行管理的。”他曾在 2009 年对 Pinterest 的联合创始人进行了第一次调查,并参与了此后的每一轮投资。“但随着科技的发展,它是由人工智能、图像识别,以及找到你喜爱和关心的东西所驱动的。”Pinterest 的使命是将视觉搜索变成一项内容,而 Heitzmann 对这些机会感到非常兴奋。“你可以看到潜在的市场规模很大。”
Pinterest 已经向广告商提供了一个吸引注意力的平台。根据一项调查显示,93% 的用户使用 Pinterest 来制定购物计划,87% 的人通过 Pinterest 购买了一些东西。但至关重要的是,Pinner 还没有确定他们想要的确切产品。根据 Pinterest 的数据,97% 的搜索请求没有一个特定的品牌。与此同时,视觉搜索工具让这个品牌发现过程更加诱人,尤其是当搜索结果与用户的个人“口味图谱”相关联的时候。
Target 最近成为了 Pinterest 的 Lens 技术的独家美国零售合作伙伴。很快,在该零售商的主应用内,你将可以使用集成版的 Lens,比如说,拍摄一盏台灯,并看到由 Target 销售的视觉效果相似的产品。“我们的客人在每一种购物体验中都渴望舒适和方便。”视觉搜索是一个巨大的解锁工具,因为它消除了产品搜索中的很多障碍,”Target 的 CMO Rick Gomez 说。“通过简单地拍下一件感兴趣的商品,Pinterest 的镜头将会返回那些专门针对我们的客户所寻找的产品。”(Walmart、American Eagle 和 Tommy Hilfiger 在他们的应用上也有视觉搜索功能,这是由初创公司 Slyce 创建的。)Pinterest 还与三星合作,为 Galaxy 智能手机提供视觉搜索功能,并与 Shopstyle 合作,将 Lens 的结果与 500 万多种时尚配饰的可购买 Pins 联系在一起。各大品牌开始明白,视觉搜索是它们未来的重要组成部分。
当然,问题在于品牌的营销预算有限。Pinterest 并不是唯一一家希望通过视觉人工智能销售产品的公司。
五、
去年 11 月,Pinterest 推出了其最新版的“Lens:Lens Your Look”,帮助用户找到新方法来搭配他们已经拥有的衣服。在你的衣橱里拍一些东西,比如一双厚实的黑色高跟鞋,然后用文字搜索来寻找可能搭配的衣服(比如“黑色连衣裙”)。“Lens”会给你提供一个穿着黑色连衣裙和高跟鞋的人的形象——甚至可能和你自己的品牌和风格完全相同。
当用户点击特定的图片时,Pinterest 会了解到哪些搜索结果基本上是正确的,或者是最正确的,而且可以在下次对它们进行优先排序。这是该公司对视觉搜索的完美提炼:挖掘其庞大的数据库,挖掘用户的品味,拥抱不完美。
但这并不意味着用户的注意力就会一直存在。Sharp 是第一个承认视觉搜索的确切工具甚至还没有发明的人:我们真的会用我们的手机摄像头来进行点搜索,还是需要一些 AR 头戴设备来实现这个概念呢?“我们还处于早期阶段,”Sharp 说,“就像 90 年代中期的文本搜索领域一样。这是一项技术,很有趣,但没有人真正深入了解产品是什么,以及它将解决什么问题。”
问题是,如果 Pinterest 能破解这一密码的话。我们会不会“Pin 它”,而不是“谷歌它”?这一前景听起来令人畏惧,尤其是在 Pinterest 与世界上一些最有价值、最强大的公司竞争的情况下。
Sharp 走到白板前,画了一个四象限的坐标轴。在X轴上,他写道“分享和搜索”。在Y轴上,他写着“文字和视觉”。
文本分享?这个象限属于 Facebook 和 Twitter。视觉分享?Facebook、Instagram 和 Snapchat。搜索文本?这就是谷歌和必应。而是通过视觉来寻找?。他在这个象限里写了一家公司。“Pinterest。”画一个坐标轴,将你的公司单独放在一个象限里是一个典型的创始人举动。但 Sharp 在一件事上的观点是正确的:视觉搜索是一种罕见的未被殖民的空间。
“这是这里最值钱的四分之一,”他说。“这是 Pinterest 的前提。”