Quora正在运用群体智慧为未来的语义网架设一个“话题层”。
你心中的完美搜索是什么样子?可能你的脑海中已经浮现出许多日常生活中困扰你的问题,它们应该不仅仅是想知道今天的天气和汇率如何那么简单。你也许更想知道,“未来3个月最热门的3部电影是什么,除了我已经知道的《让子弹飞》”;或者更复杂的,比如你想知道:老板让我组织这次上千人的公司年会,我该如何准备?”
但是你在搜索引擎上根本找不到回答这种问题的满意答案,而在百度知道、雅虎问答这些网站上,并不能告诉你符合行业特点的知识。当然,也许费一番功夫,你可以在某个电影小组或者某个专业论坛里找到答案,但可能不是搜索引擎直接带你找到的。显然这不是你心目中的完美搜索。
用户心目中的完美搜索应该像那本曾经流行的小说的名字一样,它能懂得“当我们谈某某时我们在谈什么”。比如当我们在谈李开复的时候,它首先要懂得我们在谈创业、天使投资、创新工场,也许还有《世界因你而不同》,甚至更多。再然后,才是现有搜索引擎能够做的靠关键词匹配和链接模式分析来帮你找到结果。
实际上,上述的第一步——让机器懂得“当我们谈某某时我们在谈什么”正成为通向完美搜索──业内称之为“语义网”道路上的一大障碍,也就是智能网络的关键问题之一。不过,现在Quora已经在这个问题的解决上取得了至少是值得世人重视的进步。
Quora在硅谷风头正健。它由Facebook前CTO亚当·德安杰洛以及Facebook工程技术经理查理·切沃创建。2010年初开始内部测试的Quora在3月获得风险投资公司Benchmark Capital 1400万美元投资。据《华尔街日报》报道,估值为8750万美元。6月Quora开放注册,许多人开始使用并在极客圈中引起热议。
Quora不像Twitter、Foursquare或者GroupOn已经具有一些盈利模式,似乎也因为这个原因,它并未在国内出现像团购热那样的众多跟风者。另一点原因是,如果完全模仿Quora,起步门槛其实并不低。Quora是一个功能比较复杂,对技术和运营能力要求相应也比较高的产品,即使模仿起来也有一定难度。还有一层原因可能是,除了网络达人和极客们的热议,尚没有更广泛的人群意识到Quora具备成为大型消费者网络的潜力和基础。
许多人对Quora的第一个疑问可能就是如何保证如此多的人使用,还能没有垃圾信息,也就是保证问答的质量不随着使用人数的增加而变差。应该承认的是,这是一个难点,创始团队势必会在这方面付出很大的努力。但是,至少有一个关键点是可以在用户变多和问答质量好坏之间建立防御城墙的,即通过众包方式建立“话题层”。
什么是话题层?我们都知道优质的答案其实来自于正确的提问。在很多时候我们往往没有标准答案,尤其是越来越多的用户在通过互联网找到意见性的答案,或者带有思考过程的软性答案,而非基本事实、真相求解的答案时。那么这些带有思考特征的结果,获取上的最大障碍就是我们一开篇提到的,要有一个谈话的语境,让机器理解这种语境,才能知道你想要什么,从而去做搜索和匹配。也就是说,我们找这种思考性问题的答案时,需要让机器的逻辑计算应用在一个话题内部,或者说限定在一个标签和标签的关系构成的“域”的范围内。
举一个很简单的例子。当我们谈论“大夫”的时候,机器需要辨别我们是在说医院里的大夫,还是说中国古代的官员——如果上下文恰好有与治病、医院有关的信息,那就是前者;如果恰好有某位历史人物,那便是后者。当然,这仍然是概率问题。机器只是做简单的逻辑推理,但是某位历史人物为什么就和当作“古代官员”解释的“大夫”联系到一起,机器是无法搞懂的,必须由人告诉它。
这时就需要“加标签”。Quora的机制里很重要的一点,就是用户给信息加上各种标签。这其实是用Web2.0的方式去建立知识之间的连接,而机器是可以去学习这种连接,从而改善查询结果的。知识总是在某些特定条件下才正确,通过赋予用户权力去为知识增加条件和联系,其实最终是可以做到去伪存真和去粗取精。亿万用户化身为一位“孔子”去整理好每一个问题,确保最优质的问题留下来等待合适的人去回答。
就像古老的教育家孔子对弟子提问的每一次回答,也都是综合了“因时、因地、因材”等许多要素而产生的,只不过年代久远,人们忘记和忽视了那些条件或者当时的语境上下文。而现在的互联网新型社交问答,也必须有话题层的支撑,才有可能复制孔子的问答模式,让问与答站在同一个对话平台之上,而不是各说各话,还可以承载所有的话题和大量的使用者。
过去的搜索是“爬虫”去抓取一个文本,可能是一个网页,然后分析关键词和链接,从而掌握这个文本和其他文本的关系,再依据逻辑推测出该文本的“话题”(Topic)。文本创建者如果注意SEO(Search Engine Optimization,搜索引擎优化),也会留有一些关键性的标签以提示搜索引擎文本的主题,但很难达到人性化的理解。整个过程概括起来,就是从文本到关键词,再到话题。
谷歌中国研究院副院长张智威介绍说,“社交问答并不是传统搜索的顺序。它是用户提交给你话题,然后你去分析关键词和链接,最后排出一个最相关的文本,告诉你这就是你提交的话题内最合适的结果。”整个过程概括起来,是从话题到关键词,再到文本。
实际上,Quora的一个创新点是用众包的方法或者说群体智慧,给所有话题都进行一次整理加工,从而提高机器学习的质量。在“话题层”下一番功夫并应用正确的处理方法,才是Quora改善问答质量的关键一环。接下来的重要问题就是我们上面提到的,运营这个网站的难度也不小,最核心的问题是如何给予专家以激励。因为问题的整理和优质答案的提供,实际依靠在人群中百分比不高的专家。那么,在既没有报酬,又没有名望的情况下,人们为什么要来参与这件事?也许维基百科的经验可以借鉴。
Quora的创始人想设计出一种工具,让人们为“话题层”添砖加瓦,贡献自己的知识。因此,Quora的计划是少考虑网站功能,多考虑如何让新用户也贡献个人知识,并激励活跃用户积极地分享更多内容。这里面其实存在一些矛盾。Quora团队在考虑引入用户等级制度来组织信息其实一直犹豫不决,他们想保持老用户的热情,又不想让新参与者看到自己等级太低而泄气。因此,Quora实际上在尽可能多地向用户提供工具来辨别高质量的知识,并创建话题等级。
Quora赋予所有用户给答案投票的权力,这点和Reddit、Digg类似;而和国内的百度知道这类网站,只有提问者能确定答案是否满意不同。值得一提的还有,Quora采用了邀请制,封闭测试很长时间后才开放。而一开放,就直接选择基于拥有Facebook和Twitter账号的用户,可见创始人心态之开放和对自己产品的信心。另外,Quora提供关注人、话题、问题的功能,并让这一功能非常明显而突出,导致了Quora上信息的分类非常细化和丰富,具备非常强的知识性。
同时,这也是Follow功能的一个更广泛应用。不同于Twitter和Follow的人,Quora更像国内的豆瓣——通过建立一个自己感兴趣的话题去找人,再通过人去跟踪其他感兴趣的话题。从这层意义上说,Quora也是一个社交网络。Quora的粉丝对丰富的分类、标签和订阅非常专业的问题着迷,这些功能无疑对Quora上问答质量的提升有巨大功劳。有的人甚至认为,Quora就是一个人们通过提问,并对相同问题感兴趣而结交的一种社交网站,它吸引那些思考者和喜欢接受专业意见的用户。
这与常见的用户驱动的SNS网站──比如Facebook明显不同。Facebook的目的是最大化地促进用户的参与,而全然不顾用户在做些什么。Quora非常在乎用户分享了什么。切沃表示:“我们最重要的东西就是那些用户认为靠谱的知识。能为他人提供可信赖的信息,会让用户感觉良好。”
其实我们讨论Quora不是在讨论问答网站,而是讨论“话题层”将给互联网带来哪些改变,将给搜索的未来带来怎样的变化。擅长关键词匹配和链接分析的传统搜索引擎,注意到Web2.0、社交网络的兴起,开始把社会化媒体和社交关系作为重要的链接计算到搜索结果中去。但Quora这时候告诉我们,完美的搜索并非只有一种,即把社交“参数”纳入到那个庞大的算法函数中的思路,也许还有另一条更经济、能走得更久远的路。
Ontology,哲学上称为“本体论”或“存在论”,在人工智能领域被赋予“概念共享”的含义。简单说,就是人和人之间、人和机器之间、甚至机器和机器之间达成理解的一个前提条件是,大家对所沟通的概念有一致的解读,而没有歧义。如果一个词很难做到,那么至少是一句话,具备上下文的语境,有时候具备时间、位置、人、事件等背景要素,解义将变得更加准确。
我们可以将语义网过去的发展简单划分为几个阶段:最早由钱伯斯·李博士提出,那时候的Web只具有基本的代码、数据和结构,Web智能还处在婴儿期,它所能理解的信息还非常简单和机械。恰好在李博士提出《语义网指南》的1998年,Google诞生了。它通过关键词匹配和链接分析,将Web之间建立了联系,它将Web的智能推向接近人类高中生的水平。当然,Web达到高中生智力的功劳也不都是Google的,Web2.0运动其实将人和Web建立了更深度的连接,Facebook、Twitter、Foursquare等为代表的网络服务在人、时间、位置等诸多真实世界的基本维度上为Web搭建了新的结构层。Quora类网站的出现,标志着Web进入思考者的领域,它同时也是Web在具备上述结构层之后的另一个结构性成长机遇。Web通过学习用户添加的标签,形成自己的概念层,因为来自于用户,所以这一概念层是和用户们所集体认同的概念相一致的,于是Web便可以更好地理解用户在谈论什么,能理解意见性的软性信息,而不仅仅是真相和事实等硬性信息。
Google由于大大推动了语义网的前进,提高了Web智能,发现了一块巨大的商业搜索市场,其实就是搜索广告市场,而理解能力更强的Web未来理应用于更复杂的电子商务用途。所以,每一代创造Web新结构层的企业,都更有可能找到全新的商业模式,这一点至少在美国是屡次被验证的。
甚至早在2002年,就有人撰文《2009年8月:Google如何在语义网时代打败亚马逊和eBay》。这篇文章的预言虽然没有完全应验(Google市值超过这两家公司,却并未打败他们),但它提供的方法大体可以借鉴。语义网的发展,能够让那些对语义网做出巨大贡献的企业超越前人,摘得电子商务的王冠,而且这个胜利的时间很可能是和语义网技术的发展同步。
但预言有一点没有考虑到,那就是上市也给Google带来了上市公司都有的“收入诅咒”。当今搜索的改进,势必要考虑社交层的兴起及对整个网络的影响。而Google只是将社交纳入庞大算式的方法,相比Quora重新建立“话题层”的方法变得不再经济。张智威副院长说,用户每Google一下消耗的能源,大概相当于消费一听啤酒消耗能源的1/44,也就是44次搜索等于一听啤酒。其实,对于每日搜索请求超过2亿次的Google,这已经是一个不小的能耗。Google如果是一家私人公司,它应该会改变现有的方法,以知识工程的方式加入到重新搭建网络的工作中,而这会冲击掉其原有的收入模式。Goolge很难选择。
如果Google在某种程度上被替代,就像它替代雅虎等模式一样,那么替代它的一定是更经济而高效地为用户提供答案的公司。正是沿着Google的车辙,我们现在同样看好Quora的商业前景。只要它能把建构语义网上“话题层”这一件最重要的事情和方法继续发扬光大,它也许就是下一代搜索引擎和电子商务的入口。有一天,它的市值会超过亚马逊和eBay。