文线团儿
在房地产服务业中,很难有企业将传统房地产和大数据结合的如此完美。自 2008 年筹建“楼盘字典”以来,链家已经拥有业内独有的相当完备的房屋数据、人群数据和交易数据。囊括全国 36 个城市 7500 万套房屋标准信息,拥有约 1200TB 数据量,每套房屋由 300 字描述,每天收集行为数据超过 30G。
链家大数据库持续保持着更新。凭借“楼盘字典”已经打造出“地图找房”、“房屋智能估价系统”等产品,用于提高相对混乱的房产中介领域的成交率。与此同时,在如何更快更精准更广泛获取数据方面,链家也在做着各种尝试。
8 月 13 日,面向计算机科学爱好者的链家算法大赛——“2017 计蒜之道”总决赛在链家总部开赛。此次赛事的试题是:链家开放 2016 年下半年-2017 年 8 月北京成交房源的部分真实数据,让参赛者根据房屋朝向、居室、挂牌价等数据设计算法模型,进行房屋市场价格评估,准确率高者胜。
链家技术副总裁、著名 PHP 技术专家鸟哥(惠新宸)
房地产服务业作为成交额巨量的第二大行业,买家、卖家、经纪人三方信息不对称一直是行业乱象的重要诱因。这次算法大赛的计算基础——链家房屋智能评估系统,能够通过计算机算法,对链家积累多年的大数据进行分析,从而形成房屋估价和市场成交价格预估。
链家技术副总裁、著名 PHP 技术专家鸟哥(惠新宸)称,大数据对房地产服务业的本质影响是通过对“房、客、人”三条线的数据积累,提高经纪人的专业度和客户的实际体验,最终提高交易效率。
当被问及链家构建大数据最具挑战的问题时,鸟哥认为,链家大数据的形成比较困难的部分在于数据的整理、收集以及甄别真伪等方面。
比赛现场
“大数据积累是一个漫长且持续的过程,需要长期精细和深入的积累。举个例子,一个房屋临街,这条街吵不吵,会让这个房屋的价格差很多。这些细节需要链家不断的摸索、提升,以求让房屋估值越来越准。”鸟哥认为,房屋估值还有较大的提升空间,链家在大数据领域仍有较长的路要走。
赛程间隙,36 氪对鸟哥进行了专访,鸟哥详述了此次比赛的初衷以及对链家大数据平台的未来展望。
36 氪:此次比赛能够给链家及行业带来哪些益处?
鸟哥:首先,希望通过这个赛,让更优秀的人才看到我们的数据,同时也希望吸引更加优秀的人才。
此外,此次比赛的模型基础——房屋智能评估系统已上线,房屋估价确实复杂,做到非常精准非常难。
36 氪:链家庞大的大数据主要涉及哪些方面?
鸟哥:链家其实分“人、房、客”三条线。人更多指的是经纪人,链家主要考虑的是经纪人能力的提升与服务的专业性,而提高经纪人的服务水平也是靠数据的,比如经纪人与客户交流时的语言、动作都将被整理成数据,链家内部还有链家大学供经纪人学习,经纪人每年要考两次搏学考试;在房屋领域,一个房子有 300 多个维度,每个维度的意义都不一样。比如房子临不临街,是一个特征,而相邻街道繁忙与否,对房屋售价的影响也不同,大数据要对其进行整理分析;客户领域,就是根据客户的需求制作用户画像。
“人、房、客”这三条线的数据收集上,线上线下同时进行。比方说通过掌上链家,客户在上面的任何一个动作,链家都能采集到,梳理成数据。
数据采集上,我们努力做到更专业更精确。比如房屋照片以前靠经纪人去拍,现在是专业摄影师。原来用尺子量距离,现在用激光笔,我们也会用新的技术来应用这些数据。
36 氪:大数据对房地产服务业最核心的意义是什么?
大数据对“房、客、人”三条线的工作,主要是通过大数据积累,对房子的描绘更加清晰,提高经纪人的专业度,提升消费者的购房体验,核心价值是提高三者的链接效率和决策过程,降低不确定性。
36 氪:如此庞大的大数据是如何运转的?
鸟哥:链家有一个大规模数据团队,包括数据分析师,cangku.html" target="_blank">数据仓库等等。数据仓库也有分工程师和分析师。
链家每天产生的数据都有一套机制。业务系统产生的日志数据、业务数据等,会有一个标准流程进入数据仓库,自动化清洗后,形成原数据平台,再经过计算,发现有价值的点,形成指标平台,交由策略团队分析等等。
36 氪:地产业属于存在数十年的传统行业,大数据则比较新,“新旧”结合,难题在哪儿?
鸟哥:最难的不是技术问题,而是观念的转变。链家始终坚持做“难而正确的事”。比如地产业和大数据的结合过程中:先把传统的资料改编成数据,再做大数据分析。比较难的在于数据的整理、收集,及甄别数据真实性这块儿。
描述一栋房子就需要 300 多个维度,比如阳台、面积等等,链家需要花费大量人力物力采集数据,这是一个需要持续投入的过程。
36 氪:据悉,链家现在是数据驱动的全价值链房产服务平台,讲数据驱动,核心点是什么?
鸟哥:其实有很多时候咱们讲技术驱动、数据驱动,核心的点,不是说你想要数据驱动还是技术驱动,问题是这个技术驱动或者数据驱动,能不能给你带来一些新的东西,带来一些实实在在能让你获益的东西。如果我们能在这个所谓的数据驱动和技术驱动中,得到我们的价值,那我们自然会更加愿意去投入。
36 氪:业内始终要求链家开发大数据平台,您怎么看?
鸟哥:购房者本身在网上就可以看到链家的房源数据,比如户型什么、面积多少等等,这本是就是一个共享的信息。链家一直在 open。