今年大数据取代了章鱼保罗,成为预测世界杯战局的热门手段。不过这种预测靠谱吗?大数据真的能预测世界杯?
目前采用大数据技术预测世界杯的,既有百度这样的互联网公司,也有德银这样的知名投行。
一、预测确实使用了大量数据
通过采访百度的相关人士,我们发现百度预测世界杯的主要数据来源包括:百度搜索数据,球队基础数据,球员基础数据,赔率市场数据。百度大数据通过分析过去 5 年 987 支球队的 3.7 万场比赛数据,共涉及 29610 名球员,112,285,543 条相关数据,构建了足球赛事预测模型。
为了验证模型是否准确,百度用 2010 年南非世界杯的淘汰赛数据进行了准确性验证,具体方法是为预测模型输入 2010 年世界杯期间的比赛、球队、球员等相关数据,由预测模型计算出淘汰赛比赛结果,与当时的比赛结果进行对比,结果显示 16 场淘汰赛算准了 12 场,准确率为 75%。
德银则是根据各个球队的 FIFA 排名、历史战绩、球员构成和赌球赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格。其中巴西名列第一,紧随其后的是德国、西班牙、法国。然后再根据某些假设,得出最终的冠军得主。
二、推算逻辑并不完美
德银推算出的最终的冠军得主是在概率表的基础上得出的。具体来说,德银从夺冠概率表格中挑选出了前 10 强,这 10 强依据夺冠的概率排名分别是巴西、德国、西班牙、法国、阿根廷、意大利、荷兰、葡萄牙、乌拉圭和英格兰。德银认为最终的冠军只能从这十家选出。
在筛选的过程中,德银提出了“轮流转周期”概念,德银认为过去 19 届世界杯当中,有 3 次是连续四届世界杯由不同的四支球队夺冠,还有 2 次是连续两届世界杯由不同的两只球队夺冠,剩下的 3 届即从 2002-2010 年的三届世界杯构成了德银心中又一个四届不同得主的轮流转周期的前3/4,德银由此排除了 2014 年巴西、意大利和西班牙夺冠的可能性,因为它们是过去三届世界杯的冠军得主。
这样就剩德国、法国、阿根廷、荷兰、葡萄牙、乌拉圭和英格兰七只队伍,然后德银根据另一个假设:强队会回来,即夺取过世界杯的强队,未来必然还会夺取世界杯或至少打入一次决赛。而英格兰就在 1966 年夺过一次冠,此后至今从未进过决赛,德银据此认为英格兰夺冠可能性大增。
最后,本届英格兰队有 6 名队员来自利物浦,而正是在利物浦的球员最多的 1966 年,英格兰获得了历史上唯一一次世界杯冠军。同时德银报告的主笔人承认自己是利物浦队的铁杆球迷,因此,最后确定英格兰将获得世界杯的冠军。
不难发现其中的逻辑非常牵强。德银似乎只为了得出一个想要的结果而设置了某个模型或假设,而非根据确定的科学模型来推测最终的结果。有“本末倒置”之嫌。
百度相对来说更加科学一些,起码推测的因果顺序没有颠倒。但是百度的推测显然也有漏洞,百度的模型经过自己的验证之后,准确率也只有 75%。而且这个验证是输入过去的数字来推测,但是过去准确的未来并不一定准确。
三、“醉翁之意”不在预测本身
用大数据来预测世界杯比用章鱼保罗更加可信(起码从表面上来看是这样)。不过这种预测活动更像是利用世界杯而进行的营销活动,目的并不是为了得出某个确定的结论,而是为了吸引网友的参与。
百度的世界杯预测还跟足彩投注活动结合,通过预测出夺冠率这一数字,为用户购买足球彩票提供参考,更像一场商业活动。
不过,在世界杯到来的前夕,网友们通过企业所做的预测得知哪支球队可以夺冠也是一种娱乐。对于预测结果到底有多大的可信度不必太过认真。