署名 Robert Galbraith 的新作家写了一本侦探小说。它受到了读者和书评人的高度评价,但是其销量却极为惨淡,只售出了 1500 本左右。如果不是一次意外转折,它可能仍然不为大众所知。英国的 Sunday Times 发现,Robert Galbraith 原来是《哈利·波特》作者罗琳的化名。这个事实一经公布,此书受到关注的程度就可想而知了,它立刻升至亚马逊畅销书排行第一位。可以想象的是,其续集的销量也不用担忧了。
从这个故事中,我们可以有许多感叹。不过,关于作者身份如何被揭秘的,多数人可能不会去深究。其实这个故事是很有趣的。在揭秘的过程中,计算机再次发挥了重要的作用。
据 nationalgeoprahic 网站,事情的经过是这样的。Sunday Times 的艺术编辑 Richard Books 的一位同事从 Twitter 上获得一条匿名消息,宣称 Galbraith 就是罗琳。随后,该账号被删除。为了确定此消息的可靠性,Brooks 的团队首先上网查询了一下,发现两位作者的出版商相同,随后他们找到了两位计算机科学家,通过语言分析进一步确认。在确定 Twitter 上透露的消息准确之后,Brooks 与罗琳进行了联系,随后他从罗琳的发言人那里得到证实。
这两位计算机科学家是:牛津大学的 Peter Millican 和 Dunquesne 大学的 Patrick Juola。Sunday Times 给了他们五本书,除了《Cuckoo》之外,还有罗琳的另一本小说《The Casual Vacancy》,以及另外三本英国犯罪小说。
Patrick Juola 使用了一个叫做 JGAAP 的软件。他用不同的分析方法来检测写作的不同侧面。其中一个测试是词组的使用,因为不同的作者会使用不同的词汇来形容某种东西,另一个测试是检查某些常见词汇的出现频率。最强大的证据是单词长度测试, Juola 说,从这个测试中发现了罗琳写作的特色。全部测试的时间是一个半小时,所有测试都证明,《Cuckoo》与罗琳的《Casual Vacancy》最为接近。
与此同时,Peter Millican 也进行了测试。在上述的五本书之外,他又增加了几本书,然后使用语言分析软件 Signature 进行了测试。软件通过六个方面对书籍进行对比:单词长度、句子长度、段落长度、单词出现频率、标点出现频率,以及单词使用情况。测试同样显示出 Cuckoo 与罗琳所写的书最为接近。在五个小时的测试之后,Peter Millican 写信给 Sunday Times,说他非常确信这是罗琳的作品。
对于 Patrick Juola 来说,收到此类请求并非第一次。在现实情况中,他曾多次参与语言对比测试,其中不乏古怪的例子。有一次,他证明了奥巴马的书籍 《Dreams from my Father》并非本土恐怖分子 Bill Ayers 所写,另一次,他曾确认报纸上的某位匿名政治批评家的身份,使此人得以留在美国,而不是被驱逐出境。
语言分析同样有着商业上的价值。Patrick Juola 说,有些人会分析亚马逊这样的网站上的产品评论,从而判断哪些评论是厂商所为,或者提供一些有价值的地域模式分析。
Juola 说,那位匿名提供信息的人删除账号是很聪明的。因为,“如果我们仍然能够看到那个账号的话,我们可以分析一下句式,看看它是否能和某个出版社工作的人对应上。”
图片来自 fox5sandiego.com