致力于为用户自动生成可读性文本的叙述科学公司(Narrative Science),12 月 1 日宣布已完成 1000 万美元D轮融资。至此,该公司 6 轮募资总额已增至 3240 万美元。
说到 NS,有必要提及 Automated Insights 公司,两家公司在做同一件事:重塑文字内容的生产模式。一家是预言机器人记者可能在 5 年内赢得普利策新闻奖,一家是计划今年利用机器人写作生产出 10 亿篇文章。加之以前出现的电脑写小说、识图题诗等话题,文字内容生产的“自动化”模式是否已经到来?
机器“自助”创作如何可能?
想象一下,只要提供零碎的部分信息,然后摁下一个按钮,就能在 3 分钟内完成一篇新闻报道。
实际上,诸如 Automated Insights 的 Wordsmith 平台和 Narrative Science 的自动撰写新闻系统,完成创作的流程大致接近:借助系统各种内设语言建立起的业务算法,分析出提供给系统的数据的特点和内容,通过计算机程序将数据融入预设的结构化语言(或称为模板)中,生成叙述性的长短文章、报表、可视化图形等。基于信息数据本身及模板数据,算法会决定每篇报道的选题、语气、语调和写作形式。
从这个角度来说,“自动化写作”的说法可能有些哗众取宠。这是一种相对规律性和重复性的工作,而这些基本动作,结合目前的数学算法能力和大数据在统计学方面的应用,是完全可以形成自动化,或者至少是半自动化的,也就是本文所强调的机器创作的“自助”模式:机器基于内设算法而针对特定数据进行标准分析的前期基础筛选和整理。
以机器自助创作渗透较深的体育报道为例,因为体育涉及大量波动性很强的数据,技术工程师在系统内嵌每种赛事或活动的算法模式和预测规则,实现对相应数据的识别,如比赛结果是哪个球队胜出?是惊险取胜还是大比分屠杀?是否有 VIP 级别的球员表现?或根据比赛已知数据和其他数据库进行推测:是否某一次进攻(防守)有定胜负的作用?此基础上,参照相应的文章模板,如某知名人物的或流行的写作用词习惯,进而完成创作。
机器“自助”创作将带来什么?
如若某日自动化写作果真成型,必然会是一场涉及到文字作为人类信息载体和传递媒介的根本变革。而机器“自助”创作基于大数据收集、整理、分析,进而挖掘数据背后的关联和意义,并采用商业化的书面语言撰写新闻,确实会对传统的内容生产模式产生深刻的影响。
颠覆与解放并存,机器“自助”创作面前,传统内容生产方面几家欢喜几家愁?
我们回避不了这样一个事实:我们的日常生活活动,正越来越多被转化为海量数据,移动互联网带来的用户数据膨胀、体育竞技的精细化催生的数据收集系统扩张,不少情况下,新闻报道的取材就来自于这些数据当中,如体育比赛场地增加的高分辨率摄像头和高强度传感器,目的是分析每场比赛中各位球员的表现情况,而这些内容的生产对仅依靠肉体之躯的记者是难以满足需要。互联网所产生数据的规模可谓前所未有,Narrative Science 能够将这些数据转化成文章。这就是 Narrative Science 必须存在的理由。
从另一角度讲,计算机算法必须同实际的内容生产者协手合作、发挥出各自的优势,才能成行。
计算机的优势在于记忆无差错,并能够快速访问和“计算”各类数据,但机器却无法思考,只能在特定的数据中根据设定的模式完成数据整理工作,对数据的挖掘、新闻价值的发现,仍需专业的实际内容生产者去完成。只有更深入地加强计算机在机器学习、数据处理等表现,进而更为准确理解人类语言和文字,计算机的“叙事”技巧才能更多地被采用。
而实际的内容生产者在生产内容过程中,如何从数据中揭示出有价值的信息,发现数据中潜在的价值,既需要投入更多的心思对机器进行“培训”,以实现从繁重中解放出来;更需要调动多方面的知识和能力,做深入的报告和专题分析。
机器无法撰写具有创新性的新闻,其新闻报道只能根据现成的模式进行再造。这种现成的模式是根据传统新闻记者的报道风格和特定题材新闻报道的模式生成的,离开这一点,机器就失去了再造的参照物。因此,无论数据背后的意义挖掘还是数据新闻报道的模式和风格,都离不开传统内容生产的专业积淀和报道方式创新,所谓“自动化写作”只是一种被抽象化夸大的预言,但在机器“自助”创作面前,传统的内容生产者在面对巨量信息分析整理和意义挖掘中,确实面临着所需知识结构和报道水平的全方位提升的考验。