如何揪出论坛里的骂街党？维基百科和谷歌联合开发机器学习算法_最新动态

您所在的位置：程序员俱乐部 > 新闻资讯 > 最新动态 > 如何揪出论坛里的骂街党？维基百科和谷歌联合开发机器学习算法

如何揪出论坛里的骂街党？维基百科和谷歌联合开发机器学习算法

2017/2/16 5:34:43 程序员俱乐部我要评论(0)

摘要：最近，来自维基百科和谷歌的IT专家，公布了把AI用于“节制”维基百科用户评论的成果——找出哪些用户在搞人身攻击，还有他们为什么要在网上骂街。针对该问题，研究人员开发机器学习算法，分析维基百科在2015年收到的的海量评论。这一年，维基百科讨论页面共收到6300万条评论。这些评论存在的本意，是讨论如何改进维基百科收录的各条文章。这些算法使用10万条包含侮辱性言辞的评论以进行训练，当然，这样的样本规模只能算是偏小的。起初，十名人类员工对这些评论进行分类
标签：论坛学习谷歌开发算法

如何揪出论坛里的骂街党？维基百科和谷歌联合开发机器学习<a href= 算法" />

　　最近，来自维基百科和谷歌的 IT 专家，公布了把 AI 用于“节制”维基百科用户评论的成果——找出哪些用户在搞人身攻击，还有他们为什么要在网上骂街。

　　针对该问题，研究人员开发机器学习算法，分析维基百科在 2015 年收到的的海量评论。这一年，维基百科讨论页面共收到 6300 万条评论。这些评论存在的本意，是讨论如何改进维基百科收录的各条文章。

　　这些算法使用 10 万条包含侮辱性言辞的评论以进行训练，当然，这样的样本规模只能算是偏小的。起初，十名人类员工对这些评论进行分类，以明确用户评论中都出现了哪些人身攻击语言方式。举个例子，该机器学习算法能区别直接人身攻击（比如“你是个 XX”），第三方人身攻击（张三是个 XX），以及间接人身攻击（“张三说李四是 XX”）

　　研究成果以论文形式发表出来，题目为'Ex Machina: Personal Attacks Seen at Scale'（Ex Machina：大规模人身攻击）。雷锋网(公众号：雷锋网)得到消息，该论文将在四月份澳大利亚珀斯举行的的世界互联网大会上展出。

　　34 名用户“贡献”了 9% 的网上谩骂

如何揪出论坛里的骂街党？维基百科和谷歌联合开发机器学习算法

横坐标轴：总发帖数；竖轴：侮辱性言论比值；黑色：匿名用户；蓝色：注册用户

如上图，匿名用户发布人身攻击言论的概率，比注册用户高六倍。但发表最多侮辱性言论的，却是一小撮活跃注册用户。

　　该分析表明，维基百科 43% 的发表言论来自匿名用户。这些人中的绝大部分并不经常发帖，有的就只发过一次。但平均发表脏话概率比注册用户高六倍。但据雷锋网了解，维基百科注册用户比匿名评论用户多 20 倍，意味着超过半数的人身攻击言论仍是注册用户发表的。

　　研究人员发现，大多数情况下用户言论是得体的。80% 的人身攻击来自于 9000 多名用户，而这一群体发侮辱性帖子的平均次数少于五次。意味着大多数人只在被激怒后，才开始在网上骂街。

　　但是，有一个包含 34 名活跃用户的小群体。研究人员对该群体的打分是“危害指数超过 20”。这 34 个人竟然贡献了维基百科全部侮辱性言论的近十分之一，准确来说，是 9%。

　　很明显，这些人就是网络世界里所谓的“骂街党”——那些喜欢上网和人骂战，把人身攻击作为日常宣泄、娱乐活动的人。现在的好消息是，新的机器学习算法使得维基百科在用户群中找出这些人变得更加容易，然后只需要把这几个人的账户封掉，就能一下子减少论坛上 9% 的恶意言论。太划算了，是不是？这意味着偶尔发表人身攻击言论的普通用户不必被封号——大多数只在和人吵起来之后才开骂。这还意味着，维基百科不需要像拉网一样把全部评论筛一遍，用机器学习检测侮辱性言辞，而只需把精力放在管理这些极少数的骂街党上。

　　论坛维护：人 +AI

如何揪出论坛里的骂街党？维基百科和谷歌联合开发机器学习算法

　　网上骂战，有时像野火一样被瞬时点着。正因如此，相比能自动决定该屏蔽哪个论坛用户的计算机程序，有时候人类管理员更有用。

　　论文作者们在结论中说道：