称为StatSheet web应用程序得到资助的今天(2010年8月4日) -自动化新闻
他们正在做“自动化新闻” - 用计算机生成从统计的体育比赛的人看的报告
http://www.guardian.co.uk/media/pda/2010/mar/30/digital-media-algorithms-reporting-journalism
没有人有任何深入了解什么办法/正在使用的算法来做到这一点/它如何被复制?
称为StatSheet web应用程序得到资助的今天(2010年8月4日) -自动化新闻
他们正在做“自动化新闻” - 用计算机生成从统计的体育比赛的人看的报告
http://www.guardian.co.uk/media/pda/2010/mar/30/digital-media-algorithms-reporting-journalism
没有人有任何深入了解什么办法/正在使用的算法来做到这一点/它如何被复制?
对此类项目的细节是有点稀疏,但它看起来像棒球摘要装置Stats Monkey包括:
统计模型:他们建造的棒球比赛通常如何展开一个模型,最可能是通过观察游戏过程中某些变量(例如跑步,蝙蝠等)的变化,或者与您期望看到的游戏不同(例如,一个无名小组获得的跑步次数多于一次高度重视的团队)。一个给定的游戏如何适合(或不适合)这个模型,让他们了解该游戏中可能有趣的事物(例如关键游戏或玩家)。
文本生成:鉴于预先写好的叙事弧库(如,后反复复的游戏,来从隐藏的胜利,等等),他们使用从该模型中的“有趣的信息”游戏来构建游戏的总结。我不确定,但看起来他们使用决策树 - 以模型中的信息为条件 - 选择其中一个弧。
杂胶:这是不是在他们的捧场文章提到,但我想像,有相当数量的硬编码规则,“胶水”的主要叙事弧成一个单一的,有凝聚力的故事。
Stats Monkey的作者在相关领域做了大量的研究,如网站摘要和自动内容聚合和生成。以下是一些可能有趣的论文:
Nathan Nichols和Kristian Hammond。在计算机人类交往进展的第二次国际会议的“Machine-Generated Multimedia Content.”论文集,2009年
内森·尼科尔斯,丽莎·甘迪和克里斯蒂安哈蒙德。 “From Generating to Mining: Automatically Scripting Conversation Using Existing Online Sources.”The Proceedings of the Third International Conference on Weblogs and Social Media,2009。
J. Liu and L. Birnbaum。 2008. "LocalSavvy: Aggregating Local Points of View about News Issues"。 WWW 2008网络位置研讨会。