2010-08-05 58 views
4

称为StatSheet web应用程序得到资助的今天(2010年8月4日) -自动化新闻

http://techcrunch.com/2010/08/04/former-crunchies-finalist-statsheet-recieves-1-3-million-in-series-a/

他们正在做“自动化新闻” - 用计算机生成从统计的体育比赛的人看的报告

http://www.guardian.co.uk/media/pda/2010/mar/30/digital-media-algorithms-reporting-journalism

没有人有任何深入了解什么办法/正在使用的算法来做到这一点/它如何被复制?

回答

7

对此类项目的细节是有点稀疏,但它看起来像棒球摘要装置Stats Monkey包括:

  1. 统计模型:他们建造的棒球比赛通常如何展开一个模型,最可能是通过观察游戏过程中某些变量(例如跑步,蝙蝠等)的变化,或者与您期望看到的游戏不同(例如,一个无名小组获得的跑步次数多于一次高度重视的团队)。一个给定的游戏如何适合(或不适合)这个模型,让他们了解该游戏中可能有趣的事物(例如关键游戏或玩家)。

  2. 文本生成:鉴于预先写好的叙事弧库(如,后反复复的游戏,来从隐藏的胜利,等等),他们使用从该模型中的“有趣的信息”游戏来构建游戏的总结。我不确定,但看起来他们使用决策树 - 以模型中的信息为条件 - 选择其中一个弧。

  3. 杂胶:这是不是在他们的捧场文章提到,但我想像,有相当数量的硬编码规则,“胶水”的主要叙事弧成一个单一的,有凝聚力的故事。

Stats Monkey的作者在相关领域做了大量的研究,如网站摘要和自动内容聚合和生成。以下是一些可能有趣的论文: