2014-07-09 70 views
1

像flipboard这样的新闻聚合器如何将他们的文章分为“政治”,“商业”等类别?我已经搜索过这个,但没有找到任何结果,我想它可以手动完成,但我觉得这不太可能, ??的饲料是否有包含RSS列表按照类别提要如果没有,这是怎么实现的一个公共数据库RSS新闻聚合器如何对数据进行分类?

回答

1

它可以是一个复杂的,多步骤的过程,但在一般:

  1. 将数据标记为段落,句子和单词http://nlp.stanford.edu/software/tokenizer.shtml是一个可以实现这个功能的工具的示例http://alias-i.com/lingpipe/是另一个示例

  2. 一旦标记化,抛出非特定的一般词(也称为“停用词”),如“a”,“the”,“ha”,“lol”,“omg”等。标记器通常具有内置的方法,可以识别这些方法并处理它们。

  3. 确定n-grams(单词拼凑在一起)。例如,单词“Bay”和“Area”是两个单词,但它们通常被认为是单个单词“Bay Area”。您需要识别这样的实体才能正确分类。

  4. 按照词类对其余项目进行分组。例如,这可能很方便,可以抛出动词,副词,并且只使用名词和形容词作为分类。

  5. 最后,按类别切片和裁切数据。