像flipboard这样的新闻聚合器如何将他们的文章分为“政治”,“商业”等类别?我已经搜索过这个,但没有找到任何结果,我想它可以手动完成,但我觉得这不太可能, ??的饲料是否有包含RSS列表按照类别提要如果没有,这是怎么实现的一个公共数据库RSS新闻聚合器如何对数据进行分类?
1
A
回答
1
它可以是一个复杂的,多步骤的过程,但在一般:
将数据标记为段落,句子和单词http://nlp.stanford.edu/software/tokenizer.shtml是一个可以实现这个功能的工具的示例http://alias-i.com/lingpipe/是另一个示例
一旦标记化,抛出非特定的一般词(也称为“停用词”),如“a”,“the”,“ha”,“lol”,“omg”等。标记器通常具有内置的方法,可以识别这些方法并处理它们。
确定n-grams(单词拼凑在一起)。例如,单词“Bay”和“Area”是两个单词,但它们通常被认为是单个单词“Bay Area”。您需要识别这样的实体才能正确分类。
按照词类对其余项目进行分组。例如,这可能很方便,可以抛出动词,副词,并且只使用名词和形容词作为分类。
最后,按类别切片和裁切数据。
相关问题
- 1. 新闻聚合器
- 2. 新闻聚合器的种类
- 3. 如何创建新闻聚合器?
- 4. 新闻聚类
- 5. 如何对类似的新闻文章进行分组/比较
- 6. 新闻聚合器网站托管
- 7. 新闻/标签聚合包?
- 8. Drupal新闻聚合模块?
- 9. 在sql查询中对数据进行分组以聚合行
- 10. RSS的聚合部分如何工作?
- 11. 将聚合行重新整形为新列,分类数据
- 12. 如何根据密度对数据进行聚类?
- 13. 对数据进行分类
- 14. RSS聚合如何工作?
- 15. 在R中对混合数据集进行聚类
- 16. 对数据进行分类并分配新数据
- 17. RSS提要聚合器
- 18. RSS新闻推送
- 19. RSS聚合包
- 20. samachar.com如何使用google新闻rss?
- 21. 如何对表中的行进行分组而不使用聚合函数?
- 22. 对数据进行积分拟合
- 23. 在Apache Spark中使用分类和数字功能对数据进行聚类
- 24. RSS阅读器中的热门新闻
- 25. WPF C#股票RSS新闻阅读器
- 26. 如何根据聚合对大熊猫组进行排序
- 27. 如何根据多列的排序对PostgreSQL中的聚合进行分组?
- 28. 如何对多个数据表进行分组/分类?
- 29. RSS新闻馈送API
- 30. 谷歌新闻RSS源 -