1
A
回答
3
这样做将有知标签的表最简单的方法。遍历帖子中的每个单词,如果该单词在标签表中,则将其添加到列表中。为了使这一点稍微有效一些,可以将标记存储在显示和截屏版本中(例如,算法和算法)。然后将帖子中的词干词与词干标签名称进行比较。请参阅Porter的词干算法,以获得简单的方法(用于英语单词)。
更有效的解决方案是使用类似TF-IDF和相关向量与每个标签。为新帖子创建一个矢量,并使用余弦相似度将其与每个标签矢量进行比较。无论哪个标签超过某个阈值,都会添加到帖子中。我从来没有用它来进行自动标记,但根据我的经验,这是处理非垃圾数据时非常有效的匹配工具。 (即,人们并不试图欺骗或欺骗系统)。
这两种方法都假设你已经有了某种标签字典来构建起来。您可以通过查看帖子中经常使用哪些不常见的单词(需要频率表)来猜测标签名称。
1
0
有很多方法可以解决这个问题。正如konforce所暗示的,简单的关键字匹配或TF-IDF是可行的选择。其他包括:
- 使用雅虎的term extraction webservice从文本中提取重要条款。
- 使用Google Prediction API。在已标记帖子的语料库上进行培训,然后要求它预测新帖子的标签。
相关问题
- 1. 是否可以在Ploneboard论坛中将帖子从一个论坛移到另一个论坛?
- 2. 在论坛中自动发帖
- 3. 新帖子/论坛上的帖子
- 4. 是否可以使用FBSDKShareKit在Facebook上自动分享帖子?
- 5. BBS帖子每天
- 6. 在mysql中存储论坛帖子
- 7. 如何在新帖子自动更新论坛主题?
- 8. 简单一点:“帖子”是以论坛为准?是要聊天
- 9. 在论坛上计算帖子数量
- 10. jquery是否有可能自动提交论坛?
- 11. 最新的论坛帖子或回复,在同一查询
- 12. 获取最后一个论坛帖子
- 13. 最新的论坛帖子日期
- 14. 拉最新论坛WordPress内的帖子
- 15. Web刮每个论坛帖子(Python,Beautifulsoup)
- 16. 论坛帖子的贝叶斯过滤
- 17. 将论坛帖子标记为已读?
- 18. PHP论坛 - 阅读/未读帖子
- 19. 论坛帖子没有显示
- 20. 论坛帖子“阅读”和“未读”
- 21. PHP/MySQL的论坛帖子订购
- 22. 如何在fuelphp论坛发帖或发帖?
- 23. 是否可以发表评论到Facebook上的任何帖子?
- 24. 如何在yii中为每个论坛帖子添加评论,使用bbii论坛模块和评论模块
- 25. 是否有MSDN论坛API?
- 26. SQLite是否适合论坛?
- 27. 确定页面从帖子固定链接分页论坛
- 28. 加载自定义论坛帖子:PHP回声与javascript.createElement
- 29. 自定义PHP论坛 - 显示新/未读帖子
- 30. bbs论坛回复帖子序列随机,我想它顺序排序按日期时间desc
是的,这是可能的,如果你写代码来做到这一点。 – Matthew 2011-03-22 06:06:22
我应该使用什么样的算法? – 2011-03-22 06:17:57
@konforce恭喜,这可能是我见过的最没有帮助的评论。 – 2011-03-23 01:03:20