我们有〜的意见50-300个字符预标记有多个主题,如“音乐”,“高科技”,以及特定的电影,艺术家等最简单的方法/黑匣子根据现有(标记)的数据集来为短帖建议标签?
我们要培养一种算法来autotag未来的评论。我们会手动调整建议以提高准确性,并随着时间的推移手动添加更多标签(例如,新艺术家)。帖子将有一个或多个标签。
开始这个最简单的方法是什么?我在寻找像添加content
和tag 1, tag 2...
这样的简单操作,自动进行培训,然后再给它发回文本以获取建议的标签列表(最好有信心%)。
我们将以成千上万的标签和潜在的10万个帖子结束。
我玩过几件事(天真的贝叶斯,LDA),但我觉得这样一个普通而简单的用例肯定有一些简单的东西。也许一个图书馆或SaaS可以让它变得简单。