0
我有一个数据集的短信格式不正确且稀疏,我尝试使用主题建模来获取每个可能的主题,每个主题的概率,因为我需要的概率以及该主题来安排或排列每个消息的主题。我正在考虑的另一种解决方案是手动标记我的数据集并使用监督分类算法,如Naiive Bayes。 这里是一个稀疏且包含垃圾内容所以这就是为什么我认为主题建模没有工作我的短信样本:从短信中提取主题
的挑战,我面对
是这是一种正确的思维方式(选择分类?)还是 这更多是一种无监督的问题或主题建模?
如何准备数据集:1类为标签或所有可能的类别(1 列以上)
这是一个多标记或者多类分类问题
对于训练数据集的每一个消息
因此,要确保我得到它的权利如果我手动标记数据,我必须给它超过1标签的培训?正如你所说,那么我可以使用黑客来让Naiive Bayes使用最高的x主题? – user3379762
我已经在上面附上了我的数据集的副本,以了解它是如何稀疏和格式化的,我想确保选择不使用主题建模是正确的还是不是?因为它是一组5000个消息,因此手动标记不是最好的事 – user3379762