0

我有一个数据集的短信格式不正确且稀疏,我尝试使用主题建模来获取每个可能的主题,每个主题的概率,因为我需要的概率以及该主题来安排或排列每个消息的主题。我正在考虑的另一种解决方案是手动标记我的数据集并使用监督分类算法,如Naiive Bayes。 这里是一个稀疏且包含垃圾内容所以这就是为什么我认为主题建模没有工作我的短信样本:从短信中提取主题

enter image description here

的挑战,我面对

  1. 是这是一种正确的思维方式(选择分类?)还是 这更多是一种无监督的问题或主题建模?

  2. 如何准备数据集:1类为标签或所有可能的类别(1 列以上)

  3. 这是一个多标记或者多类分类问题

  4. 对于训练数据集的每一个消息

回答

1

如果你知道主题是什么,那么使用受监督的朴素贝叶斯。无监督学习可以用于课堂发现。

将多个主题分配给样本不是问题。

朴素贝叶斯根据具有最高概率的主题为样本分配标签。当然,您可以使用最高的x概率(可能有阈值)来分配多个主题。

+0

因此,要确保我得到它的权利如果我手动标记数据,我必须给它超过1标签的培训?正如你所说,那么我可以使用黑客来让Naiive Bayes使用最高的x主题? – user3379762

+0

我已经在上面附上了我的数据集的副本,以了解它是如何稀疏和格式化的,我想确保选择不使用主题建模是正确的还是不是?因为它是一组5000个消息,因此手动标记不是最好的事 – user3379762