基于词典的情感分析的准确性

我对我已经获取的一组Twitter数据执行不同的情感分析技术。它们基于词典（Vader Sentiment和SentiWordNet），因此不需要预先标记的数据。基于词典的情感分析的准确性

我想知道是否有方法（如F-Score，ROC/AUC）来计算分类器的准确性。我所知道的大多数方法都需要一个目标来比较结果。

2017-12-18 mitalip

您没有告诉我们关于您正在使用的第三种技术的任何信息：如果它与您的问题不相关，则可能会提出更清晰的问题以删除提及的问题。 –

@DarrenCook第三种技术是朴素贝叶斯。我已经编辑了相应的问题。 – mitalip

简短的回答是否定的，我不这么认为。（所以，如果有人发布某种方法，我会非常感兴趣。）

使用一些无监督的机器学习技术，您可以获得一些错误度量。例如。一个自动编码器给你一个MSE（表示低维表示可以被重建回原始的更高维表格的准确程度）。

但是对于情感分析，我能想到的是使用多种算法并在它们之间测量同一数据上的协议。如果他们都同意某个特定的情绪，则将其标记为更可靠的预测，但他们都不同意，将其标记为不可靠的预测。（这依赖于没有算法具有相同的偏见，这可能不太可能）。

通常的做法是标记一些百分比的数据，并假设/希望它代表整个数据。

2017-12-19 10:38:43

回答