46

从哪里可以获得已在企业领域中被分类为积极/消极情绪的文档的语料库?我想要一大批为公司提供评论的文件集,比如分析师和媒体提供的公司评论。情绪分析的培训数据

我发现有产品和电影评论的语料库。是否有商业领域的语料库,包括与企业语言相匹配的公司评论?

+0

又见此相关的问题: http://stackoverflow.com/questions/5570681/what-training-data-sources-could-be-used-for-sentiment-classification-models –

回答

32

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

您可以使用Twitter,与它的表情,就像这样:http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

希望得到您开始。如果你对特定的子任务感兴趣,比如否定,情感范围等,

为了把重点放在公司上,你可以将一种方法与主题检测结合起来,或者便宜地提到很多提及一个给定的公司。或者您可以获得Mechanical Turkers注释的数据。

+1

FYI pitt移到这里http://mpqa.cs.pitt .edu/corpora/mpqa_corpus/ –

1

我不知道任何这样的语料库是免费提供的,但您可以在未标记的数据集上尝试使用unsupervised method

4

如果您对您要浏览的域的一些资源(媒体渠道,博客等),您可以创建自己的语料库。 我这样做在python:

  • 用美丽的汤http://www.crummy.com/software/BeautifulSoup/解析,我要分类的内容。
  • 将那些对公司有正面或负面意见的句子分开。
  • 使用NLTK来处理这个句子,令牌化的话,词性标注等
  • 使用NLTK PMI来计算只有一个类的双字母组或卦MOS频繁

创建语料库是预先的辛勤工作处理,检查,标记等,但具有为特定领域准备模型多次提高准确性的益处。如果你已经准备好语料库,只需继续进行情感分析;)

13

这是我几个星期前写的一个清单,从my blog。其中一些数据集最近已被包含在NLTK Python平台中。

辞书由刘兵


数据集


参考文献:

+1

很好的答案。非常感谢Kurt。 – ylnor