从哪里可以获得已在企业领域中被分类为积极/消极情绪的文档的语料库?我想要一大批为公司提供评论的文件集,比如分析师和媒体提供的公司评论。情绪分析的培训数据
我发现有产品和电影评论的语料库。是否有商业领域的语料库,包括与企业语言相匹配的公司评论?
从哪里可以获得已在企业领域中被分类为积极/消极情绪的文档的语料库?我想要一大批为公司提供评论的文件集,比如分析师和媒体提供的公司评论。情绪分析的培训数据
我发现有产品和电影评论的语料库。是否有商业领域的语料库,包括与企业语言相匹配的公司评论?
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
您可以使用Twitter,与它的表情,就像这样:http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
希望得到您开始。如果你对特定的子任务感兴趣,比如否定,情感范围等,
为了把重点放在公司上,你可以将一种方法与主题检测结合起来,或者便宜地提到很多提及一个给定的公司。或者您可以获得Mechanical Turkers注释的数据。
FYI pitt移到这里http://mpqa.cs.pitt .edu/corpora/mpqa_corpus/ –
我不知道任何这样的语料库是免费提供的,但您可以在未标记的数据集上尝试使用unsupervised method。
这里有几个;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
我们需要输入kaggle链接的大学电子邮件和密码。 – user3798602
如果您对您要浏览的域的一些资源(媒体渠道,博客等),您可以创建自己的语料库。 我这样做在python:
创建语料库是预先的辛勤工作处理,检查,标记等,但具有为特定领域准备模型多次提高准确性的益处。如果你已经准备好语料库,只需继续进行情感分析;)
你可以从Datafiniti获得大量的在线评论。大多数评论都带有评分数据,这会提供比正面/反面更加细化的情绪。这是一个list of businesses with reviews,这里是一个list of products with reviews。
这是我几个星期前写的一个清单,从my blog。其中一些数据集最近已被包含在NLTK Python平台中。
意见词汇
MPQA主体性词汇
SentiWordNet
哈佛一般问询
语言调查和字数(LIWC)
维达词汇
MPQA数据集
NOTES:GNU Public License。
Sentiment140(鸣叫)
STS-黄金(鸣叫)
顾客评分数据集(产品评论)
包括在NLTK Python的平台
优点和缺点数据集(利弊句子)
<pros>
或<cons>
比较句(评论)
包括在在NLTK Python的平台
桑德斯分析Twitter的情绪语料库(TWE ETS)
5513手分类鸣叫WRT 4个不同的主题。由于Twitter的ToS,包含一个小的Python脚本来下载所有的推文。情感分类本身是免费提供的,没有任何限制。它们可能被用于商业产品。他们可能被重新分配。他们可能会被修改。
西班牙鸣叫(鸣叫)
SemEval 2014(鸣叫)
您不得重新分配的鸣叫,注释或获得的语料库(自述文件)
各种数据集(评论)
各种数据集#2(评价)
参考文献:
很好的答案。非常感谢Kurt。 – ylnor
又见此相关的问题: http://stackoverflow.com/questions/5570681/what-training-data-sources-could-be-used-for-sentiment-classification-models –