2015-06-02 28 views
0

我已经实施了一种无监督算法,用于对来自社交媒体网站(特别是来自Twitter)的数据进行情感分析。
但是,我打算衡量人们对某个特定主题的评价,比如说“某种状态的交通”。
我可以使用'traffic','congestion','pedestrians'等关键字来收集数据。
这些获得的数据中的一部分具有不同的上下文,并且与流量无关。

我的问题是 -

1.如何根据主题过滤数据?
2.我是否需要执行主题提取或使用垃圾邮件过滤器?过滤推特数据

+0

如果我理解正确,那么您已经使用这些关键字下载了推文,现在您想知道其中哪些与流量真正相关?我想[this](https://aritter.github.io/twitter_ner.pdf)可能是一个起点。这是我需要学习的东西,但我还没有经历过。希望能帮助到你。 – lrnzcig

回答

0

能像this有帮助吗?他们提供了一个基于上下文分析Twitter情绪的API。尽管如此,您仍然可能遇到与垃圾邮件相同的问题。

(对不起,它可能不是一个真正的答案,但我无法评论)。

+0

谢谢,这是一个有趣的链接。但是我希望自己解决这个问题,因为实施是一个学术项目的一部分。 – Alpha