2014-01-05 52 views
2

所以我目前正在收集有关的特定位置的鸣叫,然后分析哪些是从收集到的鸣叫位置回事。我的任务基本上涉及大量的数据挖掘。收集大量推文的最佳方式是什么?

主要的问题我也碰到过不过是收集足够的鸣叫,让我做出判断。

我一直在使用Twitter的流API,然而,这只是给所有的鸣叫的1%,这是远远不够的。我挖掘了10万条推文,英文很少,更不用说与我正在寻找的位置有关。

我也注意到,Twitter的速率限制频率也有通过他们的API调用的方法。像trendmap.com这样的网站如何运作?他们以某种方式访问​​更大的数据集?

编辑:好的,所以我试图在twiiter4j API中使用地理定位功能。如果你对你的实现小心的话,可以避免使用率限制。但是,当推文非常低时,实际上具有地理位置功能的人数会开启。因此,这并不代表该地区的人。我似乎每次都得到相同的推文。 Twitter确实提供了一个“近”搜索运营商,这在他们的网站上非常出色。但是,据我所知,他们没有在他们的API中包含这个功能。

回答

2

如果您是searching using the Twitter API,则可以使用geocode选项将搜索限制为特定的地理位置。

您可以使用result_type=recent,以确保您只得到最近的鸣叫。

最大count - 也就是说,每个请求鸣叫的数量 - 为100

search requests per hour数量电流限值450

所以,这是一个最大的每小时45000个微博 - 是这对你来说足够了吗?

TL:博士 - 使用最严格的一组搜索参数限制结果到那些你真正需要。

+0

感谢您的回复。我已经尝试过你说过的话,但每次只能看到少量的推文。这很可能是因为我所搜索的地区大多数人没有打开地理定位。 – illwalkwithyou

+0

这是设计。如果人们想保留他们的位置私密,你无法找到它。 –

+0

应该尝试自己刮,希望我可以使用近搜索运算符来收集推文。 – illwalkwithyou

相关问题