收集大量推文的最佳方式是什么？

所以我目前正在收集有关的特定位置的鸣叫，然后分析哪些是从收集到的鸣叫位置回事。我的任务基本上涉及大量的数据挖掘。收集大量推文的最佳方式是什么？

主要的问题我也碰到过不过是收集足够的鸣叫，让我做出判断。

我一直在使用Twitter的流API，然而，这只是给所有的鸣叫的1％，这是远远不够的。我挖掘了10万条推文，英文很少，更不用说与我正在寻找的位置有关。

我也注意到，Twitter的速率限制频率也有通过他们的API调用的方法。像trendmap.com这样的网站如何运作？他们以某种方式访问更大的数据集？

编辑：好的，所以我试图在twiiter4j API中使用地理定位功能。如果你对你的实现小心的话，可以避免使用率限制。但是，当推文非常低时，实际上具有地理位置功能的人数会开启。因此，这并不代表该地区的人。我似乎每次都得到相同的推文。 Twitter确实提供了一个“近”搜索运营商，这在他们的网站上非常出色。但是，据我所知，他们没有在他们的API中包含这个功能。

来源

2014-01-05 illwalkwithyou