2015-02-11 42 views
0

请帮助我找到用于数据挖掘研究项目的海量数据集。用于研究的大型开放源代码数据集

,如果你给我建议任何搜索引擎数据(谷歌/雅虎用户的搜索历史记录)或维基百科的用户查看统计Twitter的用户鸣叫数据集这将是非常有益的。

我正在研究hadoop框架和数据库,因此我想要在每个表中的数百万条记录。

回答

0

这是百万首歌曲数据集。

http://labrosa.ee.columbia.edu/millionsong/ 

如果你想提取推文,我会建议Twitter的Streaming API。

https://dev.twitter.com/streaming/overview

+0

嘿谢谢Data-KeeG。 但是,如果你建议我使用一些搜索引擎数据集或Twitter推文数据集,那将会非常好。 因为我想进一步工作基于配置文件的Web个性化。 这将帮助我挖掘用户的兴趣,我可以在搜索结果上工作。 再次感谢。 – 2015-02-14 15:49:13