2016-07-29 44 views
-2

我使用python和美丽的汤从网上抓取足球运动员统计数据。我会从多个来源获取信息,每个来源都会有各种变量,包括字符串,整数和布尔值。例如球员名字,职位选拔,职业选秀权(y/n)。在Python中存储刮取数据的最佳方式用于分析

最终我想将这些数据放入数据挖掘工具或分析工具中,以便找到趋势。这将需要被搜索,我需要能够添加数据到玩家的信息,当我从一个新的来源以不同的顺序刮。

我应该使用什么技术来存储数据,以便我最好能够在以后添加它并进行分析?

+0

一个数据库。祝你好运。 – shellter

+0

不,是一个CSV文件。这是所有数据挖掘工具可以很好读取的格式。 –

回答

4

使用分层方法:下载,解析,存储,分析。

将图层分开。最重要的是,不要只下载数据,然后将其存储为最终解析的格式。你将不可避免地意识到你错过了某些东西,需要重新整理一遍。使用类似requests + requests_cache(我发现扩展requests_cache.backends.BaseCache并将其存储在文件系统上比检查默认的sqlite存储后端更方便)。

解析你已经使用美丽的汤,它工作正常。

对于存储&分析使用数据库。避免使用NoSQL的诱惑 - 只要你需要运行聚合查询,你会后悔的。

相关问题