在Python中存储刮取数据的最佳方式用于分析

-2

我使用python和美丽的汤从网上抓取足球运动员统计数据。我会从多个来源获取信息，每个来源都会有各种变量，包括字符串，整数和布尔值。例如球员名字，职位选拔，职业选秀权（y/n）。在Python中存储刮取数据的最佳方式用于分析

最终我想将这些数据放入数据挖掘工具或分析工具中，以便找到趋势。这将需要被搜索，我需要能够添加数据到玩家的信息，当我从一个新的来源以不同的顺序刮。

我应该使用什么技术来存储数据，以便我最好能够在以后添加它并进行分析？

来源

2016-07-29 Michael

一个数据库。祝你好运。 – shellter

不，是一个CSV文件。这是所有数据挖掘工具可以很好读取的格式。 –

使用分层方法：下载，解析，存储，分析。

将图层分开。最重要的是，不要只下载数据，然后将其存储为最终解析的格式。你将不可避免地意识到你错过了某些东西，需要重新整理一遍。使用类似requests + requests_cache（我发现扩展requests_cache.backends.BaseCache并将其存储在文件系统上比检查默认的sqlite存储后端更方便）。

解析你已经使用美丽的汤，它工作正常。

对于存储&分析使用数据库。避免使用NoSQL的诱惑 - 只要你需要运行聚合查询，你会后悔的。

来源

2016-07-29 14:41:02 Levi

在Python中存储刮取数据的最佳方式用于分析

回答

相关问题