2017-08-08 64 views
0

我是一名商业智能分析师,开始使用python进行数据分析。如何将python数据分析代码分解为模块?

我正处于为内部使用(营销分析师)编码营销分析应用程序的初期阶段,无需使用MS Excel进行计算。

的主要目标是:

  1. 提示,要求选择原始文件

  2. 读CSV/XLSX数据

  3. 清理(删除空值,下降总行,格式化数字和日期等)

  4. 转换(创建像每点击成本等指标 impressi插件,每引线,广告支出的回报,像 Facebook的每个频道,YouTube,谷歌搜索等)

  5. 分析(高亮由通道最好和最差的表演,目标,网址等 型)负载(打印屏幕和一个XLSX 写入文件)

现在我已经打破了这个项目分成两个文件:main.py(主要功能和打印)和data_prep.py(与数据清理和转换相关的功能)。

我相信必须有一个框架或某种逻辑和有组织的方式打破文件的模型,我想在早期阶段将其应用于避免返工和构建更可靠和易于维护的应用程序。

PS:在这个线程中,我关心的是文件/目录结构,而不是我需要使用的库。

+0

您可能想要查看http://pandas.pydata.org/ – dashiell

+0

您是否在尝试为编号1构建基于Web的UI?如果是这样,您需要在前端处理上传。对于数字2和3,您可以使用以下库:csv(附带python),xlrd(用于读取可能有格式的excel文件)和pandas(对大部分任务有帮助)。对于数字3-5,熊猫可能是最有用的图书馆。你可以在这里阅读更多关于它的信息:http://pandas.pydata.org/ –

+0

我觉得我在这里错过了你的问题。 – SandPiper

回答

0

只要文件位置一致(共享文件夹,群集文件夹,Web服务API派生位置),我不认为有一种“最佳”方式来组织您的文件或目录。在你的标签中要清楚,你应该能够把所有的数据放在一起。像这样的文件结构:

/Marketing/Analysis/dev/ 
    ./source <- for csv files to be kept 
    ./prog <- for your .py files (actual code) 
    ./result <- output from your process 
    ./notes <- for anything non-functional (ie, release notes or project requests) 

你有代码存储或bitbucket回购吗?如果是这样,请使用该功能,并只保存当前代码./prog。

如果您正在使用GoogleAnalytics,您可能想尝试直接从Python进行API调用,而不是将csv文件下载到./source。它只会减少一个变量的数量。

+0

非常感谢!我正在使用bitbucket。 –