我是一名商业智能分析师,开始使用python进行数据分析。如何将python数据分析代码分解为模块?
我正处于为内部使用(营销分析师)编码营销分析应用程序的初期阶段,无需使用MS Excel进行计算。
的主要目标是:
提示,要求选择原始文件
读CSV/XLSX数据
清理(删除空值,下降总行,格式化数字和日期等)
转换(创建像每点击成本等指标 impressi插件,每引线,广告支出的回报,像 Facebook的每个频道,YouTube,谷歌搜索等)
分析(高亮由通道最好和最差的表演,目标,网址等 型)负载(打印屏幕和一个XLSX 写入文件)
现在我已经打破了这个项目分成两个文件:main.py(主要功能和打印)和data_prep.py(与数据清理和转换相关的功能)。
我相信必须有一个框架或某种逻辑和有组织的方式打破文件的模型,我想在早期阶段将其应用于避免返工和构建更可靠和易于维护的应用程序。
PS:在这个线程中,我关心的是文件/目录结构,而不是我需要使用的库。
您可能想要查看http://pandas.pydata.org/ – dashiell
您是否在尝试为编号1构建基于Web的UI?如果是这样,您需要在前端处理上传。对于数字2和3,您可以使用以下库:csv(附带python),xlrd(用于读取可能有格式的excel文件)和pandas(对大部分任务有帮助)。对于数字3-5,熊猫可能是最有用的图书馆。你可以在这里阅读更多关于它的信息:http://pandas.pydata.org/ –
我觉得我在这里错过了你的问题。 – SandPiper