我有4个csv文件输入到azure ML中的python脚本,但该小部件只有2个输入用于数据框,第三个用于输入zip文件。我试图把CSV文件放在一个压缩文件夹,并将其连接到该脚本的第三个输入,但也没有工作: 在Azure中读取多个CSV文件ML Python脚本
我想知道如何在python脚本读取多个CSV文件。
我有4个csv文件输入到azure ML中的python脚本,但该小部件只有2个输入用于数据框,第三个用于输入zip文件。我试图把CSV文件放在一个压缩文件夹,并将其连接到该脚本的第三个输入,但也没有工作: 在Azure中读取多个CSV文件ML Python脚本
我想知道如何在python脚本读取多个CSV文件。
下面是其他人在上面概述的方法的一些更多细节。尝试用以下代码替换当前“执行Python脚本”模块中的代码:
import pandas as pd
import os
def azureml_main(dataframe1=None, dataframe2=None):
print(os.listdir('.'))
return(pd.DataFrame([]))
运行实验后,单击模块。现在在右侧栏中应该有一个“查看输出日志”链接。我得到类似如下:
[Information] Started in [C:\temp]
[Information] Running in [C:\temp]
[Information] Executing 4af67c05ba02417a980f6a16e84e61dc with inputs [] and generating outputs ['.maml.oport1']
[Information] Extracting Script Bundle.zip to .\Script Bundle
[Information] File Name Modified Size
[Information] temp.csv 2016-05-06 13:16:56 52
[Information] [ READING ] 0:00:00
[Information] ['4af67c05ba02417a980f6a16e84e61dc.py', 'Script Bundle', 'Script Bundle.zip']
这告诉我,我的zip文件的内容已提取到C:\temp\Script Bundle
文件夹。在我的情况下,zip文件只包含一个CSV文件,temp.csv
:您的输出可能有四个文件。你也可能压缩了一个包含你的四个文件的文件夹,在这种情况下,文件路径会更深一层。如有必要,您可以使用os.listdir()
进一步探索您的目录结构。
一旦你认为你知道你的CSV文件的完整文件路径,编辑您执行Python脚本模块的代码加载它们,例如:
import pandas as pd
def azureml_main(dataframe1 = None, dataframe2 = None):
df = pd.read_csv('C:/temp/Script Bundle/temp.csv')
# ...load other files and merge into a single dataframe...
return(df)
希望帮助!
正如@MattR所说,您只需要将4个csv文件直接追加到zip文件theano_keras2.zip
中,而无需将这些csv文件打包为一个单独的zip文件来追加。然后,您可以在模块Execute Python Script
中使用这些csv文件,即csv文件路径相对于theano_keras2.zip
目录的根目录。
希望它有帮助。
会将所有csv文件添加到一个选项中?这可以用Python轻松完成。排序预处理的事情 – MattR