2017-06-05 34 views
1

我对数据集执行了某些计算,我需要将结果存储在外部文件中。将数据帧导出为数据帧格式作为参数传递到下一个程序

如果它已经到了CSV,为了进一步处理它,我不得不再次转换成Dataframe/SFrame,这又一次增加了代码行。

这里的片段:

train_data = graphlab.SFrame(ratings_base) 

显然,这是在SFrame和使用

df_train = train_data.to_dataframe() 

现在,它是在DFRAME,我需要它导出到一个文件,而不可以转换为DFRAME改变它的结构。由于导出的文件将用作另一个python代码的参数。该代码必须接受DFrame而不是CSV。

我已经在place1place2place3place4place5

附:退房 - 我还在挖掘Python的系列化,如果任何人都可以简化
它在上下文会很有帮助

+0

这是不清楚你到底想要达到什么目的。如果你有一个数据帧,你为什么需要将它导出到另一个数据帧? “我需要将结果存储在外部文件中”你试过泡菜吗? – DeepSpace

+0

@DeepSpace我需要数据帧到外部文件,csv的方式完成。然后这个外部文件被计划用于其他程序在参数中给出。我希望这消除了怀疑。 – T3J45

回答

0

我会使用HDFS格式,它是由Pandasgraphlab.SFrame和HDFS格式是非常快的身边支持。

或者,你可以从另一个脚本Pandas.DataFrame出口泡菜文件和阅读:

sf.to_dataframe().to_pickle(r'/path/to/pd_frame.pickle') 

读回(来自相同或其他脚本):

​​
+0

pickle是序列化的概念,但是我想知道我是否可以在参数中传递pickle文件。可能吗?如果是的话我该如何解开它? – T3J45

+0

@Tejas,在答案中有一个例子:'df = pd.read_pickle(r'/ path/to/pd_frame.pickle')' – MaxU

+0

我对通过参数传递它有怀疑。无论如何,我会试试看。非常感谢您的贡献。 – T3J45

相关问题