2017-01-06 47 views
0

我通过pandas.HDFStore()通过熊猫将大约800 GB的巨大数据帧存储到HDF5中。如何将HDF5文件转换为Parquet文件?

import pandas as pd 
store = pd.HDFStore('store.h5') 
df = pd.Dataframe() # imagine the data being munged into a dataframe 
store['df'] = df 

我想查询这与Impala。有没有一种简单的方法将这些数据解析成Parquet?还是Impala允许您直接使用HDF5? HDF5上还有其他数据选择吗?

回答