0
我通过pandas.HDFStore()
通过熊猫将大约800 GB的巨大数据帧存储到HDF5中。如何将HDF5文件转换为Parquet文件?
import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df
我想查询这与Impala。有没有一种简单的方法将这些数据解析成Parquet?还是Impala允许您直接使用HDF5? HDF5上还有其他数据选择吗?
如果我运行'hdf_to_parquet.py',这些Parquet文件会写入磁盘吗?然后我可以将它们导入Impala? – ShanZhengYang