如何在不设置Hadoop或Spark等集群计算基础架构的情况下将适中大小的Parquet数据集读入内存中的Pandas DataFrame?这只是我想在笔记本电脑上用简单的Python脚本在内存中读取的适量数据。数据不驻留在HDFS上。它在本地文件系统上或可能在S3中。我不想启动和配置Hadoop,Hive或Spark等其他服务。如何将Parquet文件读入Pandas DataFrame?
我认为Blaze/Odo会做到这一点:Odo文档提到了Parquet,但这些例子似乎都是通过外部Hive运行时进行的。
你有没有公开提供的数据?我的python-parquet分支https://github.com/martindurant/parquet-python/tree/py3在parquet.rparquet中有一个熊猫阅读器,你可以试试它。有许多镶木结构它不能处理。 – mdurant
等待Pandas作者Wes Mckinney参与的Apache Arrow项目。 http://wesmckinney.com/blog/pandas-and-apache-arrow/完成后,用户应该可以直接从Pandas中读取Parquet文件。 – karenyng
由于这个问题是关闭的话题(但仍然是谷歌的第一个结果),我必须在评论中回答..你现在可以使用pyarrow来读取parquet文件并将其转换为熊猫DataFrame:import pyarrow。镶木地板为pq; df = pq.read_table('dataset.parq')。to_pandas()' – sroecker