我有这个文件,这将在下文规定,如何在R/Python中使用多个头文件读取.xls文件以进行数据处理?
正如你可以看到它由许多头层的,我怎么能在R/Python中读取这个文件,这样我可以在适当的格式得到它处理它?
我有这个文件,这将在下文规定,如何在R/Python中使用多个头文件读取.xls文件以进行数据处理?
正如你可以看到它由许多头层的,我怎么能在R/Python中读取这个文件,这样我可以在适当的格式得到它处理它?
使用Pandas进行阅读时,您可以手动指定列名。
import pandas as pd
file_name = r"/foo/bar/data.xlsx"
columns = ["Foo", "Bar", "Baz"]
df = pd.read_excel(file_name, header=None, skiprows=7, names=columns)
设置辑阵级列:
df = pd.DataFrame({'Foo':[1,2,3],'Bar':[2,4,6], "Baz": [3, 6, 9]})
columns = [("Cereals", "Rice", "Autumn"), ("Cereals", "Rice", "Summer"), ("Cereals", "Wheat", "Winter")]
df.columns = pd.MultiIndex.from_tuples(columns)
好的,但是数据集中的每一列都根据多个标题出现在不同的类别下,所以我如何能够保留层次结构?例如“Autumn”栏位在“Rice”标题下,并且在“Cereals and Millets”下再次出现。 –
这就是为什么我问你认为什么是正确的。见编辑的答案。 – Batman
好吧!我第一次处理这种类型的文件有点困惑,即使我不知道什么是适当的格式。感谢您的建议,我会尝试使用这一个。 –
在熊猫,你可以看看层次索引(多指标)http://pandas.pydata.org/pandas-docs/stable/advanced.html
但是作为对你经过适当的标题,然后做的是“蝙蝠侠”通过阅读和应用您自己的专栏标题说上述说
任何使用R的解决方案? –
你认为什么是“正确的?” – Batman
每列有两个以上的标题,如何管理,以便我最终拥有正确的1个标题数据集! –