我想使用熊猫将许多(几千列tsv文件)数据帧合并到一个csv文件中。我是熊猫新手(和python),可以使用一些输入或方向。使用熊猫合并大量数据帧的最佳策略
我的数据框是从网上抓取的列表中的观测数据,不包含标题。例如:
数据帧1:
bluebird 34
chickadee 168
eagle 10
hawk 67
sparrow 2
数据帧2:
albatross 56
bluebird 78
hawk 3
pelican 19
sparrow 178
我希望做的是简单地创建一个主文件的所有个人意见:
albatross 0 56
bluebird 34 78
chickadee 168 0
eagle 10 0
hawk 67 3
pelican 0 19
sparrow 2 178
我试图合并使用熊猫一次的数据帧:
import pandas as pd
df1 = pd.read_table("~/home/birds1.tsv", sep='\t')
df2 = pd.read_table("~/home/birds2.tsv", sep='\t')
merged = df1.merge(df1, df2, how="left").fillna("0")
merged.to_csv("merged.csv", index=False)
但我只收到一列。我没有“鸟”的主列表,但是如果需要的话,我可以连接所有的数据并对字典列表的唯一名称进行排序。
我的策略是合并几千个文件?
索引和列的名称是什么? – 2014-11-05 21:06:14
提供给我的数据框没有索引或列名。我想我可以将它们添加到现有数据中,但这会增加一个步骤 - 很容易在命令行中进行。感谢西蒙! – 2014-11-14 18:33:28