2016-09-18 199 views
0

我想使用https://github.com/datamade/dedupe来删除python中的一些记录。看他们的例子Python重复数据删除记录 - 重复数据删除

data_d = {} 
for row in data: 
    clean_row = [(k, preProcess(v)) for (k, v) in row.items()] 
    row_id = int(row['id']) 
    data_d[row_id] = dict(clean_row) 

字典消耗了相当多的内存,一个由pandas创建的字典,一个pd.Datafrmae,甚至一个普通的pd.Dataframe。

如果这种格式是必需的,我怎样才能有效地将pd.Dataframe转换成这样的字典?

编辑

例什么大熊猫产生

{'column1': {0: 1389225600000000000, 
    1: 1388707200000000000, 
    2: 1388707200000000000, 
    3: 1389657600000000000,.... 

例什么重复数据删除预计

{'1': {column1: 1389225600000000000, column2: "ddd"}, 
'2': {column1: 1111, column2: "ddd} ...} 
+0

您可以使用'DataFrame.to_dict()'将Pandas Dataframe转换为字典,这就是您要查找的内容吗? –

+0

事实上,这是列>索引>值,他们似乎需要索引>列>价值,它重新生成每个记录的列键 –

+0

我认为这将从数据的例子大大受益。 – chthonicdaemon

回答

2

看来,df.to_dict(orient='index')会产生你所寻找的表示:

进口大熊猫

data = [[1, 2, 3], [4, 5, 6]] 
columns = ['a', 'b', 'c'] 

df = pandas.DataFrame(data, columns=columns) 

df.to_dict(orient='index') 

结果

{0: {'a': 1, 'b': 2, 'c': 3}, 1: {'a': 4, 'b': 5, 'c': 6}} 
0

你可以尝试这样的事情:

df = pd.DataFrame({'A': [1,2,3,4,5], 'B': [6,7,8,9,10]}) 
A B 
0 1 6 
1 2 7 
2 3 8 
3 4 9 
4 5 10 

print(df.T.to_dict()) 
{0: {'A': 1, 'B': 6}, 1: {'A': 2, 'B': 7}, 2: {'A': 3, 'B': 8}, 3: {'A': 4, 'B': 9}, 4: {'A': 5, 'B': 10}} 

这是在@chthonicdaemon答案输出相同的,所以他的回答可能是更好的。我正在使用pandas.DataFrame.T转置索引和列。

0

不需要python字典,只需要一个允许按列名进行索引的对象。即row['col_name']

因此,假设data是大熊猫数据框应该只可以做一些事情,如:

data_d = {} 
for row_id, row in data.iterrows(): 
    data_d[row_id] = row 

这就是说,蟒蛇类型的字典的内存开销不会是,你必须在内存瓶颈重复数据删除。