2015-06-03 32 views
0

我有一个csv文件,其中包含某些国家的贸易数据。该数据具有如下格式:Python中两个字典中的值之间的交集

rep par commodity value 
USA GER 1   700 
USA GER 2   100 
USA GER 3   400 
USA GER 5   100 
USA GER 80  900 
GER USA 2   300 
GER USA 4   500 
GER USA 5   700 
GER USA 97  450 
GER UK  50  300 
UK USA 4   1100 
UK USA 80  200 
UK GER 50  200 
UK GER 39  650 

我打算做一个新的字典,并使用创建的字典,计算国家之间的共同交易的商品的总价值。 例如,考虑USA-GER之间的贸易,我打算检查GER-USA是否在数据中,如果存在,则对所有国家的普通商品的价值进行汇总并做相同的处理。字典应该是这样的:

Dic_c1c2_producs= 
{('USA','GER'): ('1','700'),('2','100'),('3','400'),('5','100'),('80','900'); 
('GER','USA'):('2','300'),('4','500'),('5','700'),('97','450') ; 
('GER','UK'):('50','300'); 
('UK','USA'): ('4','80'),('80','200'); 
('UK','GER'): ('50','200'),('39','650')} 

正如你可以看到,USA-GER和GER​​-USA有商品2和5在共同与这些商品的价值是(100 + 300)+(100 + 700) 。 对于USA-UK和UK-USA对,我们有普通商品:0,因此总交易也为0。对于GER-UK和UK-GER,商品50是常见的,总交易量为300 + 200。 最后,我想有这样的:

Dic_c1c2_summation={('USA','GER'):1200;('GER','UK'):500; ('UK','USA'):0} 

任何帮助,将不胜感激。

除了我的职务,我已经写了下面几行:

from collections import defaultdict 
rfile = csv.reader(open("filepath",'r')) 
rfile.next() 
dic_c1c2_products = defaultdict(set) 
dic_c_products = {} 
country = set() 
for row in rfile : 
     c1 = row[0] 
     c2 = row[1] 
     p = row[2] 
     country.add(c1) 
for i in country : 
    dic_c_products[i] = set() 
rfile = csv.reader(open("filepath")) 
rfile.next() 
for i in rfile: 
    c1 = i[0] 
    c2 = i[1] 
    p = i[2] 
    v=i[3] 
    dic_c_products[c1].add((p,v)) 
    if not dic_c1c2_products.has_key((c1,c2)) : 
     dic_c1c2_products[(c1,c2)] = set() 
     dic_c1c2_products[(c1,c2)].add((p,v)) 

    else: 
      dic_c1c2_products[(c1,c2)].add((p,v)) 
c_list = dic_c_products.keys() 
dic_c1c2_productsummation = set() 
for i in dic_c1c2_products.keys(): 
    if dic_c1c2_products.has_key((i[1],i[0])): 
     for p1, v1 in dic_c1c2_products[(i[0],i[1])]: 
      for p2, v2 in dic_c1c2_products[(i[1],i[0])]: 
       if p1==p2: 
        summation=v1+v2 
        if i not in dic_c1c2_productsum.keys(): 
         dic_c1c2_productsum[(i[0],i[1])]=(p1, summation) 
        else: 
         dic_c1c2_productsum[(i[0],i[1])].add((p1, summation)) 
    else: 
      dic_c1c2_productsn[i] = " " 
+1

你尝试过什么到目前为止? – user1269942

+0

@ user1269942我发布了我的代码。它虽然不起作用 – homayoun

回答

1
# save your data in a file called data 
import pandas as pd 
data = pd.read_csv('data', delim_whitespace=True) 
data['par_rep'] = data.apply(lambda x: '_'.join(sorted([x['par'], x['rep']])), axis=1) 
result = data.groupby(('par_rep', 'commodity')).filter(lambda x: len(x) >= 2).groupby(('par_rep'))['value'].sum().to_dict() 

result{'GER_UK': 500, 'GER_USA': 1200}

相关问题