添加到现有的电子表格？

['name'，'occupation'，'company'，'address'，'address_2'，'city'，'state'，'zip'，'phone' '电子邮件'，'网站'，'描述']

并希望在此电子表格中添加其他包含较少字段名的数据电子表格（尽管所有其他字段名都包含在此电子表格中）。

我得到一个奇怪的错误：

Samuel-Finegolds-MacBook-Pro:~ samuelfinegold$ /var/folders/jv/9_sy0bn10mbdft1bk9t14qz40000gn/T/Cleanup\ At\ Startup/merge-395698810.980.py.command ; exit; 
['name', 'occupation', 'company', 'address', 'address_2', 'city', 'state', 'zip', 'phone,fax', 'email', 'website', 'description'] 
Traceback (most recent call last): 
    File "/Users/samuelfinegold/Documents/noodle/merge.py", line 14, in <module> 
    gc_all_dict.writerow(row) 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/csv.py", line 148, in writerow 
    return self.writer.writerow(self._dict_to_list(rowdict)) 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/csv.py", line 144, in _dict_to_list 
    ", ".join(wrong_fields)) 
TypeError: sequence item 0: expected string, NoneType found 
logout 

[Process completed]

当我运行以下命令：

import csv 

# compile master spreadsheet 
with(open('gc_all.txt','w')) as gc_all: 

    fieldnames = ['name', 'occupation', 'company', 'address', 'address_2','city', 'state', 'zip', 'phone,' 'fax', 'email', 'website', 'description'] 
    gc_all_dict = csv.DictWriter(gc_all, fieldnames = fieldnames, delimiter = '\t') 
    print gc_all_dict.fieldnames 

    with(open('/Users/samuelfinegold/Documents/noodle/aicep/aicep_scrape_output.txt', 'rU')) as aicep: 
     aicep_dict = csv.DictReader(aicep, fieldnames = fieldnames, delimiter = '\t') 
     for row in aicep_dict: 
#    print row 
      gc_all_dict.writerow(row) 


    for row in gc_all: 
     print row

假数据：

name occupation company address address_2 city state zip phone fax email website description 
Rob Er  Step Up 123 Road Dr  New York NY 10011 1234567891 1234567891 [email protected] www.stepUp.com A great counselor 
Bob B. Bob  For Your Rights 12 2nd Ave  San Francisco CA 94109 1234567891 1234567891 [email protected]  
Snob Job  Marley Inc. 12 1st Ave  Denver CO 80231 1234567891 1234567891 [email protected]  What a counselor!

来源

2013-07-16 goldisfine

你可以给我们一个小样本aicep_scrape_output.txt文件，以便我们可以调试吗？ – abarnert

有人可能已经问过这个问题，但是有没有理由不使用像[pandas]（http://pandas.pydata.org）这样的更高级别的库？ – DSM

@DSM：一般来说问题不错......但如果他所做的只是将异构CSV连接到Excel中使用的超集CSV中，pandas将不会添加任何有用的东西（除非出现双倍意外时可能会出现更好的错误消息发生…）。 – abarnert

这里真正的问题是，尽管你在你的问题中声称，所有其他人的域名是而不是包括在这个电子表格中。

您可以通过查看所提出的那条线上的线来判断。 DictWriter._dict_to_list看起来是这样的：

def _dict_to_list(self, rowdict): 
    if self.extrasaction == "raise": 
     wrong_fields = [k for k in rowdict if k not in self.fieldnames] 
     if wrong_fields: 
      raise ValueError("dict contains fields not in fieldnames: " + 
          ", ".join(wrong_fields)) 
    return [rowdict.get(key, self.restval) for key in self.fieldnames]

所以，它找到了一个场，是不是在你的DictWriter。

但是为什么它会在尝试创建错误时引发奇怪的错误？因为缺少的字段被命名为None。 DictWriter代码不是用来处理这个问题的。所以，这是问题＃2。

为什么字段名为None？因为这是DictReader每当它找到一个不适合您提供的fieldnames的列时产生的结果。你可以通过print row看到这个：dict的其中一个元素将会是None: 'foo'。所以，这是问题＃3。

那么你如何解决这个问题呢？

那么，显而易见的事情就是让你的声明成真：使目标中的字段成为源代码中字段的严格超集。

或者，您可以告诉您的DictReader跳过额外的字段，或者您的DictWriter忽略它们而不是提高。例如，只需将extrasaction='ignore'添加到您的DictWriter构造函数中，问题就会消失。

但是，真的，你不应该那样做。 raise在这里遇到了一个合法的bug;它只是没有这样做的一个非常有用的错误信息。

来源

2013-07-16 20:40:32 abarnert

我印象深刻。而且，即使代码成功，gc_all：行中的下一行也肯定会失败。 –

@TimPietzcker：好点。另外，考虑到他显然希望将一堆CSV文件连接在一起，使用'w'而不是'a'或'w +'可能是一个坏主意... – abarnert

“他”会将模式更改为w + – goldisfine

添加到现有的电子表格？

回答

相关问题