2013-10-30 73 views
0

我有一个csv文件,我从中导入数据。我试图创建两篇文章中使用的单词列表以及它们被使用了多少次。我正在运行一个循环来获取每个有两篇散文的csv文件的行,并且输出结果会在两篇散文之间发布组合字数。但是,我有数百行每篇都有两篇散文。我希望所有文章中都有一个包含所有文字和单词的列表。将多个值从textmining附加到python的单个列表中

import textmining 

import csv 

with open('2011ShortAnswers.csv', 'rb') as csvfile: 
    data = csv.reader(csvfile, delimiter=",") 

    for row in data: 
     doc1 = row[3] 
     doc2 = row[4] 

     tdm = textmining.TermDocumentMatrix() 

     tdm.add_doc(doc1) 
     tdm.add_doc(doc2) 

     for row in tdm.rows(cutoff=1): 
      print row 
+0

可不可以给我们需要一个csv文件的小样本来处理? –

回答

0

尝试使用,你增加每个单词的字典,当您去:

word_count_dictionary = {} 
for word in row: 
    if word not in word_count_dictionary.keys(): 
     word_count_dictionary[word] = 1 
    else: 
     word_count_dictionary[word] += 1 

然后,您可以遍历键,形成你需要的资源列表:

word_count_list = [(word,word_count_dictionary[word]) for word in word_count_dictionary.keys()] 
相关问题