2017-02-21 63 views
0

我有一套文档ID s(keys.csv),我用它从文档源中获取一组文档文档。我希望将所有这些文本文档收集到一个语料库中以供进一步分析(如余弦相似性)。如何使用一组文本文件创建语料库 - python?

我正在使用下面的代码将每个文本文档追加到语料库中,但我不确定这是否会起作用。用这些文本文档创建语料库是否有更好的方法?

keys = pandas.read_csv(keys.csv) 
for i in keys: 
    ID = i 
    doc = function_to_get_document(ID) 
    corpus = corpus.append(doc) 
+0

'corpus'是一个列表吗? –

+1

最好的答案是测试它,看看它是否符合你的目的。更多的是,你的ID变量是无用的。 – 2017-02-21 09:10:25

+0

也许像'corpus = [function_to_get_document(ID)for pandas.read_csv(keys.csv)]''? – jezrael

回答

1

如果csv有独特ID使用list comprehensionIDcol,输出为list

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']] 

样品:

print (pd.read_csv('keys.csv')) 
    IDcol 
0  1 
1  2 
2  3 

def function_to_get_document(x): 
    return x + 1 

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']] 
print (corpus) 
[2, 3, 4] 
相关问题