如何使用一组文本文件创建语料库 - python？

我有一套文档ID s（keys.csv），我用它从文档源中获取一组文档文档。我希望将所有这些文本文档收集到一个语料库中以供进一步分析（如余弦相似性）。如何使用一组文本文件创建语料库 - python？

我正在使用下面的代码将每个文本文档追加到语料库中，但我不确定这是否会起作用。用这些文本文档创建语料库是否有更好的方法？

keys = pandas.read_csv(keys.csv) 
for i in keys: 
    ID = i 
    doc = function_to_get_document(ID) 
    corpus = corpus.append(doc)

来源

2017-02-21 Minu

'corpus'是一个列表吗？ –

最好的答案是测试它，看看它是否符合你的目的。更多的是，你的ID变量是无用的。 – 2017-02-21 09:10:25

也许像'corpus = [function_to_get_document（ID）for pandas.read_csv（keys.csv）]''？ – jezrael

如果csv有独特ID使用list comprehension列IDcol，输出为list：

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']]

样品：

print (pd.read_csv('keys.csv')) 
    IDcol 
0  1 
1  2 
2  3 

def function_to_get_document(x): 
    return x + 1 

corpus = [function_to_get_document(ID) for ID in pd.read_csv('keys.csv')['IDcol']] 
print (corpus) 
[2, 3, 4]

来源

2017-02-21 09:16:39 jezrael

如何使用一组文本文件创建语料库 - python？

回答

相关问题