0
我有一套文档ID
s(keys.csv),我用它从文档源中获取一组文档文档。我希望将所有这些文本文档收集到一个语料库中以供进一步分析(如余弦相似性)。如何使用一组文本文件创建语料库 - python?
我正在使用下面的代码将每个文本文档追加到语料库中,但我不确定这是否会起作用。用这些文本文档创建语料库是否有更好的方法?
keys = pandas.read_csv(keys.csv)
for i in keys:
ID = i
doc = function_to_get_document(ID)
corpus = corpus.append(doc)
'corpus'是一个列表吗? –
最好的答案是测试它,看看它是否符合你的目的。更多的是,你的ID变量是无用的。 – 2017-02-21 09:10:25
也许像'corpus = [function_to_get_document(ID)for pandas.read_csv(keys.csv)]''? – jezrael