2017-02-22 63 views
0

好的,这是一个关于向Gensim python库提供训练数据时需要什么数据结构的具体问题。尤其是,在提供数据的任何数据中,必须对构成文档的内容有一个隐含的理解(否则它就不能找到tf-idf)。Gensim数据解析

有关具体示例,维基百科转储在库的教程中用于培训目的。维基百科转储以XML提供。什么让gensim了解单独的文档?这种理解是否依赖于xml元素的选择?

回答

1

这在前两个Gensim教程Corpora and Vector Spaces TutorialCorpora and Vector Spaces中得到了回答。他们用代码示例引导您完成所有步骤。

它们以documents对象(字符串列表)开始,显示如何创建字典和语料库,以及如何使用字典和语料库创建LDA和LSI等模型。

Experiments on the English Wikipedia教程示例代码可以看出,字典和语料库是从序列化文件中读取的。我建议通过所有tutorials和示例代码。

1

Gensim与数据源无关。对于其大部分功能,它只需要一个句子列表作为文档。实际上,这些文件甚至可以由组成单词组成(即使用word2vec on graphs)。

对于解析维基百科转储和其他常用语料库类型,它提供了some utility classes。检查其API docscorpora.*