Gensim数据解析

好的，这是一个关于向Gensim python库提供训练数据时需要什么数据结构的具体问题。尤其是，在提供数据的任何数据中，必须对构成文档的内容有一个隐含的理解（否则它就不能找到tf-idf）。Gensim数据解析

有关具体示例，维基百科转储在库的教程中用于培训目的。维基百科转储以XML提供。什么让gensim了解单独的文档？这种理解是否依赖于xml元素的选择？

2017-02-22 Stumbler

这在前两个Gensim教程Corpora and Vector Spaces Tutorial和Corpora and Vector Spaces中得到了回答。他们用代码示例引导您完成所有步骤。

它们以documents对象（字符串列表）开始，显示如何创建字典和语料库，以及如何使用字典和语料库创建LDA和LSI等模型。

从Experiments on the English Wikipedia教程示例代码可以看出，字典和语料库是从序列化文件中读取的。我建议通过所有tutorials和示例代码。

2017-03-03 22:43:19 tkja

Gensim与数据源无关。对于其大部分功能，它只需要一个句子列表作为文档。实际上，这些文件甚至可以由组成单词组成（即使用word2vec on graphs）。

对于解析维基百科转储和其他常用语料库类型，它提供了some utility classes。检查其API docs的corpora.*

2017-03-16 10:36:23 pembeci

回答