好的,这是一个关于向Gensim python库提供训练数据时需要什么数据结构的具体问题。尤其是,在提供数据的任何数据中,必须对构成文档的内容有一个隐含的理解(否则它就不能找到tf-idf)。Gensim数据解析
有关具体示例,维基百科转储在库的教程中用于培训目的。维基百科转储以XML提供。什么让gensim了解单独的文档?这种理解是否依赖于xml元素的选择?
好的,这是一个关于向Gensim python库提供训练数据时需要什么数据结构的具体问题。尤其是,在提供数据的任何数据中,必须对构成文档的内容有一个隐含的理解(否则它就不能找到tf-idf)。Gensim数据解析
有关具体示例,维基百科转储在库的教程中用于培训目的。维基百科转储以XML提供。什么让gensim了解单独的文档?这种理解是否依赖于xml元素的选择?
这在前两个Gensim教程Corpora and Vector Spaces Tutorial和Corpora and Vector Spaces中得到了回答。他们用代码示例引导您完成所有步骤。
它们以documents
对象(字符串列表)开始,显示如何创建字典和语料库,以及如何使用字典和语料库创建LDA和LSI等模型。
从Experiments on the English Wikipedia教程示例代码可以看出,字典和语料库是从序列化文件中读取的。我建议通过所有tutorials和示例代码。
Gensim与数据源无关。对于其大部分功能,它只需要一个句子列表作为文档。实际上,这些文件甚至可以由组成单词组成(即使用word2vec on graphs)。
对于解析维基百科转储和其他常用语料库类型,它提供了some utility classes。检查其API docs的corpora.*