Python：从列表中创建术语文档矩阵

所以我想在一些文档上训练朴素贝叶斯算法，如果我以字符串的形式存在文档，下面的代码将运行良好。但问题是我经历了一系列预处理步骤，这些步骤不止是停用词删除，词形化等，而是有一些自定义转换，它返回一个ngram列表，其中n可以[1,2,3]取决于在文本的上下文中。所以现在，因为我有ngram的列表而不是代表文档的字符串，我很困惑，我怎样才能表示与CountVectorizer的输入相同。有什么建议吗？Python：从列表中创建术语文档矩阵

将文档作为字符串类型的文档数组正常工作的代码。

count_vectorizer = CountVectorizer(binary='true') 
data = count_vectorizer.fit_transform(docs) 

tfidf_data = TfidfTransformer(use_idf=False).fit_transform(data) 
classifier = BernoulliNB().fit(tfidf_data,op)

来源

2015-05-31 Ankit Solanki

您应该结合你的所有预处理步骤为预处理器，也许标记生成器功能，请参阅从scikit学习文档section 4.2.3.10和CountVectorizer description。例如，这种标记器/变压器见scikit-learn本身的related question的src code。

来源

2015-05-31 20:41:13

Python：从列表中创建术语文档矩阵

回答

相关问题