2015-05-31 59 views
1

所以我想在一些文档上训练朴素贝叶斯算法,如果我以字符串的形式存在文档,下面的代码将运行良好。但问题是我经历了一系列预处理步骤,这些步骤不止是停用词删除,词形化等,而是有一些自定义转换,它返回一个ngram列表,其中n可以[1,2,3]取决于在文本的上下文中。 所以现在,因为我有ngram的列表而不是代表文档的字符串,我很困惑,我怎样才能表示与CountVectorizer的输入相同。 有什么建议吗?Python:从列表中创建术语文档矩阵

将文档作为字符串类型的文档数组正常工作的代码。

count_vectorizer = CountVectorizer(binary='true') 
data = count_vectorizer.fit_transform(docs) 

tfidf_data = TfidfTransformer(use_idf=False).fit_transform(data) 
classifier = BernoulliNB().fit(tfidf_data,op) 

回答

相关问题