CountVectorizer MultinomialNB ValueError：尺寸不匹配

我想让我的MultinomialNB工作。我在训练和测试集上使用CountVectorizer，当然两个setz中都有不同的词。所以我看到，为什么错误发生，但我不知道如何解决它。我试图CountVectorizer().transform，而不是作为CountVectorizer().fit_transform在其他职位（SciPy and scikit-learn - ValueError: Dimension mismatch）建议，但只是给我CountVectorizer MultinomialNB ValueError：尺寸不匹配

NotFittedError: CountVectorizer - Vocabulary wasn't fitted.

我如何使用CountVectorizer吧？

from sklearn.feature_extraction.text import CountVectorizer 
from sklearn.cross_validation import train_test_split 
from sklearn.naive_bayes import MultinomialNB 
from sklearn.metrics import classification_report 
import sklearn.feature_extraction 

df = data 
y = df["meal_parent_category"] 
X = df['name_cleaned'] 
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3) 
X_train = CountVectorizer().fit_transform(X_train) 
X_test = CountVectorizer().fit_transform(X_test) 
algo = MultinomialNB() 
algo.fit(X_train,y_train) 
y = algo.predict(X_test) 
print(classification_report(y_test,y_pred))

来源

2017-08-07 Holy Moly

好了，所以提出这个问题后，我想通了:) 这里是词汇和这样的解决方案：

df = train 
y = df["meal_parent_category_cleaned"] 
X = df['name_cleaned'] 
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3) 
vectorizer_train = CountVectorizer() 
X_train = vectorizer_train.fit_transform(X_train) 
vectorizer_test = CountVectorizer(vocabulary=vectorizer_train.vocabulary_) 
X_test = vectorizer_test.transform(X_test) 
algo = MultinomialNB() 
algo.fit(X_train,y_train) 
y_pred = algo.predict(X_test) 
print(classification_report(y_test,y_pred))

来源

2017-08-07 09:58:02

你也可以使用'X_test = vectorizer_train.transform（X_test）'而不是定义一个新的。 –

哦，我湖那。谢谢：） –

CountVectorizer MultinomialNB ValueError：尺寸不匹配

回答

相关问题