2015-01-05 40 views
0

我对节约矢量器以供日后使用中产生一种疑问:保存矢量器scikit学习

一)不配合(在这种情况下,与词汇,并将其他所有PARAMS)改变其参数?

b)拟合(一般情况下)是否会改变向量参数?

c)它的重要性是什么时候 - 在装修之前保存(取决于装修期间是否改变)?

vec = TfidfVectorizer(analyzer='word', ngram_range=(1, 2), lowercase=True, stop_words=StopWordsList, token_pattern=r'\b\w{3,}\b', norm='l1', sublinear_tf=True, max_df=0.99, min_df=0.01, max_features=10000, vocabulary=FreqDict1000) 


VectFName = PathName + 'VECTORIZER/' + SysName + 'vec.pkl' 
joblib.dump(vec, VectFName) 

我比较了vec.get_params之前和之后似乎它们是相同的。

回答

0

您需要比较vocabulary_ property或get_feature_names(),而不是vec.get_params。从documentation通过拟合TfidfVectorizer你正在改变它的词汇和idf_频率。这是拟合的整个观点。