我正在处理sklearn中的大量文本数据。首先,我需要矢量化文本上下文(字数),然后执行TfidfTransformer。我有下面的代码似乎并没有从CountVectorizer的输出到TfidfTransformer的输入。从CountVectorizer转换到Sklearn中的TfidfTransformer
TEXT = [data[i].values()[3] for i in range(len(data))]
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
vectorizer = CountVectorizer(min_df=0.01,max_df = 2.5, lowercase = False, stop_words = 'english')
X = vectorizer(TEXT)
transformer = TfidfTransformer(X)
X = transformer.fit_transform()
当我运行此代码,我得到这个错误:
Traceback (most recent call last):
File "nlpQ2.py", line 27, in <module>
X = vectorizer(TEXT)
TypeError: 'CountVectorizer' object is not callable
我以为我已经矢量文字,现在是在一个矩阵 - 有,我已经错过了转型的步骤?谢谢!!
谢谢。我当然需要阅读它。 – achimneyswallow
不客气。你*应该*在管道上阅读,这可能是sklearn的基本思想。 –