我想根据不适合内存的语料库构建tf-idf模型。我读的教程,但胼似乎一下子被加载:TfidfVectorizer适用于不适合内存的语料库
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["doc1", "doc2", "doc3"]
vectorizer = TfidfVectorizer(min_df=1)
vectorizer.fit(corpus)
我不知道如果我可以通过一个文件加载到内存中的一个而不是加载所有的人。
当处理大型语料库时,使用最近的开发版本而不是稳定版本可能是一个好主意,因为对TfidfVectorizer进行了大修以减少内存使用量并提高了速度。 – 2013-05-09 20:20:49