2017-09-04 25 views
1

我正在尝试为文本挖掘问题构建矢量化器。使用的词汇应该来自给定的文件。但是,构建字典vocabulary_的文件数量相对较大(如10^5)。有没有简单的方法来并行化?sklearn feature_extraction拟合并行

更新:正如我发现,有一个“手工”的方法......不幸的是,它仅适用于min_df=1让我示范形容我为双核做: 分裂您输入分成两个块。训练矢量化器(比如vec1和vec2),每个都在一个核心和一个数据块上(我使用的是multiprocessing.Pool)。然后,

# Use sets to dedupe token 
vocab = set(vec1.vocabulary_) | set(vec2.vocabulary_) 
# Create final vectorizer with given vocabulary 
final_vec = CountVectorizer(vocabulary=vocab) 
# Create the dictionary final_vec.vocabulary_ 
final_vec._validate_vocabulary() 

会做这项工作。

回答