sklearn feature_extraction拟合并行

我正在尝试为文本挖掘问题构建矢量化器。使用的词汇应该来自给定的文件。但是，构建字典vocabulary_的文件数量相对较大（如10^5）。有没有简单的方法来并行化？sklearn feature_extraction拟合并行

更新：正如我发现，有一个“手工”的方法......不幸的是，它仅适用于min_df=1让我示范形容我为双核做：分裂您输入分成两个块。训练矢量化器（比如vec1和vec2），每个都在一个核心和一个数据块上（我使用的是multiprocessing.Pool）。然后，

# Use sets to dedupe token 
vocab = set(vec1.vocabulary_) | set(vec2.vocabulary_) 
# Create final vectorizer with given vocabulary 
final_vec = CountVectorizer(vocabulary=vocab) 
# Create the dictionary final_vec.vocabulary_ 
final_vec._validate_vocabulary()

会做这项工作。

来源

2017-09-04 month