2014-04-01 35 views
0

我正在尝试使用python mapper reducer函数应用tokenizer。我有以下代码,但我不断收到错误。 reducer输出列表中的值,并将值传递给vectorizer。在Python中使用CountVectorizer Mapper Reducer

ValueError:空的词汇表;也许文件只包含停止词

谢谢你提供的任何帮助。

回答

0

CountVectorizer是有状态的:您需要将整个数据集中的同一个实例合并到一起才能构建词汇表,因此这不适用于并行处理。

取而代之,您可以使用HashingVectorizer这是无状态的(无需配合,您可以直接拨打transform)。

相关问题