1
我有一个很大的数据集与分类值,并试图使用DictVectorizer
编码它们。以下是我尝试的代码片段。DictVectorizer与大型数据集
dv = DictVectorizer(sparse=True)
_dicts = []
for line in fp:
_dict = create_dict_feature(line)
_dicts.append(_dict)
dv.fit_transform(_dicts)
但是,MemoryError
发生在_dicts.append(_dict)
。我想知道什么是解决此问题的有效方法。