2
我只是遵循代码here(对sklearn 0.17稍作修改)。在那个例子中,数据只是列表或numpy数组。现在我想在磁盘上准备一个玩具训练数据集,并使用datasets.load_files
加载它进行多标签分类。但是,只需遵循load_files
惯例,然后将同一文件复制到多个文件夹中,就不会为dataset.target
生成列表(又名。标签集)。准备一个多标记分类的训练数据集
那么准备多标记分类数据集的正确方法是什么?
谢谢@maxymoo,这是一个很好的观点。我抓取和存储多个文件,所以也许我只会使用标签列表命名每个文档,不再使用文件夹结构,并编写一个函数来分析文件名并读取内容... – treslumen
如果您正在爬网,您可能会想要考虑使用像mongodb或postgres这样的数据库,从长远来看,您可能会为此感到高兴,而不是有大量文件在浮动。你也可以在数据库上做一些可以方便使用的预处理。 – maxymoo