我在使用keras的非常大的文本数据集上创建神经网络。为了构建模型并确保一切正常,我将一小部分数据读入内存,并使用内置的keras'Tokenizer'来执行必要的预处理,包括将每个单词映射到令牌。然后,我使用model.fit()。Keras:Tokenizer with fit_generator()on text data
现在,我想扩展到完整的数据集,并没有空间将所有数据读入内存。所以,我想制作一个生成器函数来从磁盘顺序读取数据,并使用model.fit_generator()。但是,如果我这样做,那么我会在每批数据上分别安装一个Tokenizer对象,为每批提供不同的字对标记映射。有没有办法解决?有什么方法可以使用keras连续构建令牌字典吗?
1)显示目前你在做什么一些代码。 2)为什么不分离预处理任务,将映射对象保存在硬盘上,然后在批生成中进行转换? –