我正在处理文档聚类问题,为此我需要获取文档数据集的单词频率。在巨大数据集中存储字频
目前,我使用一个简单的办法:我创建了一个词表,我添加尽可能多的列的数据集包含的文档数量,获得类似
word | document1 | document2 | ... | document n |
这种方法,即使如果速度慢,适用于小数据集(包含少于100个文档)。问题是,现在我必须处理巨大的文件,每个文件包含700多个文件,我觉得必须有一个更明智的方式来处理它:问题是,我想不出其他任何东西。
所以,问题是:如何有效地跟踪每个文档的单词频率?
PS:考虑每个文档的单词数量或数据集大小都是未知的,但合理的上限应该是每个文档2000个字,每个数据集2000个文档。