如何在python中为大数据集制作朴素贝叶斯分类器

我有2-3 GB的大数据集。我正在使用（nltk）朴素贝叶斯分类器将数据用作列车数据。当我运行小数据集的代码时，运行良好，但运行大数据集时，运行时间很长（超过8小时），然后崩溃时没有太多错误。我相信这是因为记忆问题。如何在python中为大数据集制作朴素贝叶斯分类器

此外，在对数据进行分类之后，我希望分类器转储到文件中，以便以后可以用于测试数据。这个过程也需要太多的时间，然后崩溃，因为它首先将所有内容加载到内存中。

有没有办法解决这个问题？

另一个问题是，是否有一种方法来并行化整个操作，即使用像Hadoop/MapReduce这样的框架来并行化这个大型数据集的分类？

2014-11-06 jigsaw

如果没有你的情况更多背景资料及具体的信息很难帮助/回答你的问题。 – AtAFork 2014-11-06 04:35:35

我希望你必须动态增加内存来克服这个问题。我希望此链接将帮助您 Python Memory Management

2014-11-06 04:57:04 BelieveToLive

回答