2014-11-06 25 views
0

我有2-3 GB的大数据集。我正在使用(nltk)朴素贝叶斯分类器将数据用作列车数据。当我运行小数据集的代码时,运行良好,但运行大数据集时,运行时间很长(超过8小时),然后崩溃时没有太多错误。我相信这是因为记忆问题。如何在python中为大数据集制作朴素贝叶斯分类器

此外,在对数据进行分类之后,我希望分类器转储到文件中,以便以后可以用于测试数据。这个过程也需要太多的时间,然后崩溃,因为它首先将所有内容加载到内存中。

有没有办法解决这个问题?

另一个问题是,是否有一种方法来并行化整个操作,即使用像Hadoop/MapReduce这样的框架来并行化这个大型数据集的分类?

+0

如果没有你的情况更多背景资料及具体的信息很难帮助/回答你的问题。 – AtAFork 2014-11-06 04:35:35

回答