2015-11-27 193 views
2

我正在Python中创建一个朴素贝叶斯分类器,它将能够猜测哪一个月它基于某一天的某些天气数据。朴素贝叶斯分类器中的Python偏度和峰度

目前使用均值和标准差来对月份进行分类,但我认为添加偏度和峰度可能有助于提高精度。

我目前使用scipy.stats.norm.cdf来计算机会,但我似乎无法在Python中找到任何将偏度和峰度考虑在内的cdf函数。

我觉得我可能不会正确理解偏度和峰度。偏度和峰度对cdf函数有影响,因此我期望它们作为参数给出。

我对偏度,峰度和cdf函数的理解是否有根本错误?如果不是,那么我在哪里可以找到Python中的cdf函数的实现,并将所有这些参数考虑在内?

+0

它可能不是解决你的问题,但看一看:http://scikit-learn.org/stable/modules/naive_bayes.html – Dietrich

+0

在正态分布偏度和峰度均为零和因此如果您想以某种方式从这些参数中定义它,您将不得不使用不同类型的分布。 –

回答

2

您正在使用的正态分布(scipy.stats.norm),它通常用于模拟Naive Bayes中的一维条件分布,仅由两个参数 - 其meanstd定义。指定偏度/峰度没有意义,因为它们对于你的分布是恒定的(特别是峰度是3)。

你在想什么可能是一个皮尔逊分布,用于拟合更多的时刻(平均值,标准偏度和峰度)。

http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.pearson3.html