2013-05-20 28 views
0

R - 问题:找到最佳数量的非均匀箱来显示一系列数据点。找到非均匀箱的最佳数量

我有一堆数据点(让我们假设不同手机的不同价格)。我需要将这些手机归类为某些类别(基于价格)。垃圾箱尺寸(在本例中是指价格范围)不需要统一(低价格类别中可能会有很多移动设备,而长尾类别中可能会有很多移动设备)。

是否有任何有效的算法来找到需要的箱子的最佳数量和数据点的数量(在这种情况下是手机),它们将进入每个类别。

+0

这可能会有所帮助:http://stats.stackexchange.com/questions/55777/histogram-with-uniform-vs-non-uniform-b​​ins,以及这个http://stats.stackexchange.com/questions/ 798 /计算最佳数目的bin-in-a-histogram-for-n-where-n-ranges-from -30 – adibender

+0

取决于你想要对数据做什么。只需绘制直方图?生成购买算法以最大化销售利润?等等。 –

+1

define * optimal *。 – flodel

回答

0

这不是一个标准公式,但想发布,因为它似乎与我测试的数据集很好地工作。

  1. 查找所有手机的平均价格。

    例:5个移动台和价格10,20,40,80,200

    平均是五分之三百五十零从平均价格= 70

  2. 减去最低价格:70 - 10 = 60 - >名从最大价格它N1

  3. 减去平均价格:200 - 70 = 130 - >它命名为N2

  4. 查找比率N2/N1:六十零分之一百三十零:大约2

    这表示在较高的范围内,每个1个垃圾箱在较低的价格范围内最好有两个垃圾箱。

  5. 因此,例如采取下面70.范围0 2米仓 - 35(2个移动台),36 - 70(1个移动)

    1仓以上70:范围71 - 200(2个手机)

正如您所看到的,箱数和箱尺寸是相当优化的。