2012-08-03 24 views
0

我有100例的数据集。每种情况下,有一个类{I,II,III,IV,V}和一个值A和V,每个类将出现在数据集正好是20倍:如何找到值的数据集的分布,并基于此分布随机值?

Class A V 
5  2 3 
1  3 5 
3  2 3 
2  3 5 
3  2 3 
1  2 4 
1  2 4 
1  4 4 
2  3 3 
2  3 4 

我要生成基于该另一百箱子组。我是否正确假设我应该

  1. 找到A的分布和每个类的V的分布?
  2. 计算出每类A & V的联合分布
  3. 得到在此基础上联合分布

如果是这样的随机数,任何指针的Java或Python应用程序或库赞赏!

+0

“查找”分布可能是真正艰难的,特别是有这么几个记录 - 你有关于正在生成该数据过程中的任何知识呢?关于班级如何影响A和V以及A和V如何关联的想法?我认为这将是一个很大的帮助。您也可以考虑从现有样本重新取样(使用替换)。更多的上下文会很有帮助! – 2012-08-03 22:42:25

+0

A和V的分布几乎是正常的(虽然FOMR直方图判断),所以我生成从该随机值。 – jorrebor 2012-08-04 09:42:35

回答

0

当我想找到的值在数据集中的分布我用的是包rriskDistributions的R.这个软件包,为用户提供了图形用户界面,允许选择不将R语法的任何知识最适当的分配。

rriskDistributions PDF