0
我有100例的数据集。每种情况下,有一个类{I,II,III,IV,V}和一个值A和V,每个类将出现在数据集正好是20倍:如何找到值的数据集的分布,并基于此分布随机值?
Class A V
5 2 3
1 3 5
3 2 3
2 3 5
3 2 3
1 2 4
1 2 4
1 4 4
2 3 3
2 3 4
我要生成基于该另一百箱子组。我是否正确假设我应该
- 找到A的分布和每个类的V的分布?
- 计算出每类A & V的联合分布
- 得到在此基础上联合分布
如果是这样的随机数,任何指针的Java或Python应用程序或库赞赏!
“查找”分布可能是真正艰难的,特别是有这么几个记录 - 你有关于正在生成该数据过程中的任何知识呢?关于班级如何影响A和V以及A和V如何关联的想法?我认为这将是一个很大的帮助。您也可以考虑从现有样本重新取样(使用替换)。更多的上下文会很有帮助! – 2012-08-03 22:42:25
A和V的分布几乎是正常的(虽然FOMR直方图判断),所以我生成从该随机值。 – jorrebor 2012-08-04 09:42:35