我最近被要求执行,将选择具有相同的概率各元素的sampleStream()方法,而不是使用随机的()。我认为面试官正在寻找油藏采样,但当我偶然发现它时,他补充说这是一种叫做“stratified sampling”的方法。无可否认,我可能已经被抛弃了,因为有一种称为分层抽样的统计方法,我试图想到如何使用它来从流中对元素进行抽样而没有随机抽样。他指定的输入是要抽样的项目数量和我应该抽样的比率(类似1000/100,000)。不使用随机采样()?
无论如何,我仍然停留在这个问题上,即使我已经不得到未正确回答它的工作。谷歌搜索在这里失败了。任何人都可以帮助我理解它吗?实行分层抽样
感谢您的输入!输入虽然是一个流。我想你可以建立一个水库,并跟踪分层,当你遇到一个有可能的层次的新元素时,增加每层。但他不希望我使用随机() - 对此有任何想法? – aha
谢谢!这真的很有帮助。我不打算将它标记为已解决,因为我很好奇别人有什么要说的。 尽管面试中的问题相当重要。如果在观看时提供的15分钟内没有解决这个问题,我并不觉得无能为力! – aha