1
我正试图在BigQuery中找到最佳的抽样实践。我的数据集相当大(11B行),但分布趋于偏斜。到目前为止,我一直在探索这两个选项:RAND()如何在BigQuery中工作?
- HASHING - 在这里我取一定值的哈希来选择样本。这是非常简单的方法,背后的机制很明确。 我的问题是关于第二个选项:
- 使用RAND()函数。我明白如何通过查看这里的BigQuery参考来使用它: https://cloud.google.com/bigquery/docs/reference/legacy-sql#rand 但是,我不知道该函数的工作原理。
任何人都可以在背景中发现更多的光线吗?
非常感谢, Gallory