1
我有以下问题:我的table1有N个正面样本,并且随着时间的推移它会缓慢增长。我想从另一个很大的表中选择10N个负面样本。 因此,这将是这样的:查询之间的定量依赖
WITH positive_samples AS (
SELECT * FROM table1
), negative_samples AS (
SELECT * FROM table2 LIMIT 100
)
有与此查询几个问题:它并不能保证我会比positive_samples约10倍以上negative_samples,它不随机选择的阴性样品。
在Hive或Presto中选择这两个集合的正确查询会是什么?