1
我刚开始使用德鲁伊,特别是使用RDruid,由于我们的数据集非常大,我想从数据库中抽取一个更小的随机样本。从德鲁伊数据库中随机抽样
使用RDruid我有一个查询,看起来像:
res2 = druid.query.groupBy(
url = druid.url("hostname", port=8080),
dataSource = "playback",
intervals = interval(
fromISO("2013-09-20T00:00:00"),
now()
),
dimensions = list(dimension("platformInfo_deviceType"), dimension("isp")),
granularity="hour",
aggregations = list(
sum(metric("streamStartCount"))
)
)
我想有它建每小时/每分钟汇总的基础数据的随机部分。
这甚至可能吗?也许我可以尝试像分配一个随机的4位数字/字符串到底层的数据记录,并应用一个过滤器,只有记录匹配的规则。
E.g.如果随机字符串> 8888,那么它会选择8889和9999之间的所有记录。
任何想法?
如果你会告诉我如何拉第n条记录,我会告诉你如何以(伪)随机间隔对任何特定数量的记录进行采样。 –