这是一个非常好,非常具有挑战性的SQL问题。
你有一个非常具有挑战性的一系列要求: 1.无matched_id应该不止一次出现在结果集中 2.没有ID被赋予两个以上的比赛 3.匹配是随机的
我们将坚持纯粹的SQL解决方案,假设您不能返回更大的结果集,并使用您的实现语言中的业务逻辑进行筛选。
首先,我们来解决随机分配问题。随机排列组内的项目是一个有趣的问题。我决定通过对行中数据的SHA1散列(id,follow_up,matched_id)进行排序来解决这个问题,这会给出具有随机感的可重复结果。 (如果有包含创建或修改的日期/时间列这将是最好的。)
SELECT * FROM
(
SELECT
a.id,
a.follow_up,
a.matched_id,
a.rank_hash,
count(*) rank
FROM
(SELECT *, SHA1(CONCAT(id, follow_up, matched_id)) rank_hash FROM TableA) a
JOIN
(SELECT *, SHA1(CONCAT(id, follow_up, matched_id)) rank_hash FROM TableA) b
ON a.rank_hash >= b.rank_hash
AND a.id = b.id
GROUP BY a.id, a.matched_id
ORDER BY a.id, rank
) groups
WHERE rank <= 2
GROUP BY matched_id
如果有每个ID足够matched_id值,这可能足以满足您的使用案例。但是,如果存在隐藏的第四个要求会怎么样: 4.如果可能,一个ID应该收到一个匹配。
换句话说,如果随机洗牌的结果,matched_id被分配到的ID有几个其他比赛中,但进一步下跌的结果集,这是唯一的比赛一个ID是什么?每个ID都与matched_id匹配的最佳解决方案是可能的,但它从未发生过,因为所有matched_ids在流程的早期用完了?
例如:
CREATE TABLE TableA
(`id` int, `follow_up` int, `matched_id` varchar(1))
;
INSERT INTO TableA
(`id`, `follow_up`, `matched_id`)
VALUES
(1, 10, 'A'),
(1, 10, 'B'),
(1, 10, 'C'),
(2, 5, 'D'),
(2, 5, 'E'),
(2, 5, 'F'),
(3, 5, 'C')
;
在上述组中,如果ID和它们的匹配被随机分配的,如果ID 1被分配matched_id C,然后ID 3不会得到一个matched_id在所有。
如果我们首先找出有多少匹配收到的ID,然后按顺序排序呢?
SELECT
a.*,
frequency
FROM TableA a
JOIN
(SELECT
matched_id,
count(*) frequency
FROM
TableA
GROUP BY matched_id
) b
ON a.matched_id = b.matched_id
GROUP BY a.matched_id
ORDER BY b.frequency
这是一个中间人编程语言可能派上用场,帮助限制结果集。
但请注意,我们也失去了我们对随机性的要求!正如你所看到的,一个纯粹的SQL解决方案可能会非常难看。确实可以结合上述技术。
希望这会让你的想象力开火。
为什么需要这样的结果? –
,因为我需要运行病例对照研究来查找控制人员,这些人员是在医院中与患有疾病的病例相匹配的患者,并给出一些匹配条件。在我给出了一些条件之后,我有一个类似于上面的表格,但有一个控件匹配超过1个案例 – emisu
因此,考虑到上面的数据集,可用结果的范围实际上非常有限?这基本上是人类数独。而follow_up基本上与这个问题无关,对吧? – Strawberry