-1

我有几个桶。每个桶包含许多标签(字符串)。如何根据相似性或重叠将桶集中在一起?如何群集字符串桶?

E.g.

铲斗一个: '鸵鸟', '麻雀', '蜂鸟', '斑马', '蓝鸦'

铲斗B: '香蕉', '西瓜', '葡萄', '胡萝卜'

斗C: '芹菜', '生菜', '菠菜', '香蕉', '胡萝卜'

斗d: '麻雀', '狗', '猫', '狮子',“大象','马'

在这个非常非常小的例子中,B + C会使一个群集(因为香蕉&胡萝卜),而A和D将各自为b e在自己的集群中,因为它们不够集中。

回答

1

您可以使用基于集合的距离,例如具有层次聚类的Jaccard。