-1
我对数据挖掘和ML很新颖。我想了解LSH的k-means有什么不同。在阅读少量论文和其他网上资料后,似乎两种算法都试图实现类似文件的分组/聚类。对于垃圾邮件检测等用户来说,其中的任何一种都已被用于许多论文。但我不是很清楚他们有什么不同,如果我们将这个用于垃圾邮件检测这样的用例,结果会如何呢?k-means与LSH算法
我对数据挖掘和ML很新颖。我想了解LSH的k-means有什么不同。在阅读少量论文和其他网上资料后,似乎两种算法都试图实现类似文件的分组/聚类。对于垃圾邮件检测等用户来说,其中的任何一种都已被用于许多论文。但我不是很清楚他们有什么不同,如果我们将这个用于垃圾邮件检测这样的用例,结果会如何呢?k-means与LSH算法
LSH不对您的数据进行群集。
它适用于接近重复(!)检测。
LSH是真的关于“几乎相同的”对象,不是在你的数据中寻找更大的结构。
我不认为垃圾邮件检测是一个很好的用例 - 你知道任何垃圾邮件过滤器实际上会这样做吗? 近乎重复的新闻检测例如然而,Google新闻与某种LSH有关;据说他们正在使用minhashing。
是LSH可用于垃圾邮件检测,前提是您的数据集不正确。任何近似的欺骗行为也被视为垃圾邮件。许多公司使用它。 Facebook使用它在2015年在垃圾邮件规模会议上提到过的内容。 我的问题是,可以说我增加了阈值t,这意味着可以说我调整它,使得大约60-65%的匹配邻居在同一个桶中结束。这不会成为一组类似物体吗? – coder
不,它仍然只是一个桶,如果你想避免误报,它最终会杀死你的表现。我不相信这个垃圾邮件过滤器,因为它只能识别*旧*垃圾邮件。 –
好的谢谢。因此,使用像k-均值聚类算法这样的东西,与使用LSH的阈值相似度为65%的阈值相比,将类似的项目分组效果更好? – coder