2010-05-22 105 views
9

在数据挖掘领域,有没有具体的子学科被称为“相似性”?如果是的话,它会处理什么。任何示例,链接和引用都将有所帮助。“相似性”数据挖掘

此外,作为新的领域,我想对数据挖掘和人工智能如何密切相关的是社区的意见。他们是同义词,是另一个的子集?

在此先感谢您分享您的知识。 “相似性”(这功能,你解压,你跟他们以后做什么)的

+0

相关:http://stackoverflow.com/questions/3007790/发现最最接近的匹配 – Betamoo 2010-06-09 17:10:44

回答

9

在数据挖掘领域,有没有一个叫做'相似性'的特定子学科?

是。数据挖掘和机器学习中有一个称为度量学习的特定子领域,旨在学习数据实例间更好的距离度量。

你知道以下任何概念?

Euclidean distance

Mahalanobis distance

Pearson correlation

Cosine similarityhere

内核函数

你知道这些后,你就会知道什么是 '相似性'。

我想社区对数据挖掘和人工智能密切相关的意见。

很难区分什么是数据挖掘,什么是AI。当你是新人时,不要讨论这个问题。当你在数据挖​​掘中学习了10种算法并阅读了一些AI书籍时,你就会知道它们之间的区别和关系。

2

适当的定义几乎是集群的定义,和聚类是数据挖掘的一个相当宽的子场。

如果您将AI的标准玩世不恭解释为一组我们无法解决的问题(事实上,我们无法指定足够好以开始解决问题),数据挖掘一旦进入其中的空间你正在寻找相关性开始大于你的算法可以处理。

2

只是强调“相似性”概念的重要性。

数据挖掘(AI,机器学习,造型等)是关于把一些功能或者它的最大值或最小值。以最佳的优化/学习/挖掘算法和错误的功能,你会得到一个完整的垃圾。请注意,我们使用“value”而不是“valueS”。这是因为没有(根据我的最佳知识)算法(计算或其他)能够优化多个值。然而,在我们的宇宙中,复杂的优化比单维优化更频繁(我们希望变得丰富,年轻和健康)。这就是为什么存在大量相似性和其他得分功能的原因。这就是为什么它们中没有一个是“合适的”的原因

1

相似性是一种用于数据挖掘任务(如聚类,分类)的概念。根据您拥有的数据类型,您可能会使用不同的相似性度量,例如文本文档的余弦相似度,欧几里得距离等。

0

数据挖掘中使用了很多相似性度量。文本挖掘,发现文本中的相似性,余弦相似度,Jaccard相似广泛应用于

仅供参考,你可以看到拉加和amnnings信息检索书