我想问一下使用距离矩阵(欧几里得)时,数据集中的稀疏性(大多数维度中的多个零值)如何影响搜索效率或准确性。我已经在ANN和FLANN中测试了这些稀疏数据集,并且导致我在很长一段时间内搜索与密集数据集相比最近的邻居。这是为什么?数据挖掘中数据集稀疏性的影响
2
A
回答
2
这是一个非常宽泛的问题,没有具体细节就很难回答。但让我试试看。
寻找欧氏空间中的最近邻一般需要大约m * n个计算,其中m是维数,n是样本数。您可以用m * n绘制每个数据集的时间统计数据,并查看它们的比较结果。
对于稀疏数据集,您还可以以字典格式存储示例。在这种情况下,平均时间约为k * logk * n计算,其中k是非零元素的平均数(假设字典以每个特征的随机访问时间为logk的方式存储)如果使用类似散列表logk部分几乎不明显)。
0
这取决于你的实现。您使用什么,例如,在距离计算中使用稀疏优化?欧几里德距离不是稀疏向量最明显的距离,顺便说一句。
相关问题
- 1. 数据挖掘和频繁数据集
- 2. 数据挖掘项目数据集
- 3. “相似性”数据挖掘
- 4. 文本挖掘稀疏/非稀疏含义
- 5. HTML数据挖掘
- 6. python数据挖掘
- 7. Kissmetrics数据挖掘
- 8. 挖掘众包数据的合法性
- 9. 数据挖掘SSE通过集群K
- 10. hadoop的数据挖掘库
- 11. 是稀疏数据
- 12. SGDClassifier从稀疏的数据集
- 13. 稀疏数据帧子集的转换
- 14. BIDS数据挖掘性能问题
- 15. 3维数据挖掘性能
- 16. 数据挖掘 - K近邻
- 17. 休眠4数据挖掘
- 18. JSON到R数据挖掘
- 19. 数据挖掘字符串
- 20. 数据挖掘情况
- 21. R数据挖掘语法
- 22. Google数据挖掘工具
- 23. 从数据挖掘开始
- 24. 数据挖掘教科书
- 25. 数据挖掘海量数据
- 26. Web刮,数据挖掘,数据提取
- 27. 决策树 - 稀疏数据集
- 28. 适合此数据集的数据挖掘技术
- 29. 用于数据挖掘任务的数据集
- 30. 使用数据挖掘技术的定性数据分析
我使用带有优先搜索树的随机化k-d树,不实施稀疏优化。为什么欧式距离不适合稀疏矢量? – Tian 2012-03-09 09:52:21