我们想测试一些合作者开发的一些模糊聚类算法的性能。我们的兴趣在于拥有大量数据的2D数据集,我们可以在这些数据集中对这些算法进行基准测试你知道在哪里可以找到这样的数据集?用于基准测试的数据集具有数百万数据的模糊聚类方法
1
A
回答
1
一个优秀的数据集是本网站提供的数据集。 StackExchange提供在其网站上发现这里所有的公开数据的匿名转储:https://archive.org/details/stackexchange
您可以阅读有关数据模式在这里:https://meta.stackexchange.com/questions/2677/database-schema-documentation-for-the-public-data-dump-and-sede
我有数据的副本,从一年前,它拥有超过1600万条记录只为这个网站(StackOverflow.com)和转储有所有其网站。
0
您可以从http://www.mockaroo.com/生成数据集。这是相当不错的,你可以有很多选择。
0
在网络上有很多大型的“开放数据”收集与科学数据。我们应该说,一些数据集的大小要远远超过1TB。因此,根据您需要的大小,请查看基因组站点,如Proteomecommons或datasets from Stanford's Natural Language Processing组。
在地质学家的项目中可以找到较小的转储,例如this one。
相关问题
- 1. 用于聚类算法的数据集
- 2. 使用Iris数据集对Python进行模糊聚类
- 3. Optaplanner - 拥有数百万行的大型数据集
- 4. 大数据集的单测试方法
- 5. 如何获得一百万行的数据范围数据集
- 6. 用于测试数据分类的k均值聚类
- 7. 在SQL Server中清除数百万数据的最佳方法
- 8. 用于处理数百万条记录的数据结构
- 9. K-means用于聚集具有许多零值的数据吗?
- 10. 无簇数模糊聚类
- 11. 具有数百万行的表
- 12. 用于实际随机/测试数据生成的数据集
- 13. 加载数百万基于群集的标记ajax
- 14. 基准样本数据集
- 15. 用于测试图像分类的标准图像数据库
- 16. 用于细长数据集的聚类K均值算法
- 17. 是否有任何标准图形数据结构可用于基准测试?
- 18. MongoDB中获取数百个数据出数以百万计的数据
- 19. 基于训练集的数据分类
- 20. 如何测试具有数据库查询以更新数据的方法?
- 21. python - 生成数百万个json数据
- 22. 无法转换到RDD数据框(RDD有数百万行)
- 23. 的R - 基于从基准数据帧
- 24. 数据库基准测试 - 群集vs实例?
- 25. 数据集的模糊索引
- 26. 如何从一个数据集基于数据集大小的标准样品
- 27. 具有数百个请求的大型SQL数据集
- 28. 基于迁移数据的集成测试弹簧服务层
- 29. 子集数据框根据基于相关性的标准
- 30. 使用azure数据湖的polybase的基准测试