2012-09-25 47 views
1

MovieLens 100k数据集提供了5对用于5倍交叉验证的训练和测试集。但是,我了解到在测试集之前应使用验证集才能获得最佳参数值。MovieLens 100k数据集是否缺少验证集?

我假设在原始分割中,五个“测试集”实际上是验证集。如果这是真的,那么就没有可以测试模型性能的“测试集”。那么我是否应该重新分割MovieLens数据以执行一个良好的火车验证测试过程?

谢谢!

回答

0

您实际上有2个选项可用于movielens集合中的测试。

第一个选项: 用户被分成5个组,并且每个组也被拆分成一个基组和一个测试组。 基地组在这里“训练”你的算法,并测试测试组。你有5个不同的组,所以你可以做5次学习和测试过程,并最终获得各种组合的统计信息。

第二选项: 100k集中的每个用户都有20个评分。在第二种情况下,你有两组a和b。 每个用户在a上有10个评分,在b上有10个评分。因此,你可以从集合a中学习,然后尝试猜测和比较集合b。

当然,如果你想拥有完整的设置,你还可以设置自己的组!