2013-08-20 60 views
4

我即将开始一个课程的ML项目,我想做一些类似于教育的“推荐系统”(即一个系统说学生应该做什么下一步)一个与教育有关的机器学习数据集

进一步阐述:构建(某种)系统可以预测学生的准确性,并尝试推荐可能会提高准确度的内容(例如,数学问题)。

现在,我还没有一个牢固的项目。我现在没有办法进行数据收集,所以我想查看可用的数据以便详细说明项目。 Netflix Prize Dataset to be analyzed with Collaborative Filtering (CF) algorithmsDataset for data mining project可惜与教育无关,只要我可以告诉:

我发现了一些有趣的数据集进行训练ML在这里堆栈溢出有关教育的任何数据集可能是有用的(和/或启发)

+0

有教育相关的话题很多大型语料库在那里,但你是什么其实想做?你可以刮维基百科文章,或看网上教科书,但除非你知道你在做什么,这是非常无用的。 –

+1

@SlaterTyranus,因为它是一个教室项目,我仍然可以选择我想要做的事情。 我的主要兴趣是预测学生未来的准确性(可能是过去的准确性),或者(甚至更好)推荐最有可能导致准确度提高的行动方案 – josinalvo

回答

3

UCI是机器学习数据集的重要来源

有教学助理的评价publicaly avaliable数据集可能满足您的需求:

http://archive.ics.uci.edu/ml/datasets/Teaching+Assistant+Evaluation

收藏家

唯贤蕙(统计系,威斯康星大学麦迪逊分校)

捐助

Tjen - 思恩林(LIMT '@' stat.wisc.edu)

数据集信息

数据超过三个 正规学期,在 威斯康星 - 麦迪逊大学的统计处151助教 (TA)分配两届夏季学期组成的教学业绩评价的。将得分分成3个大致相等的 类别(“低”,“中”和“高”)以形成类别变量。

属性信息

  1. 无论是不是TA是母语为英语(二); 1 =英语,2 =非英语扬声器
  2. 场指导员(分类,25类)
  3. 场(分类,26类)
  4. 夏季或定期学期(二进制)1 =大,2 =普通
  5. 类大小(数值)
  6. 类属性(分类)1 =低,2 =中等,3 =高
0

在我们采取了,我们做了与共享任务竞争在机器学习类CONLL。有很多不同类型的学习套件可供使用,并且我们通过团队形成以相互竞争。

查找数据集的另一个地方是kaggle(http://www.kaggle.com/competitions)。有不同类型的数据集,它们也很有趣。