我遇到了一个在线数据挖掘课程项目“限制数据”的含义是什么?
http://www.kdnuggets.com/data_mining_course/assignments/final-project.html
的数据与7000种功能的基因样本。每个基因都与一个值相关联。一些值是负值。的数据看起来像这样:
SNO “U48730_at” “U58516_at” “U73738_at” “X06956_at” “X16699_at” “X83863_at”
X1 “27” “161” “0” “34”“2 “116”
X2“27”“265”“0”“98”“2”“123”
X3“24”“126”“0”“21”“0”“142”
X4“ 27“”163“”-1“”16“”-1“”134“
X5”41“”138“”1“”29“”1“”153“
X6”55“”107“” -1“”17“”0“”152“
X7”27“”99 “”0“”57“”1“”139“
X8”2“”137“”-1“”19“”-3“”213“
X9”-5“”161“”-3“ “23”“2”“193”
X10“0”“110”“-3”“7”“-1”“208” X11“-7”“67”“1”“2”“ - 2" , “149”
X12 “4”, “93”, “3”, “37”, “2”, “266”
X13 “2”, “75”, “3”, “30”, “6”, “205”
教授建议学生先做'数据清理'。原始语句为 阈值训练和测试数据的最小值为20,最大值为16,000。
我首先想到的是在每个基因上进行搜索,如果有超出范围的值,那么就丢弃这个基因作为一个特征。但是,对于每个基因来说,似乎必须有一个样本的价值超出界限。
我应该怎么做“阈值这个数据”?就好像价值低于20,然后设置20或者价值高于16000,然后将其设置为16000?
在此先感谢!
应该在stats.stackexchange.com – AGS
谢谢,我会问那里的人。 –