2013-10-14 83 views
0

我遇到了一个在线数据挖掘课程项目“限制数据”的含义是什么?

http://www.kdnuggets.com/data_mining_course/assignments/final-project.html

的数据与7000种功能的基因样本。每个基因都与一个值相关联。一些值是负值。的数据看起来像这样:

SNO “U48730_at” “U58516_at” “U73738_at” “X06956_at” “X16699_at” “X83863_at”

X1 “27” “161” “0” “34”“2 “116”
X2“27”“265”“0”“98”“2”“123”
X3“24”“126”“0”“21”“0”“142”
X4“ 27“”163“”-1“”16“”-1“”134“
X5”41“”138“”1“”29“”1“”153“
X6”55“”107“” -1“”17“”0“”152“
X7”27“”99 “”0“”57“”1“”139“
X8”2“”137“”-1“”19“”-3“”213“
X9”-5“”161“”-3“ “23”“2”“193”
X10“0”“110”“-3”“7”“-1”“208” X11“-7”“67”“1”“2”“ - 2" , “149”
X12 “4”, “93”, “3”, “37”, “2”, “266”
X13 “2”, “75”, “3”, “30”, “6”, “205”

教授建议学生先做'数据清理'。原始语句为 阈值训练和测试数据的最小值为20,最大值为16,000。

我首先想到的是在每个基因上进行搜索,如果有超出范围的值,那么就丢弃这个基因作为一个特征。但是,对于每个基因来说,似乎必须有一个样本的价值超出界限。

我应该怎么做“阈值这个数据”?就好像价值低于20,然后设置20或者价值高于16000,然后将其设置为16000?

在此先感谢!

+0

应该在stats.stackexchange.com – AGS

+0

谢谢,我会问那里的人。 –

回答

0

我想你最后的猜想是真的;超出20..16000范围的值应设置为这些值。

如果每段数据的值超出该范围,那么排除它可能没有意义。

试试看看会发生什么。

+0

谢谢。我也寻求类似的话题,并看到有些人正在做同样的阈值工作。 –