“限制数据”的含义是什么？

http://www.kdnuggets.com/data_mining_course/assignments/final-project.html

的数据与7000种功能的基因样本。每个基因都与一个值相关联。一些值是负值。的数据看起来像这样：

SNO “U48730_at” “U58516_at” “U73738_at” “X06956_at” “X16699_at” “X83863_at”

X1 “27” “161” “0” “34”“2 “116”
X2“27”“265”“0”“98”“2”“123”
X3“24”“126”“0”“21”“0”“142”
X4“ 27“”163“”-1“”16“”-1“”134“
X5”41“”138“”1“”29“”1“”153“
X6”55“”107“” -1“”17“”0“”152“
X7”27“”99 “”0“”57“”1“”139“
X8”2“”137“”-1“”19“”-3“”213“
X9”-5“”161“”-3“ “23”“2”“193”
X10“0”“110”“-3”“7”“-1”“208” X11“-7”“67”“1”“2”“ - 2" ， “149”
X12 “4”， “93”， “3”， “37”， “2”， “266”
X13 “2”， “75”， “3”， “30”， “6”， “205”

教授建议学生先做'数据清理'。原始语句为阈值训练和测试数据的最小值为20，最大值为16,000。

我首先想到的是在每个基因上进行搜索，如果有超出范围的值，那么就丢弃这个基因作为一个特征。但是，对于每个基因来说，似乎必须有一个样本的价值超出界限。

我应该怎么做“阈值这个数据”？就好像价值低于20，然后设置20或者价值高于16000，然后将其设置为16000？

在此先感谢！

来源

2013-10-14 Jie Liu

应该在stats.stackexchange.com – AGS

谢谢，我会问那里的人。 –

我想你最后的猜想是真的;超出20..16000范围的值应设置为这些值。

如果每段数据的值超出该范围，那么排除它可能没有意义。

试试看看会发生什么。

来源

2013-10-14 02:55:34 masher

谢谢。我也寻求类似的话题，并看到有些人正在做同样的阈值工作。 –

“限制数据”的含义是什么？

回答

相关问题