3
我在使用%进行子集化时遇到了一个奇怪的结果。关于数据集子集化的帮助
> my.data[my.data$V3 %in% seq(200,210,.01),]
V1 V2 V3 V4 V5 V6 V7
56 470 48.7 209.73 yes 26.3 54 470
这是正确的。但是当我扩大范围...行56只是消失
> my.data[my.data$V3 %in% seq(150,210,.01),]
V1 V2 V3 V4 V5 V6 V7
51 458 48.7 156.19 yes 28.2 58 458
67 511 30.5 150.54 yes 26.1 86 511
73 535 40.6 178.76 yes 29.5 73 535
你能告诉我什么是错? 有没有更好的方法来子集数据框?
下面是其结构
> str(my.data)
'data.frame': 91 obs. of 7 variables:
$ V1: Factor w/ 91 levels "100","10004",..: 1 2 3 4 5 6 7 8 9 10 ...
$ V2: num 44.6 22.3 30.4 38.6 15.2 18.3 16.3 12.2 36.7 12.2 ...
$ V3: num 110.83 25.03 17.17 57.23 2.18 ...
$ V4: Factor w/ 2 levels "no","yes": 1 2 2 2 1 1 1 1 1 1 ...
$ V5: num 22.3 30.5 24.4 25.5 4.1 28.4 7.9 5.1 24 12.2 ...
$ V6: int 50 137 80 66 27 155 48 42 65 100 ...
$ V7: chr "" "10004" "10005" "10012" ...
你能否澄清一下,如果你试图返回所有行,其中'V3'在一个规定的范围内,或者如果你想只返回等于序号的行你打算被退回? –
考虑到V3四舍五入为2个十进制数字,我认为“V3在指定范围内的所有行”与“等于一系列数字的行数相同,增量为0.01”。要回答你的问题,我想第一个 – Brani
'V3'可能是确切的,我不知道所有的价值。问题是'seq()'的值不是四舍五入的,确切的,那就是问题所在。无论如何,通过测试确切的平等来做事情注定会在使用浮点运算的计算机上失败。在R中使用少于和大于运算符要安全/容易/正确得多。请参阅我的答案或@nullglob答案的第二个选项(尽管忽略了他的第一个选项,因为这是错误的)。 –