1
我有一个200万行的data.frame。其中一列是一个字母数字标识,在该列中重复出现,其唯一计数为300000?R中的因子级别不显示为数字
>head(df$ID)
ID
AB00153232de
AB00153232de
AB00153232de
AB00155532gh
AB00155532gh
AB00158932ij
>df$ID<-factor(df$ID)
当我尝试打印因子变量我得到的是这样的:
>df$ID
[1] AB00153232de AB00153232de AB00153232de AB00155532gh AB00155532gh AB00158932ij
320668 Levels: AB00153232de AB00155532gh AB00158932ij.....
不被存储为数字向量,为什么因素是什么?
我可以用这些水平在向量或数组索引吗? – TUSHAr
如果你只想在执行'unclass'之后的级别,试试这个:'attributes(unclass(df1 $ ID))$ levels' – Sathish
我有一个data.frame有两个这样的因子变量,我从中创建了一个二维数组(矩阵)。我的问题是,如果我尝试访问矩阵元素M [“factor1”,“factor2”],R将通过数字级别在内部搜索它,还是通过字符值进行搜索?在第二种情况下,我可能必须编写额外的逻辑来搜索数值作为优化步骤。 – TUSHAr