我正在处理一个大约700 000行的data.frame。它包含来自twitter的statusupdates的id和相应的用户名。我只想知道那里有多少不同的用户以及他们推送了多少次。所以我认为这是一个使用表格的非常简单的任务。但知道我注意到我得到了不同的结果。R频率表包含0
最近我做了它的列转换为字符这样
>freqs <- as.data.frame(table(as.character(w_dup$from_user))
>nrow(freqs)
[1] 239678
2个月前我做了这样的
>freqs <- as.data.frame(table(w_dup$from_user)
>nrow(freqs)
[1] 253594
我注意到,这样的数据帧中包含有一个频率的用户名0.怎么可能?如果用户名在数据集中,则必须至少出现一次。
?表没有帮助我。我也无法在较小的数据集上重现此问题。
我做错了什么。还是我误解了表格的使用?
我在我的问题中做了一个类似的错误,但我想在我的表中保留[零频率计数](http://stackoverflow.com/q/13705060/610108)。 'table'产生一个应急表,'tabular'产生一个频率表。 – ThomasH