我有问题,读一个中等大小的数据集为R.读的Audioscrobbler数据为R
的数据集是由出版的Audioscrobbler数据库,现在合并了Last.fm,对此音乐的用户收听。该数据集可用于here,它有三个数据集:主要(和更大)数据集,包含用户ID,艺术家ID以及用户收听指定艺术家的次数。第二个有两列:艺术家ID和艺术家的名字。这是我遇到问题的数据集。
该数据集似乎格式不正确,我不知道该怎么做。
我尝试这样做:
test <- scan("artist_data.txt", what=list("numeric", "character"), fill=T)
但是,它返回一个列表,不能很好地分离数据和它说“阅读18996个记录”,当我怀疑有更多的记录(虽然我不知道,因为我无法读取数据!)。
任何想法?
对不起,没有给出一个容易重现的例子,但由于我无法读取数据,我不知道如何给出一个可重复的例子(我知道这会让你很难给出答案但是你可以下载数据集,但可能需要一些时间,再次抱歉)。
不要忘记嵌入式回车符(CONTROL-M的或ASCII X0D)在一些艺术家的名字,它们比行结尾不同的。 – 2012-03-16 15:35:29