最近我正在处理1GB json格式的文件,使用fromJSON函数将其转换为长度大约为4百万的列表后,我想刮掉列表中的一个特定元素。 我的列表看起来像这样(tweets.list是我的列表的名称,与4132406长度),如何提高抓取列表元素的向量的速度? (大数据)
> tweets.list[[1]]
$`_id`
[1] "371045756826050561"
$text
[1] "RT @arabic_Leos: لو #الأسد في حالة إعجاب، تجده يتحدث عن الشخص طول الوقت، يفكر به ويكتب عنه يبحث عن صفحاته في النت ويدمن عليه، لذا احتمالية …"
$created_at
[1] "Fri Aug 23 23:06:16 +0000 2013"
现在我只希望在列表中的每一个“created_at”的价值,因此我的代码如下:
tweets.unlist<-unlist(tweets.list)
create.date<-0
for(i in 1:(length(tweets.unlist)/3)){
create.date[i]<-tweets.unlist[3*i]
}
我已经奔波这段代码24小时,似乎无止境的,我不知道是否有任何更快,足够简单的替代品做到这一点?由于我也需要在将其转换为所需格式后进行一些分析,因此我期待着一种通用解决方案,它不仅可以提高转换速度,还可以提高整体计算速度。谢谢大家!
尝试'lapply(tweets.list,'[[','created_at')' –
哇,这是一个非常意想不到的方法!永远不会知道我可以用这种方式,我会尝试,谢谢! –
它耗费我大约10秒!太棒了!再次感谢你!!! –