2016-07-12 37 views
3

我使用R TM封装,我想通过自己的指数,它们的元数据来选择某些文件:如何根据元数据过滤R中tm语料库中的文档?

orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) 

meta(my_corpus[[1]]) 

author : a8 
origin : Department 
heading : WhiB 
id  : 1 
year : 2013 

我想获得发现的所有文件百强之首的文件我的语料库有内发表于2013年 这工作,以确定元数据“年”为文件1是否是2013年

meta(my_corpus[[1]],"year") == 2013 
[1] TRUE 

我需要的东西,给我的第一个100个的所有指标,符合标准中找到选项。 我会想象一些类似的东西(但它不起作用,不幸的是可能不会生成文档列表)。

meta(orbit_corpus[[1:100]],"year") == 2013 
Error in x$content[[i]] : recursive indexing failed at level 4 

非常感谢您的帮助!

回答

4

你可以在你的阴茎(orbit_corpus[1:100]

tm_filter(orbit_corpus[1:100], FUN = function(x) meta(x)[["year"]] == "2013") 

的第100个文档使用tm_filter从文档

tm_filter返回包含其中FUN比赛

文档语料库
+0

谢谢!这工作正常! – Sawol

相关问题