如何根据元数据过滤R中tm语料库中的文档？

我使用R TM封装，我想通过自己的指数，它们的元数据来选择某些文件：如何根据元数据过滤R中tm语料库中的文档？

orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) 

meta(my_corpus[[1]]) 

author : a8 
origin : Department 
heading : WhiB 
id  : 1 
year : 2013

我想获得发现的所有文件百强之首的文件我的语料库有内发表于2013年这工作，以确定元数据“年”为文件1是否是2013年

meta(my_corpus[[1]],"year") == 2013 
[1] TRUE

我需要的东西，给我的第一个100个的所有指标，符合标准中找到选项。我会想象一些类似的东西（但它不起作用，不幸的是可能不会生成文档列表）。

meta(orbit_corpus[[1:100]],"year") == 2013 
Error in x$content[[i]] : recursive indexing failed at level 4

非常感谢您的帮助！

来源

2016-07-12 Sawol

你可以在你的阴茎（orbit_corpus[1:100]）

tm_filter(orbit_corpus[1:100], FUN = function(x) meta(x)[["year"]] == "2013")

的第100个文档使用tm_filter从文档

tm_filter返回包含其中FUN比赛
文档语料库

来源

2016-07-12 13:37:00

谢谢！这工作正常！ – Sawol

如何根据元数据过滤R中tm语料库中的文档？

回答

相关问题