我从数据框创建Copus。我将它作为VectorSource
传递,因为只有一列我想用作文本源。这可以发现,但是我需要文集中的文档ID来匹配数据框中的文档ID。文档ID存储在原始数据框的独立列中。如何手动设置文档中的文档ID?
df <- as.data.frame(t(rbind(c(1,3,5,7,8,10),
c("text", "lots of text", "too much text", "where will it end", "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))
运行此代码将创建一个语料库,但是文档ID从1-6运行。有没有办法用文档ID 1,3,5,7,8,10创建语料库?
它的工作原理!我会稍微等一下,看看是否有人能够想出更优雅的东西,也许在实际的语料库创建过程中分配它们。但是,如果他们不能,我会很乐意接受这一点,如果不是你单独回答的速度;) – user1098798 2013-02-13 11:31:16
@ user1098798谢谢!我稍微修改了我的答案,因为显然你可以直接重用原始数据中的ID ... – juba 2013-02-13 11:43:13