我知道我可以使用字典功能使用TM包来算的特定词的出现在语料:如何在TermDocumentMatrix中使用正则表达式进行文本挖掘?
require(tm)
data(crude)
dic <- Dictionary("crude")
tdm <- TermDocumentMatrix(crude, control = list(dictionary = dic, removePunctuation = TRUE))
inspect(tdm)
我想知道是否有一个设施,而不是提供一个正则表达式字典而不是一个固定的词?
有时制止可能不是我想要的东西(例如我可能要拿起拼写错误),所以我想这样做:
dic <- Dictionary(c("crude",
"\\bcrud[[:alnum:]]+"),
"\\bcrud[de]")
,从而继续使用TM的设施包?