我有兴趣找到字符串x= "A T G C C G C G T"的ngrams。我使用ngramR包得到ngrams。我使用以下几行来完成我的工作。 library(ngram)
ng <- ngram(x,n=2)
ngrams_out = get.ngrams(ng)
ngrams_final <- gsub(" ", "",ngrams_out , fixed = TRUE)
# "
我使用以下TM + RWeka代码以提取最频繁的n元语法文本中提取最常见的n-gram: library("RWeka")
library("tm")
text <- c('I am good person','I am bad person','You are great','You are more great','todo learn english','He is ok')
Big