我是新的在nltk图书馆,我试图教我的分类器一些标签与我自己的语料库。 为此,我有IOB标签像这样的文件:由 self.classifier = nltk.MaxentClassifier.train(train_set, algorithm='megam', trace=0)
How O
do B-MYTag
you I-MYTag
know O
, O
where B-MYTag
我对那些希望推广到更大人群的样本进行大量工作。但是,大多数时候样本都有偏差,需要用survey包进行加权。但是,我还没有找到一种方法来对这些权重的术语文档矩阵加权。考虑这个例子 library(tm)
library(wordcloud)
set.seed(123)
# Consider this example: I have performed a sample from a pop