term-document-matrix

    2热度

    1回答

    我刚刚在R中开始使用tm包,似乎无法解决问题。 虽然我的分词器的功能似乎工作权: uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

    0热度

    1回答

    我使用CountVectorizer从sklearn做文字符号化(2克),并创建一个术语文档矩阵如何来标记文本。我如何将文字标记为2克并以标点符号作为边界?例如,输入句子是“这是例子,标点符号”。 我想令牌为“这是”,“是示例”,“带有标点符号”。 我不希望“示例与”,它横跨逗号。 下面是我当前的代码: from sklearn.feature_extraction.text import Cou

    0热度

    1回答

    也许我误解了tm::DocumentTermMatrix的工作原理。我有一个语料库其预处理后看起来是这样的: head(Description.text, 3) [1] "azi sanitar local to1 presid osp martin presid ospedalier martin tofan torin tel possibil raggiung ospedal segu b

    0热度

    1回答

    所以我知道有几种方法可以找到文档语料库中最相似或最相似的三个文档。我知道可能会出现扩展问题,现在我有大约一万个文档,并且已经在大约三十个子集上运行测试。这是我现在得到的,但正在考虑研究elasticsearch或doc2vec,如果这证明是不可能的或低效的。 到目前为止,脚本工作得非常好,他们使用spaCy标记文本和Sklearn TfidfVectorizer以适应所有文档,并找到非常相似的文档

    1热度

    1回答

    你好。 是否有任何方式通过使用多核,并行处理来创建termdocumentmatrix?或者为了获得更快的结果,我可以使用一些软件包,比如parallel,h2o或其他软件包吗? 有人帮我。 谢谢。

    0热度

    1回答

    我想查看文档中的术语频率,我的文档包含波斯语文本。我使用R如下: keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts")) tm.matrix <- TermDocumentMatrix(keycorpus) View(as.matrix(tm.matrix)) 虽然这段代码对于英文文本是可以的,但不幸的是它不适用于波斯语文本。我怎

    1热度

    1回答

    我是Python新手, 我使用R创建了一个术语文档矩阵,我想了解如何使用Python创建它。 我正在读取数据框Res_Desc_Train中可用的Description列中的文本数据。但不知道如何使用在python中创建文档术语矩阵的功能,如果有任何有助于学习的文档,这将会很有帮助。 下面是代码,我在R. docs <- Corpus(VectorSource(Res_Desc_Train$Des

    3热度

    1回答

    我想使用R来进行文本分类。我用DocumentTermMatrix返回字的矩阵: library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

    0热度

    2回答

    我只有一列的数据帧“文本” "text" "User Interfaces" "Twitter" "Text Normalization" "Term weighting" "Teenagers" "Team member replacement" 我想借一个数据帧与每一个短语的频率,像这样: "User Interfaces",1 "Twitter",1 "Text Norm

    0热度

    1回答

    我使用创建的双字母组的列表: BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm_a.bigram = TermDocumentMatrix(docs_a, control = list(tokenize = BigramTokenizer)) 我试图