term-document-matrix

    1热度

    1回答

    每当我尝试检查我的频率时,我似乎遇到了问题。单词和协会。 当我做了TDM我得到这样的信息: TermDocumentMatrix 我可以看到我有很多术语的使用,在大量的文件。 但是! 当我尝试检查“TDM”的内容,我得到这样的信息: Inspecting the TDM Howcome的TDM突然是空的? 希望有人能帮助 tweets <- userTimeline("RDataMining",

    1热度

    1回答

    在使用R进行文本挖掘时,在重新处理文本数据之后,我们需要创建文档项矩阵以供进一步探索。但是与中国人相似,英语也有一些特定的阶段,比如“语义距离”,“机器学习”,如果将它们分成单词,它们有完全不同的含义,我想知道如何匹配预定义的词典值由空白分隔的项组成,例如包含“语义距离”,“机器学习”。如果一个文档是“我们可以使用机器学习方法来计算词语的语义距离”,那么当将这个文档应用于词典[“语义距离”,“机器

    2热度

    2回答

    我有一个很大的数据框,我正在识别字符串中的模式,然后提取它们。我提供了一小部分来说明我的任务。我通过创建具有多个单词的TermDocumentMatrix来生成我的模式。我将这些模式与来自stringi和stringr软件包的stri_extract和str_replace一起在'punct_prob'数据框中搜索。 我的问题是,我需要在'punct_prob $ description'内保持标

    0热度

    1回答

    我有5个文档术语矩阵,例如DTM1,DTM2,DTM3,DTM4,DTM5。 现在我写了一个名为myBarPlot(DTM,标题,颜色) 的函数,该函数接受DocumentTermMatrix和标题(字符)到每个绘图并为每个绘图分开颜色。 现在我如何将所有DTM作为参数传递给函数myBarPlot并生成条形图。我希望这发生在一个循环中。 就像这样。 for(i in 1:seq(DTM)) # a

    1热度

    1回答

    此问题与我先前的问题有关。 Treat words separated by space in the same manner 将它作为单独的发布,因为它可以帮助其他用户轻松找到它。 现在的问题是term document matrix的计算方式是tm包。我想稍微调整一下这个方法。 当前任何期限的文档矩阵都是通过在文档中查找单词'milky'作为单独的单词(而不是字符串)来创建的。例如,让我们假设

    0热度

    2回答

    我试图找到马丁路德金的“我有一个梦想”演讲中每学期的频率。我已将所有大写字母转换为小写字母,并已删除所有停用词。我有一个.txt文件中的文本,所以我不能在这里显示它。该文件中读取的代码如下: speech <- readLines(speech.txt) 然后我执行转换为小写和去除的成功停止的话,并把它称为: clean.speech 现在我有找到一些问题每学期的频率。我创建了一个文集,检

    1热度

    1回答

    我试图获取twitter数据并创建一个wordcloud,但是我的代码在创建TermDocumentMatrix时发生错误。我的代码如下 twitter_search_data <- searchTwitter(searchString = text_to_search ,n = 500) twitter_search_text <- sapply(twitter_s

    1热度

    1回答

    我正在尝试创建一个数据框,其中第一列(“值”)在每行中都有一个多字字符串,而其他所有列都有标签,用于表示来自“值”中所有字符串的唯一字。我想用每个字符串(一行)检查所有唯一字(列)的词频来填充这个数据帧。从某种意义上说,创建一个简单的TDM rows = ['you want peace', 'we went home', 'our home is nice', 'we want peace at

    0热度

    1回答

    我想创建一个基于R中某些word associations一个term network analysis plot,但我不知道如何超越绘制整个期限文档矩阵: # Network analysis library(igraph) # load tdm data # create matrix Neg.m <- as.matrix(Ntdm_nonsparse) # to boolean

    0热度

    1回答

    # search for a term in twitter rdmTweets <- searchTwitteR("machine learning", n=500, lang="en") dtm.control <- list( tolower = TRUE, removePunctuation = TRUE, removeNumbers = TRUE, removestop