term-document-matrix

1热度

1回答

每当我尝试检查我的频率时，我似乎遇到了问题。单词和协会。当我做了TDM我得到这样的信息： TermDocumentMatrix 我可以看到我有很多术语的使用，在大量的文件。但是！当我尝试检查“TDM”的内容，我得到这样的信息： Inspecting the TDM Howcome的TDM突然是空的？希望有人能帮助 tweets <- userTimeline("RDataMining",

1热度

1回答

R构造文档术语矩阵如何匹配其值由空格分隔的短语组成的词典

在使用R进行文本挖掘时，在重新处理文本数据之后，我们需要创建文档项矩阵以供进一步探索。但是与中国人相似，英语也有一些特定的阶段，比如“语义距离”，“机器学习”，如果将它们分成单词，它们有完全不同的含义，我想知道如何匹配预定义的词典值由空白分隔的项组成，例如包含“语义距离”，“机器学习”。如果一个文档是“我们可以使用机器学习方法来计算词语的语义距离”，那么当将这个文档应用于词典[“语义距离”，“机器

2热度

2回答

R我如何使用TermDocumentMatrix保留标点符号（）

我有一个很大的数据框，我正在识别字符串中的模式，然后提取它们。我提供了一小部分来说明我的任务。我通过创建具有多个单词的TermDocumentMatrix来生成我的模式。我将这些模式与来自stringi和stringr软件包的stri_extract和str_replace一起在'punct_prob'数据框中搜索。我的问题是，我需要在'punct_prob $ description'内保持标

0热度

1回答

将函数应用于多个文档术语矩阵

我有5个文档术语矩阵，例如DTM1，DTM2，DTM3，DTM4，DTM5。现在我写了一个名为myBarPlot（DTM，标题，颜色）的函数，该函数接受DocumentTermMatrix和标题（字符）到每个绘图并为每个绘图分开颜色。现在我如何将所有DTM作为参数传递给函数myBarPlot并生成条形图。我希望这发生在一个循环中。就像这样。 for(i in 1:seq(DTM)) # a

1热度

1回答

在字符串中查找单词时计算术语文档矩阵也

此问题与我先前的问题有关。 Treat words separated by space in the same manner 将它作为单独的发布，因为它可以帮助其他用户轻松找到它。现在的问题是term document matrix的计算方式是tm包。我想稍微调整一下这个方法。当前任何期限的文档矩阵都是通过在文档中查找单词'milky'作为单独的单词（而不是字符串）来创建的。例如，让我们假设

0热度

2回答

R：每学期查找频率 - 警告消息

我试图找到马丁路德金的“我有一个梦想”演讲中每学期的频率。我已将所有大写字母转换为小写字母，并已删除所有停用词。我有一个.txt文件中的文本，所以我不能在这里显示它。该文件中读取的代码如下： speech <- readLines(speech.txt) 然后我执行转换为小写和去除的成功停止的话，并把它称为： clean.speech 现在我有找到一些问题每学期的频率。我创建了一个文集，检

1热度

1回答

R：TermDocumentMatrix - 创建时出错

我试图获取twitter数据并创建一个wordcloud，但是我的代码在创建TermDocumentMatrix时发生错误。我的代码如下 twitter_search_data <- searchTwitter(searchString = text_to_search ,n = 500) twitter_search_text <- sapply(twitter_s

1热度

1回答

计算DataFrame中的字词频率

我正在尝试创建一个数据框，其中第一列（“值”）在每行中都有一个多字字符串，而其他所有列都有标签，用于表示来自“值”中所有字符串的唯一字。我想用每个字符串（一行）检查所有唯一字（列）的词频来填充这个数据帧。从某种意义上说，创建一个简单的TDM rows = ['you want peace', 'we went home', 'our home is nice', 'we want peace at

0热度

1回答

在R中使用tdm或dtm中的igraph在R中绘制关键字/单词关联（findAssocs）？

我想创建一个基于R中某些word associations一个term network analysis plot，但我不知道如何超越绘制整个期限文档矩阵： # Network analysis library(igraph) # load tdm data # create matrix Neg.m <- as.matrix(Ntdm_nonsparse) # to boolean

0热度

1回答

叽叽喳喳数据< - 在termdocumentmatrix

# search for a term in twitter rdmTweets <- searchTwitteR("machine learning", n=500, lang="en") dtm.control <- list( tolower = TRUE, removePunctuation = TRUE, removeNumbers = TRUE, removestop