corpus

3热度

1回答

包tm：removeWords如何避免删除CERTIAN（否定具体）“英语”停用词如果指定？

我想使用removeWords（stopwords("english")）功能通过：corpus <- tm_map(corpus,removeWords, stopwords("english"))但一些词像“不”和其他否定我想保留。是否可以使用removeWords, stopwords("english")函数但是如果指定排除该列表中的某些单词？我怎样才能防止“不”，例如？（辅助）是否

1热度

1回答

读取文本文件的编号顺序为从目录中的语料库R

docs <- Corpus(DirSource(cname)) 我有一个目录由cname其中有文本文件（1.txt，2.txt，.... 10.txt，11.txt， ..），我想按照编号顺序创建语料库（如1,2,3，...，10,11 ..），但语料库的词典顺序为1,10,11，... 19,2所以我怎样才能确保语料库按照我要求的顺序读取目录中的文件。谢谢，

0热度

2回答

如何在R中“分割”文本文档或文本字符串，以便每个单词在数据框中都是它自己的行？

documents <- c("This is document number one", "document two is the second element of the vector") 我试图创建数据框是： idealdf <- c("this", "is", "document", "number", "one", "document", "two", "is", "the", "

1热度

1回答

斯普利特的许多小dataframes一个巨大的数据帧，以创建为r的语料库

我需要从一个巨大的数据帧（约170.000行，但只有两列）根据该搜索挖掘户名一些文本和组创建语料库条款。例如，我从这样的数据帧开始： username search_term name_1 "some_text_1" name_1 "some_text_2" name_2 "some_text_3" name_2 "some_text_4" name_3 "some_text_

9热度

4回答

以相同的方式处理由空格分隔的单词

我试图找到同时出现在多个文档中的单词。让我们举一个例子。 doc1: "this is a document about milkyway" doc2: "milky way is huge" 正如你可以看到上述2个文件，字“银河”是发生在两个文档但在第二文档术语“银河”是由一个空间和在第一DOC中分离它不是。我做以下，以获得文档词矩阵R. library(tm) tmp.text <

1热度

1回答

如何在R中制作多个语料库

这是一个有超过40,000行的汽车评论数据，每个评论有超过500个字符。这是样本数据：https://drive.google.com/open?id=1ZRwzYH5McZIP2NLKxncmFaQ0mX1Pe0GShTMu57Tac_E | brand | review | favorite | c4 | c5 | c6 | c7 | c8 | | brand1 | 500 chara

5热度

4回答

无法将语料库转换为R中的数据框

我已经查看了此处发布的其他类似问题（如this），但问题仍然存在。我有一个文本数据的数据框，我需要干。所以我将它转换成一个语料库，然后完成它，然后完成词干的单词，然后尝试获取文本的数据框作为输出。 myCorpus <- Corpus(VectorSource(textDf$text)) myCorpus <- tm_map(myCorpus, removeWords, stopwords('

0热度

2回答

R：每学期查找频率 - 警告消息

我试图找到马丁路德金的“我有一个梦想”演讲中每学期的频率。我已将所有大写字母转换为小写字母，并已删除所有停用词。我有一个.txt文件中的文本，所以我不能在这里显示它。该文件中读取的代码如下： speech <- readLines(speech.txt) 然后我执行转换为小写和去除的成功停止的话，并把它称为： clean.speech 现在我有找到一些问题每学期的频率。我创建了一个文集，检

0热度

1回答

R从多个XML文件中构建一个xml语料库

我正在尝试为文本挖掘目的处理xml文件的语料库。有没有办法将多个文件导入一个xml对象/数据库，以后可以使用XPath？这是一个聪明的事情吗？我发现了一个类似的报告，即将XML文件导入到其他数据格式（如数据框或tm语料库对象Parsing multiple xml files to a Single Dateframe in R）中，但将它们保留为XML格式应使它们保持整洁，保持对上下文的访问，

3热度

3回答

如何打印Wordnet的全部内容（最好使用NLTK）？

NLTK提供打印Brown（或Gutenberg）语料库中所有单词的功能。但是等效函数在Wordnet上似乎不起作用。有没有办法通过NLTK来做到这一点？如果没有，那么会怎么做呢？这工作： from nltk.corpus import brown as b print b.words() 这将导致一个AttributeError： from nltk.corpus import wor