corpus

    3热度

    1回答

    我想使用removeWords(stopwords("english"))功能通过:corpus <- tm_map(corpus,removeWords, stopwords("english"))但一些词像“不”和其他否定我想保留。 是否可以使用removeWords, stopwords("english")函数但是如果指定排除该列表中的某些单词? 我怎样才能防止“不”,例如? (辅助)是否

    1热度

    1回答

    docs <- Corpus(DirSource(cname)) 我有一个目录由cname其中有文本文件(1.txt,2.txt,.... 10.txt,11.txt, ..),我想按照编号顺序创建语料库(如1,2,3,...,10,11 ..),但语料库的词典顺序为1,10,11,... 19,2所以我怎样才能确保语料库按照我要求的顺序读取目录中的文件。 谢谢,

    0热度

    2回答

    documents <- c("This is document number one", "document two is the second element of the vector") 我试图创建数据框是: idealdf <- c("this", "is", "document", "number", "one", "document", "two", "is", "the", "

    1热度

    1回答

    我需要从一个巨大的数据帧(约170.000行,但只有两列)根据该搜索挖掘户名一些文本和组创建语料库条款。例如,我从这样的数据帧开始: username search_term name_1 "some_text_1" name_1 "some_text_2" name_2 "some_text_3" name_2 "some_text_4" name_3 "some_text_

    9热度

    4回答

    我试图找到同时出现在多个文档中的单词。 让我们举一个例子。 doc1: "this is a document about milkyway" doc2: "milky way is huge" 正如你可以看到上述2个文件,字“银河”是发生在两个文档但在第二文档术语“银河”是由一个空间和在第一DOC中分离它不是。 我做以下,以获得文档词矩阵R. library(tm) tmp.text <

    1热度

    1回答

    这是一个有超过40,000行的汽车评论数据,每个评论有超过500个字符。这是样本数据:https://drive.google.com/open?id=1ZRwzYH5McZIP2NLKxncmFaQ0mX1Pe0GShTMu57Tac_E | brand | review | favorite | c4 | c5 | c6 | c7 | c8 | | brand1 | 500 chara

    5热度

    4回答

    我已经查看了此处发布的其他类似问题(如this),但问题仍然存在。 我有一个文本数据的数据框,我需要干。所以我将它转换成一个语料库,然后完成它,然后完成词干的单词,然后尝试获取文本的数据框作为输出。 myCorpus <- Corpus(VectorSource(textDf$text)) myCorpus <- tm_map(myCorpus, removeWords, stopwords('

    0热度

    2回答

    我试图找到马丁路德金的“我有一个梦想”演讲中每学期的频率。我已将所有大写字母转换为小写字母,并已删除所有停用词。我有一个.txt文件中的文本,所以我不能在这里显示它。该文件中读取的代码如下: speech <- readLines(speech.txt) 然后我执行转换为小写和去除的成功停止的话,并把它称为: clean.speech 现在我有找到一些问题每学期的频率。我创建了一个文集,检

    0热度

    1回答

    我正在尝试为文本挖掘目的处理xml文件的语料库。有没有办法将多个文件导入一个xml对象/数据库,以后可以使用XPath? 这是一个聪明的事情吗?我发现了一个类似的报告,即将XML文件导入到其他数据格式(如数据框或tm语料库对象Parsing multiple xml files to a Single Dateframe in R)中,但将它们保留为XML格式应使它们保持整洁,保持对上下文的访问,

    3热度

    3回答

    NLTK提供打印Brown(或Gutenberg)语料库中所有单词的功能。但是等效函数在Wordnet上似乎不起作用。 有没有办法通过NLTK来做到这一点?如果没有,那么会怎么做呢? 这工作: from nltk.corpus import brown as b print b.words() 这将导致一个AttributeError: from nltk.corpus import wor