corpus

    1热度

    1回答

    我的第一个电报chatbot出现问题,用Chatterbot库完成。 我的项目是由组成: Procfile 要求(txt文件) telegramtoken(txt文件) 运行时(txt文件) NLTK(txt文件) botusers(csv文件) magghybot(py文件) Magghy(PY文件) 对话(名为郎文件夹中的阳明文件) math_words(名为郎文件夹中的JSON文件) 我部署

    -1热度

    1回答

    我是一名新手R/tm用户,我有一个愚蠢但令人讨厌的问题。 后通过这条线下载884 KB TM封装[install.packages(“TM”),制定自己的工作目录,打开我的文件,我试图用这个功能: 语料库< -Corpus (VectorSource(mycorpus $ title)) 作为回应,R软件写道:“未找到语料库功能”。 我需要安装更多的软件包还是我做错了什么? 在问你之前,我已经在这

    0热度

    3回答

    我是数据科学领域的文学学生。我试图分析一个包含70个.txt文件的语料库,这些文件都在一个目录中。 我的最终目标是获得一个包含文件名(或类似内容),句子和单词计数,Flesch-Kincaid可读性评分和MTLD词汇多样性分数的表格。 我发现了包koRpus和tm(和tm.plugin.koRpus),并试图理解他们的文档,但还没有走到很远。在RKward IDE和koRpus-Plugin的帮助

    -1热度

    1回答

    我正在尝试为特定类别构建我自己的语料库,如工程,商业,数学,科学等......这将用于自动网页分类。比方说,我手动收集100个与数学相关的网站。这100个网站可以被认为是数学的语料库吗? 另一个相关的问题。这与一个词汇有什么区别呢,而不是一个网站列表,它显示了一个带有权重的单词列表,例如0或1到特定的类别?例如,情感词典中包含正面和负面权重的词汇。但不是正面和负面,而是使用诸如数学,科学等类别。

    1热度

    1回答

    我在文章的n-gram矩阵上运行randomforest,因为我想将它分类为2个类别。作为RF的结果,我收到了重要变量的列表。 现在我想只在选定的前n个特征上运行随机森林,然后使用相同的特征来预测新的分类。对于那个 我只需要为最重要的变量(来自RF)创建dfm。 如何从这些重要变量的列表创建词典? 代码的相关部分...创建字典后,我只有一个条目。如何正确创建它? forestModel <-

    0热度

    1回答

    我对R很新。使用TM包,我试图通过替换同义词来清理一组txt文档。 由于我将处理大量数据,我试图使用excel设置一个表格,其中第一列中的单词将替换为第二列中的单词,并执行循环以替换我的单词语料库。我的代码如下所示: library(tm) docs <- Corpus(DirSource("C:....txt files")) list <- read.csv("C:\\.....syno

    0热度

    2回答

    我正在建立一个文本分类器,将文本分类为主题。 作为清洁数据的一部分,我在程序的第一阶段删除了所有非英语单词。为此,我使用nltk.corpus.words.words()语料库。这个语料库的问题在于,它删除了“现代”英语单词,如Facebook,Instagram等。是否有人知道另一个更现代的语料库,我可以用它来替代或结合现在的语料库? 我更喜欢nltk语料库,但我愿意接受其他建议。 在此先感谢

    3热度

    1回答

    我想使用R来进行文本分类。我用DocumentTermMatrix返回字的矩阵: library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

    1热度

    1回答

    在R中做一些文本挖掘我在25k文档的区域中有一个语料库。我目前正在清理我的语料库,并将其作为我翻译成小写字母的过程的一部分。我的执行: createCorpus <- function(corpusData){ aCorpus <- Corpus(DataframeSource(corpusData)) ... aCorpus <- tm_map(aCorpus,co

    0热度

    1回答

    我处理在R A vcorpus,看起来像这样: 我打电话内容 - >内容,然后将内容 - >荟萃>为每个单独的文档ID。我想只写内容 - >内容和内容 - >元 - > ID来为每个文档稍后分开文本文件。