corpus

1热度

1回答

我的第一个电报chatbot出现问题，用Chatterbot库完成。我的项目是由组成： Procfile 要求（txt文件） telegramtoken（txt文件）运行时（txt文件） NLTK（txt文件） botusers（csv文件） magghybot（py文件） Magghy（PY文件）对话（名为郎文件夹中的阳明文件） math_words（名为郎文件夹中的JSON文件）我部署

-1热度

1回答

R，“tm”包 - 错误：语料库函数未找到

我是一名新手R/tm用户，我有一个愚蠢但令人讨厌的问题。后通过这条线下载884 KB TM封装[install.packages（“TM”），制定自己的工作目录，打开我的文件，我试图用这个功能：语料库< -Corpus （VectorSource（mycorpus $ title））作为回应，R软件写道：“未找到语料库功能”。我需要安装更多的软件包还是我做错了什么？在问你之前，我已经在这

0热度

3回答

使用R和koRpus编译和分析语料库

我是数据科学领域的文学学生。我试图分析一个包含70个.txt文件的语料库，这些文件都在一个目录中。我的最终目标是获得一个包含文件名（或类似内容），句子和单词计数，Flesch-Kincaid可读性评分和MTLD词汇多样性分数的表格。我发现了包koRpus和tm（和tm.plugin.koRpus），并试图理解他们的文档，但还没有走到很远。在RKward IDE和koRpus-Plugin的帮助

-1热度

1回答

可以将网站列表视为特定类别的语料库吗？

我正在尝试为特定类别构建我自己的语料库，如工程，商业，数学，科学等......这将用于自动网页分类。比方说，我手动收集100个与数学相关的网站。这100个网站可以被认为是数学的语料库吗？另一个相关的问题。这与一个词汇有什么区别呢，而不是一个网站列表，它显示了一个带有权重的单词列表，例如0或1到特定的类别？例如，情感词典中包含正面和负面权重的词汇。但不是正面和负面，而是使用诸如数学，科学等类别。

1热度

1回答

Quanteda：如何从单词列表中创建相同功能的dfms

我在文章的n-gram矩阵上运行randomforest，因为我想将它分类为2个类别。作为RF的结果，我收到了重要变量的列表。现在我想只在选定的前n个特征上运行随机森林，然后使用相同的特征来预测新的分类。对于那个我只需要为最重要的变量（来自RF）创建dfm。如何从这些重要变量的列表创建词典？代码的相关部分...创建字典后，我只有一个条目。如何正确创建它？ forestModel <-

0热度

1回答

R：错误时循环取代同义词上的语料库

我对R很新。使用TM包，我试图通过替换同义词来清理一组txt文档。由于我将处理大量数据，我试图使用excel设置一个表格，其中第一列中的单词将替换为第二列中的单词，并执行循环以替换我的单词语料库。我的代码如下所示： library(tm) docs <- Corpus(DirSource("C:....txt files")) list <- read.csv("C:\\.....syno

0热度

2回答

找到'现代'nltk单词语料库

我正在建立一个文本分类器，将文本分类为主题。作为清洁数据的一部分，我在程序的第一阶段删除了所有非英语单词。为此，我使用nltk.corpus.words.words（）语料库。这个语料库的问题在于，它删除了“现代”英语单词，如Facebook，Instagram等。是否有人知道另一个更现代的语料库，我可以用它来替代或结合现在的语料库？我更喜欢nltk语料库，但我愿意接受其他建议。在此先感谢

3热度

1回答

在R中使用DocumentTermMatrix和'dictionary'参数

我想使用R来进行文本分类。我用DocumentTermMatrix返回字的矩阵： library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

1热度

1回答

在R中转换表情文本

在R中做一些文本挖掘我在25k文档的区域中有一个语料库。我目前正在清理我的语料库，并将其作为我翻译成小写字母的过程的一部分。我的执行： createCorpus <- function(corpusData){ aCorpus <- Corpus(DataframeSource(corpusData)) ... aCorpus <- tm_map(aCorpus,co

0热度

1回答

如何访问语料库的元素并在R中写入文件？

我处理在R A vcorpus，看起来像这样：我打电话内容 - >内容，然后将内容 - >荟萃>为每个单独的文档ID。我想只写内容 - >内容和内容 - >元 - > ID来为每个文档稍后分开文本文件。