corpus

1热度

1回答

我从数据库中加载文本文档，然后从它们创建语料库，最后我设置了文档的前缀ID（我需要使用前缀，因为我有几种类型的文档）。 rs <- dbSendQuery(con,"SELECT id::TEXT, content FROM entry") entry.d = data.table(fetch(rs,n=-1)) entry.vs = VectorSource(entry.d$content)

3热度

3回答

R - 根据订购因子排序缓慢工作

根据More efficient means of creating a corpus and DTM这个问题，我已经准备好了自己的方法，用于从大型语料库构建术语文档矩阵（我希望）不需要术语x文档内存。 sparseTDM <- function(vc){ id = unlist(lapply(vc, function(x){x$meta$id})) content = unl

1热度

1回答

摩西培训数据 - 对话

目前我是摩西的新手，并且已经培训了一些在网站上提供的样本数据集。我在寻找更多的数据集来训练系统。这些可在网上？在Google上搜索时应该注意什么？

1热度

2回答

通过使用Python插入代码字来修改语料库

我有一个csv文件（或txt文件）中的语料库（30,000个客户评论）。这意味着每个客户评论都是文本文件中的一行。一些例子是：这自行车是惊人的，但制动很差该制冰机的伟大工程，这个价格是非常合理的，从制冰机食物是一些不好的气味真棒，但水是很不礼貌的我想这些文本更改为以下：这自行车是惊人的利好，但制动很差负该制冰机的伟大工程正，价格是非常合理正，从制冰机食物是真棒正一些不好的负气味，

2热度

2回答

R - 文本挖掘 - 导入语料库并保存文档名称矩阵中的文件名

直到最近（1个月前），下面显示的代码允许我将存储在本地文件夹中的一系列.txt文档导入R，创建一个语料库，对其进行预处理并最终将其转换为文档术语表。我遇到的问题是没有导入文档名称，而是将每个文档都列为“字符（0）”。我的目标之一是在语料库上进行主题建模，因此将文档名称与模型生成的主题联系起来非常重要。有没有人有什么建议，以什么改变？或者我可以如何解决这个问题？ library("tm") l

0热度

3回答

如何循环遍历一个语料库中的文件：Python

我有其他方法需要与我的语料库中的每个单独的txt文件一起工作。我怎样才能在他们之间循环？ import nltk from nltk.corpus import PlaintextCorpusReader as pcr def main(): cor = corpus() # for every text file in the corpus: #Do thi

1热度

1回答

扩展OpenNLP组织模型的培训

我是NLP和OpenNLP库的新手，目前我正在玩一些功能，特别是图书馆提取组织名称的功能。如果我用一个简单的字符串，如 "Bill worked at Microsoft Corp., JP Morgan Chase, Monsanto and General Motors and was amazed at what went on in Congress. " 我的代码滴出： Detect

2热度

1回答

AttributeError的：“ParentedTree”对象有没有属性“标签”

我基本上从事解析的树，并试图注释主导空类别（空节点注解）树节点。我已经定义为低于recurvsive功能，但我得到的错误是“AttributeError的：‘ParentedTree’对象有没有属性‘标签’。” def annotateTraceNodes(node): numChildren = len(node); numNone=0; for child in node:

0热度

1回答

如何重新连接到R tm软件包中的PCorpus？

我创建了一个PCorpus，其中据我了解存储在HDD，用下面的代码： pc = PCorpus(vs, readerControl = list(language = "pl"), dbControl = list(dbName = "pcorpus", dbType = "DB1")) 我怎么可能会重新连接到数据库，以后呢？

4热度

2回答

NLTK - TypeError：tagged_words（）得到了一个意想不到的关键字参数'simplify_tags'

我只是关注NLTK书的第5章，tagged_words（）中的'simplify_tags'参数似乎是意想不到的。我使用Python 3.4，PyCharm和标准的NLTK包。 In[4]: nltk.corpus.brown.tagged_words() Out[4]: [('The', 'AT'), ('Fulton', 'NP-TL'), ...] In[5]: nltk.corpus.