corpus

    1热度

    1回答

    我从数据库中加载文本文档,然后从它们创建语料库,最后我设置了文档的前缀ID(我需要使用前缀,因为我有几种类型的文档)。 rs <- dbSendQuery(con,"SELECT id::TEXT, content FROM entry") entry.d = data.table(fetch(rs,n=-1)) entry.vs = VectorSource(entry.d$content)

    3热度

    3回答

    根据More efficient means of creating a corpus and DTM这个问题,我已经准备好了自己的方法,用于从大型语料库构建术语文档矩阵(我希望)不需要术语x文档内存。 sparseTDM <- function(vc){ id = unlist(lapply(vc, function(x){x$meta$id})) content = unl

    1热度

    1回答

    目前我是摩西的新手,并且已经培训了一些在网站上提供的样本数据集。 我在寻找更多的数据集来训练系统。 这些可在网上? 在Google上搜索时应该注意什么?

    1热度

    2回答

    我有一个csv文件(或txt文件)中的语料库(30,000个客户评论)。这意味着每个客户评论都是文本文件中的一行。一些例子是: 这自行车是惊人的,但制动很差 该制冰机的伟大工程,这个价格是非常合理的,从制冰机 食物是一些不好的 气味真棒,但水是很不礼貌的 我想这些文本更改为以下: 这自行车是惊人的利好,但制动很差负 该制冰机的伟大工程正,价格是非常合理 正,从制冰机 食物是真棒正一些不好的负气味,

    2热度

    2回答

    直到最近(1个月前),下面显示的代码允许我将存储在本地文件夹中的一系列.txt文档导入R,创建一个语料库,对其进行预处理并最终将其转换为文档术语表。我遇到的问题是没有导入文档名称,而是将每个文档都列为“字符(0)”。 我的目标之一是在语料库上进行主题建模,因此将文档名称与模型生成的主题联系起来非常重要。 有没有人有什么建议,以什么改变?或者我可以如何解决这个问题? library("tm") l

    0热度

    3回答

    我有其他方法需要与我的语料库中的每个单独的txt文件一起工作。我怎样才能在他们之间循环? import nltk from nltk.corpus import PlaintextCorpusReader as pcr def main(): cor = corpus() # for every text file in the corpus: #Do thi

    1热度

    1回答

    我是NLP和OpenNLP库的新手,目前我正在玩一些功能,特别是图书馆提取组织名称的功能。如果我用一个简单的字符串,如 "Bill worked at Microsoft Corp., JP Morgan Chase, Monsanto and General Motors and was amazed at what went on in Congress. " 我的代码滴出: Detect

    2热度

    1回答

    我基本上从事解析的树,并试图注释主导空类别(空节点注解)树节点。 我已经定义为低于recurvsive功能,但我得到的错误是“AttributeError的:‘ParentedTree’对象有没有属性‘标签’。” def annotateTraceNodes(node): numChildren = len(node); numNone=0; for child in node:

    0热度

    1回答

    我创建了一个PCorpus,其中据我了解存储在HDD,用下面的代码: pc = PCorpus(vs, readerControl = list(language = "pl"), dbControl = list(dbName = "pcorpus", dbType = "DB1")) 我怎么可能会重新连接到数据库,以后呢?

    4热度

    2回答

    我只是关注NLTK书的第5章,tagged_words()中的'simplify_tags'参数似乎是意想不到的。我使用Python 3.4,PyCharm和标准的NLTK包。 In[4]: nltk.corpus.brown.tagged_words() Out[4]: [('The', 'AT'), ('Fulton', 'NP-TL'), ...] In[5]: nltk.corpus.