corpus

0热度

1回答

我正在尝试使用着名的Reuters-21578数据集做一些工作，并且在将sgm文件加载到我的语料库时遇到了一些麻烦。现在我用命令 require(tm) reut21578 <- system.file("reuters21578", package = "tm") reuters <-Corpus(DirSource(reut21578), readerControl = lis

11热度

1回答

在NLTK/Python中使用电影评论语料库进行分类

我期待在NLTK Chapter 6的脉络中做一些分类。这本书似乎跳过了创建类别的一步，我不确定我做错了什么。我在这里有我的脚本与以下响应。我的问题主要来自第一部分 - 基于目录名称的类别创建。这里的一些其他问题已经使用了文件名（即pos_1.txt和neg_1.txt），但我更愿意创建可以将文件转储到的目录。 from nltk.corpus import movie_reviews rev

0热度

1回答

语料库与目录中选定的文件

我想读一个单一的文件作为语料库一个单一的文件，但没有发现任何SLOUTION，我试图与 >fdat <- readLines(fname) > reuters=suppressWarnings(Corpus(VectorSource(fdat),readerControl = list(language = "en"))) > reuters A corpus with 139 text d

1热度

1回答

在1500万字的语料库中查找单词的句子

我有一个1500万字的语料库，我希望将其存储在数据库中。然后，我希望能够找到给定的单词，它在语料库中的上下文。例如，对于单词“朋友”我可能会选择以下内容，其中我也选择五个字前后各有“朋友”： ... night i went to my FRIENDS house for a cup of tea ... ... what did you say my FRIENDS cat is sick a

0热度

1回答

Get元数据备份的保存WebCorpus

我已经 lapply(inspect(gsrc), write, filename, append=TRUE, ncolumns=1000) meta(gsrc[[1]]) Available meta data pairs are: Author : DateTimeStamp: 2013-10-23 11:46:47 Description : BDliveShutdown Wil

0热度

1回答

将WordNet添加为GATE处理资源

我想用WordNet注释使用GATE注释文本语料库。在将WordNet克里奥尔插件添加到GATE-Developer系统后，我只能将WordNet作为语言资源添加，但不能作为处理资源或应用程序。所以我不能将它添加到语料库管道中。我会很感激这里的任何帮助。（是的，我看过的GATE user manual。）

4热度

2回答

如何“更新”现有的命名实体识别模型 - 而不是从头开始创建？

请参阅OpenNLP教程步骤 - 命名实体识别：Link to tutorial 我使用的是“en-ner-person.bin”模型here 在本教程中，有关于培训和创建新模型的说明。有什么方法可以用更多的训练数据“更新”现有的“en-ner-person.bin”吗？说我有500个额外的人名称，否则不被承认为人名单 - 如何生成一个新的模型？

0热度

1回答

XMLCorpusReader未创建语料库

我正在学习使用Python的nltk进行自然语言处理。我想从我的目录中的XML文件创建一个语料库。所以我使用了下面的代码。 >> from nltk.corpus import XMLCorpusReader >> corpus_root = "/Desktop/my_dir/corpus/" >> wiki = XMLCorpusReader(corpus_root ,'output.xml

3热度

1回答

什么NLTK语料库应该用它来识别POS标记为technlology相关文本

你好下面是我的代码删除停用词，并获得命名实体包含的技术相关的术语，如Java，LAN端口文本，插座等 import nltk from nltk.corpus import stopwords import codecs import os import base64 def stop_final(): result=[] text="some technology

5热度

2回答

从R中的语料库中统计单个文档中的单词并将其放入数据框中

我已经获得了文本文档，每个文档中都有文本特色电视剧集剧本。每个文档都是不同的系列。我想比较每个系列中最常用的单词，我想我可以使用ggplot对它们进行绘图，并且在一个轴上有'系列1术语至少出现x次'，而'系列2术语至少出现X次' 另外一个。我期望我需要的是一个包含3列'条款'，'系列x'，'系列Y'的数据框。系列x和y具有单词出现的次数。我尝试了多种方法来做到这一点，但失败了。我已经得到了最接近