corpus

    0热度

    1回答

    我正在尝试使用着名的Reuters-21578数据集做一些工作,并且在将sgm文件加载到我的语料库时遇到了一些麻烦。 现在我用命令 require(tm) reut21578 <- system.file("reuters21578", package = "tm") reuters <-Corpus(DirSource(reut21578), readerControl = lis

    11热度

    1回答

    我期待在NLTK Chapter 6的脉络中做一些分类。这本书似乎跳过了创建类别的一步,我不确定我做错了什么。我在这里有我的脚本与以下响应。我的问题主要来自第一部分 - 基于目录名称的类别创建。这里的一些其他问题已经使用了文件名(即pos_1.txt和neg_1.txt),但我更愿意创建可以将文件转储到的目录。 from nltk.corpus import movie_reviews rev

    0热度

    1回答

    我想读一个单一的文件作为语料库一个单一的文件,但没有发现任何SLOUTION,我试图与 >fdat <- readLines(fname) > reuters=suppressWarnings(Corpus(VectorSource(fdat),readerControl = list(language = "en"))) > reuters A corpus with 139 text d

    1热度

    1回答

    我有一个1500万字的语料库,我希望将其存储在数据库中。然后,我希望能够找到给定的单词,它在语料库中的上下文。例如,对于单词“朋友”我可能会选择以下内容,其中我也选择五个字前后各有“朋友”: ... night i went to my FRIENDS house for a cup of tea ... ... what did you say my FRIENDS cat is sick a

    0热度

    1回答

    我已经 lapply(inspect(gsrc), write, filename, append=TRUE, ncolumns=1000) meta(gsrc[[1]]) Available meta data pairs are: Author : DateTimeStamp: 2013-10-23 11:46:47 Description : BDliveShutdown Wil

    0热度

    1回答

    我想用WordNet注释使用GATE注释文本语料库。在将WordNet克里奥尔插件添加到GATE-Developer系统后,我只能将WordNet作为语言资源添加,但不能作为处理资源或应用程序。所以我不能将它添加到语料库管道中。 我会很感激这里的任何帮助。 (是的,我看过的GATE user manual。)

    4热度

    2回答

    请参阅OpenNLP教程步骤 - 命名实体识别:Link to tutorial 我使用的是“en-ner-person.bin”模型here 在本教程中,有关于培训和创建新模型的说明。有什么方法可以用更多的训练数据“更新”现有的“en-ner-person.bin”吗? 说我有500个额外的人名称,否则不被承认为人名单 - 如何生成一个新的模型?

    0热度

    1回答

    我正在学习使用Python的nltk进行自然语言处理。我想从我的目录中的XML文件创建一个语料库。所以我使用了下面的代码。 >> from nltk.corpus import XMLCorpusReader >> corpus_root = "/Desktop/my_dir/corpus/" >> wiki = XMLCorpusReader(corpus_root ,'output.xml

    3热度

    1回答

    你好下面是我的代码删除停用词,并获得命名实体包含的技术相关的术语,如Java,LAN端口文本,插座等 import nltk from nltk.corpus import stopwords import codecs import os import base64 def stop_final(): result=[] text="some technology

    5热度

    2回答

    我已经获得了文本文档,每个文档中都有文本特色电视剧集剧本。每个文档都是不同的系列。我想比较每个系列中最常用的单词,我想我可以使用ggplot对它们进行绘图,并且在一个轴上有'系列1术语至少出现x次',而'系列2术语至少出现X次' 另外一个。我期望我需要的是一个包含3列'条款','系列x','系列Y'的数据框。系列x和y具有单词出现的次数。 我尝试了多种方法来做到这一点,但失败了。我已经得到了最接近