corpus

    -1热度

    1回答

    我在同一个文件夹中的cats.txt中列出了一堆文件和类别。我想为此创建一个categorizedtaggedcorpusreader。 这就是我的文件的外观。 在nltk中尝试了很多方法,但无法创建Categorizedtaggedcorpusreader,在我的cats.txt里面我有文件名和类别名称,空格分开,每个文件名可以有多个类别。 例如: mail_1_adapter适配器 mail_

    1热度

    3回答

    我有几个JSON文件,文本分组为date,body和title。例如,考虑: {"date": "December 31, 1990, Monday, Late Edition - Final", "body": "World stock markets begin 1991 facing the threat of a war in the Persian Gulf, recessions or

    0热度

    1回答

    我正在使用带有4Gb RAM的32位操作系统的Windows 7,其中只有3Gb可由于32位限制而被访问。我关闭了所有其他东西,可以看到在启动之前我有大约1Gb的缓存和1Gb可用空间。 “免费”的内存有所不同,但有时是0. 使用量子 - 我正在阅读twitter.txt文件使用textfile()命令,它成功地创建了一个157Mb的corpusSource对象。当我采用下一步使用corpus()命

    0热度

    1回答

    我猜测这种技术与从任何数据框中取前N个字符相似,无论它是否是语料库。 我尝试: create.greetings <- function(corpus, create_df = FALSE) { for(i in length(Charlotte.corpus.raw)) { Doc1<-Charlotte.corpus.raw[i] Word1<-Doc1[1:25

    0热度

    2回答

    我是nltk的新手,我发现wordnet功能非常有用。它给出了synsets,hypernyms,​​等等。但是,它显然没有给出诸如'德里' - '海得拉巴'之类的位置之间的相似性,因为这些词不在词网语料库中。因此,我想知道,如果以某种方式,我可以更新字网络语料库,或者在不同的语料库上创建字词,例如,从维基百科中提取的与旅行相关的一组页面?如果我们可以根据不同的语料库创建wordnet,那么格式是

    0热度

    2回答

    从发表答案:将文档ID与R语料库保持@MrFlick 我想略微修改一个很好的例子。 问题:如何修改content_transformer功能只保留确切话吗?您可以在检查输出中看到奇妙的计数为奇迹和比率计为基本原理。我对gregexpr和regmatches没有深入的了解。 创建数据帧:现在 dd <- data.frame( id = 10:13, text = c("No wo

    0热度

    1回答

    我有一组9个CSV文件,我使用下面的命令将其导入,并做一些数据预处理: library(tm) filenames <- list.files(getwd(),pattern=”*.txt”) files <- lapply(filenames,readLines) docs <- Corpus(VectorSource(files)) 然后我删除停止词。 现在,我有一个包含9个元素的语

    0热度

    1回答

    我遇到了一个问题,我只想总结一下我正在尝试完成的内容,以便您获得清晰的图像来指导我。 我想创建一个语料库类似的东西movie_reviews其中movie_review只有2个类别,但如果在我来说,我将有多个类别和子类别。 例如: 说我有一个语料库my_corpus中,我想 创建的类别,如 'A', 'B', 'C', 'd' 和 'E'。每个 类别都将包含子类别,例如在'A'中,我想要 子类别,

    -1热度

    2回答

    我正在使用quanteda来创建文本语料库并尝试附加元数据,但我不断收到错误。我之前在另一个数据集上使用过这个代码,但由于某种原因,它不适用于我当前的数据集。该代码是: dfm.ineq1 <- corpus(df.ineq$speech, docnames=df.ineq$speechID, docvars=select(party)) 我得到的错误是

    0热度

    1回答

    NLTK具有对棕色语料库的接口和POS标签和它可以这样进行访问: >>> from nltk.corpus import brown >>> brown.tagged_sents() [[(u'The', u'AT'), (u'Fulton', u'NP-TL'), (u'County', u'NN-TL'), (u'Grand', u'JJ-TL'), (u'Jury', u'NN-TL')