corpus

-1热度

1回答

我在同一个文件夹中的cats.txt中列出了一堆文件和类别。我想为此创建一个categorizedtaggedcorpusreader。这就是我的文件的外观。在nltk中尝试了很多方法，但无法创建Categorizedtaggedcorpusreader，在我的cats.txt里面我有文件名和类别名称，空格分开，每个文件名可以有多个类别。例如： mail_1_adapter适配器 mail_

1热度

3回答

从存储在JSON文件中的文本中创建语料库R

我有几个JSON文件，文本分组为date,body和title。例如，考虑： {"date": "December 31, 1990, Monday, Late Edition - Final", "body": "World stock markets begin 1991 facing the threat of a war in the Persian Gulf, recessions or

0热度

1回答

quanteda不从corpusSource对象创建语料库

我正在使用带有4Gb RAM的32位操作系统的Windows 7，其中只有3Gb可由于32位限制而被访问。我关闭了所有其他东西，可以看到在启动之前我有大约1Gb的缓存和1Gb可用空间。 “免费”的内存有所不同，但有时是0. 使用量子 - 我正在阅读twitter.txt文件使用textfile（）命令，它成功地创建了一个157Mb的corpusSource对象。当我采用下一步使用corpus（）命

0热度

1回答

如何取每个语料库的前25个单词（R）？

我猜测这种技术与从任何数据框中取前N个字符相似，无论它是否是语料库。我尝试： create.greetings <- function(corpus, create_df = FALSE) { for(i in length(Charlotte.corpus.raw)) { Doc1<-Charlotte.corpus.raw[i] Word1<-Doc1[1:25

0热度

2回答

wordnet在不同的文本？

我是nltk的新手，我发现wordnet功能非常有用。它给出了synsets,hypernyms,等等。但是，它显然没有给出诸如'德里' - '海得拉巴'之类的位置之间的相似性，因为这些词不在词网语料库中。因此，我想知道，如果以某种方式，我可以更新字网络语料库，或者在不同的语料库上创建字词，例如，从维基百科中提取的与旅行相关的一组页面？如果我们可以根据不同的语料库创建wordnet，那么格式是

0热度

2回答

保留来自R corpus的确切单词

从发表答案：将文档ID与R语料库保持@MrFlick 我想略微修改一个很好的例子。问题：如何修改content_transformer功能只保留确切话吗？您可以在检查输出中看到奇妙的计数为奇迹和比率计为基本原理。我对gregexpr和regmatches没有深入的了解。创建数据帧：现在 dd <- data.frame( id = 10:13, text = c("No wo

0热度

1回答

语料库与许多元素，以数据帧，然后保存为CSV

我有一组9个CSV文件，我使用下面的命令将其导入，并做一些数据预处理： library(tm) filenames <- list.files(getwd(),pattern=”*.txt”) files <- lapply(filenames,readLines) docs <- Corpus(VectorSource(files)) 然后我删除停止词。现在，我有一个包含9个元素的语

0热度

1回答

如何使用nltk python 3.4创建类似于movie_review的语料库3.4

我遇到了一个问题，我只想总结一下我正在尝试完成的内容，以便您获得清晰的图像来指导我。我想创建一个语料库类似的东西movie_reviews其中movie_review只有2个类别，但如果在我来说，我将有多个类别和子类别。例如：说我有一个语料库my_corpus中，我想创建的类别，如 'A'， 'B'， 'C'， 'd' 和 'E'。每个类别都将包含子类别，例如在'A'中，我想要子类别，

-1热度

2回答

如何使用quanteda将元数据附加到文本语料库？

我正在使用quanteda来创建文本语料库并尝试附加元数据，但我不断收到错误。我之前在另一个数据集上使用过这个代码，但由于某种原因，它不适用于我当前的数据集。该代码是： dfm.ineq1 <- corpus(df.ineq$speech, docnames=df.ineq$speechID, docvars=select(party)) 我得到的错误是

0热度

1回答

如何简单地提取布朗语料库NLTK中的单词和标签？

NLTK具有对棕色语料库的接口和POS标签和它可以这样进行访问： >>> from nltk.corpus import brown >>> brown.tagged_sents() [[(u'The', u'AT'), (u'Fulton', u'NP-TL'), (u'County', u'NN-TL'), (u'Grand', u'JJ-TL'), (u'Jury', u'NN-TL')