根据More efficient means of creating a corpus and DTM这个问题,我已经准备好了自己的方法,用于从大型语料库构建术语文档矩阵(我希望)不需要术语x文档内存。 sparseTDM <- function(vc){
id = unlist(lapply(vc, function(x){x$meta$id}))
content = unl
直到最近(1个月前),下面显示的代码允许我将存储在本地文件夹中的一系列.txt文档导入R,创建一个语料库,对其进行预处理并最终将其转换为文档术语表。我遇到的问题是没有导入文档名称,而是将每个文档都列为“字符(0)”。 我的目标之一是在语料库上进行主题建模,因此将文档名称与模型生成的主题联系起来非常重要。 有没有人有什么建议,以什么改变?或者我可以如何解决这个问题? library("tm")
l
我有其他方法需要与我的语料库中的每个单独的txt文件一起工作。我怎样才能在他们之间循环? import nltk
from nltk.corpus import PlaintextCorpusReader as pcr
def main():
cor = corpus()
# for every text file in the corpus:
#Do thi
我是NLP和OpenNLP库的新手,目前我正在玩一些功能,特别是图书馆提取组织名称的功能。如果我用一个简单的字符串,如 "Bill worked at Microsoft Corp., JP Morgan Chase, Monsanto and General Motors and was amazed at what went on in Congress. "
我的代码滴出: Detect