quanteda不从corpusSource对象创建语料库

我正在使用带有4Gb RAM的32位操作系统的Windows 7，其中只有3Gb可由于32位限制而被访问。我关闭了所有其他东西，可以看到在启动之前我有大约1Gb的缓存和1Gb可用空间。 “免费”的内存有所不同，但有时是0.quanteda不从corpusSource对象创建语料库

使用量子 - 我正在阅读twitter.txt文件使用textfile（）命令，它成功地创建了一个157Mb的corpusSource对象。当我采用下一步使用corpus（）命令将其转换为“语料库”时，R会通过它进行轰击，并创建一个非常小的空文件，其中包含四个元素，全部包含0代码和输出如下：代码和输出如下：

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile) 
corp <- corpus(twitterprecorp) 
summary(corp) 

Corpus consisting of 1 document. 

       Text Types Tokens Sentences 
en_US.twitter.txt  0  0   0 

Source: C:/R_Data/Capstone/* on x86 by xxxxx 
Created: Thu Aug 18 06:32:01 2016 
Notes: 

Warning message: 
In nsentence.character(object, ...) : 
    nsentence() does not correctly count sentences in all lower-cased text

...。对这种情况发生的原因有什么见解？

来源

2016-08-18 B. McCracken

您使用'twitterprecorp'而不是'precorp' – HubertL

@HubertL指向一个显而易见的问题，您需要检查。还有一个单一的文件，你的意图是什么？或者'en_US.twitter.txt'包含多个Tweets形式的多个“文档”？ –

谢谢你们。我更新了代码，如下所示，以简化代码，我更新了代码，结果如下： –

textfile()

给你的字符向量，整个文件的单个元素。你可能想使用

readlines()

为：

precorp <- readlines(twitterfile)

这会给你的文件中的每一行元素的字符向量。在创建语料库时，语料库（）会将该向量的每个元素作为文档对待。

来源

2016-10-19 02:29:08

quanteda不从corpusSource对象创建语料库

回答

相关问题