0
我正在使用带有4Gb RAM的32位操作系统的Windows 7,其中只有3Gb可由于32位限制而被访问。我关闭了所有其他东西,可以看到在启动之前我有大约1Gb的缓存和1Gb可用空间。 “免费”的内存有所不同,但有时是0.quanteda不从corpusSource对象创建语料库
使用量子 - 我正在阅读twitter.txt文件使用textfile()命令,它成功地创建了一个157Mb的corpusSource对象。当我采用下一步使用corpus()命令将其转换为“语料库”时,R会通过它进行轰击,并创建一个非常小的空文件,其中包含四个元素,全部包含0代码和输出如下:代码和输出如下:
twitterfile <- "./final/en_US/en_US.twitter.txt"
precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)
Corpus consisting of 1 document.
Text Types Tokens Sentences
en_US.twitter.txt 0 0 0
Source: C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:
Warning message:
In nsentence.character(object, ...) :
nsentence() does not correctly count sentences in all lower-cased text
...。对这种情况发生的原因有什么见解?
您使用'twitterprecorp'而不是'precorp' – HubertL
@HubertL指向一个显而易见的问题,您需要检查。还有一个单一的文件,你的意图是什么?或者'en_US.twitter.txt'包含多个Tweets形式的多个“文档”? –
谢谢你们。我更新了代码,如下所示,以简化代码,我更新了代码,结果如下: –