2014-06-05 30 views
0

简单的问题语料库中的每个文件计算行数...给出例如:如何作为R

data("crude") 

这与20个文本文档的文集,我怎么是这样的:

1 4 
2 6 
3 5 
4 3 
etc... 

其中第二列是文集中“原始”文档中每个文档的行数?甚至可以使用行号的矢量。

NROW/nrow似乎不起作用。

感谢您的期待!

+0

您确定要查找每个文档中的行吗?因为这个文档包含纯文本...检查'粗糙[[1]]'...它不再是数据帧或矢量格式 – vrajs5

+0

Hrmm ...所以当它被放入一个语料库的时候已经太晚了? –

回答

4

嗨,你可以指望换行(LF)与

library(stringr) 
str_count(string = crude[[1]], pattern = "\\n") 
# [1] 11 

crude[[1]]在我的电脑上的12行,所以对于所有的语料库,你可以这样做:

sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1) 
+0

是的。谢谢! –

0

除了行,如果你的实际数据是data.frame然后你可以找出项目的数量。选中此项

data = data.frame(x=1:5,y=1:5,z=1:5) 
corp = Corpus(DataframeSource(data)) 
corp[[1]] 
#Output 
1 
1 
1 

lapply(corp,length) 
#Output 
$`1` 
[1] 3 

$`2` 
[1] 3 

$`3` 
[1] 3 

$`4` 
[1] 3 

$`5` 
[1] 3