简单的问题语料库中的每个文件计算行数...给出例如:如何作为R
data("crude")
这与20个文本文档的文集,我怎么是这样的:
1 4
2 6
3 5
4 3
etc...
其中第二列是文集中“原始”文档中每个文档的行数?甚至可以使用行号的矢量。
NROW/nrow似乎不起作用。
感谢您的期待!
简单的问题语料库中的每个文件计算行数...给出例如:如何作为R
data("crude")
这与20个文本文档的文集,我怎么是这样的:
1 4
2 6
3 5
4 3
etc...
其中第二列是文集中“原始”文档中每个文档的行数?甚至可以使用行号的矢量。
NROW/nrow似乎不起作用。
感谢您的期待!
嗨,你可以指望换行(LF)与
library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11
crude[[1]]
在我的电脑上的12行,所以对于所有的语料库,你可以这样做:
sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)
是的。谢谢! –
除了行,如果你的实际数据是data.frame然后你可以找出项目的数量。选中此项
data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]]
#Output
1
1
1
lapply(corp,length)
#Output
$`1`
[1] 3
$`2`
[1] 3
$`3`
[1] 3
$`4`
[1] 3
$`5`
[1] 3
您确定要查找每个文档中的行吗?因为这个文档包含纯文本...检查'粗糙[[1]]'...它不再是数据帧或矢量格式 – vrajs5
Hrmm ...所以当它被放入一个语料库的时候已经太晚了? –