假设我使用readLines
从.txt网页抓取的字符串(线条)向量。一些线路将以“<”开头,通常表示新段落的开始。一些行将以字母开头,通常表示它连接到它之前的行。我希望能够连接属于同一段落的行。如何矢量化R中的`paste`函数?
我的计划是找到以“<”开头的行,并连接以“<”开头的两行之间的所有行。基本上,我最终得到一个索引列表。例如,我可能想连接lines[1:3]
,lines[4:4]
,lines[5:9]
等等。有没有一种方法来对此进行矢量化?我不能只做paste(lines[begin.index : end.index])
,但这可能会让你知道我希望达到的目标。
下面是一些虚拟的数据为例,因为我的实际数据是太长:
[1] "<P> sampletextsampletext"
[2] "sampletextsampletext</P>"
[3] "<P> sampletext"
[4] "sampletext"
[5] "sampletext</P>"
[6] "<P> sampletext </P>"
我会想连接线1和2一起,喜欢3,4,5在一起,行6将保持不变。
请注明您的数据的样本。单从描述来看,您的问题并不十分清楚。 – nrussell
你必须明白,询问“如何矢量化粘贴()”对于R人来说听起来很奇怪,因为paste()_is_是矢量化的。也许你只是在寻找'collapse'参数? – joran
对我来说听起来就像你有一组行(1:3,4:4,5:9),你需要知道如何将'paste'和'collapse'参数应用到每个组。 'dplyr'或'data.table'在这里是你的朋友,尽管'aggregate'可能工作得很好。 – Gregor