2013-06-25 105 views
2

我在R中有一些列表,这是一组来自我为数据挖掘的非结构化文档的一行代码。在每个页面的顶部是一个页码,由字符串“page”和几行标题信息继续,我想删除它们。从列表中删除一行并将所有连续行删除到N?

每个文档都有不同数量的标题行。到目前为止,我的解决办法:

RawFeed.1<- grep("Page",RawFeed) 
RawFeed.1a<-length(RawFeed.1) 
RawFeed.1<-RawFeed.1[-1] 

注一审这里丢弃,因为第一页总是有更多的标题行比页及其后下降反正休息。

y<-RawFeed.1[1] 
ya<-c(y:length(RawFeed)) 

NSearch<-RawFeed[ya] 
NSearch.1<-grep("Start", NSearch) 
y1<-NSearch.1[1] 
y1<-y1-1 

y2<-c(0:y1) 

“开始”总是上线找到的数据开始之前,这一直给我的标题行的文件具体数目。

接着我尝试将其删除:

PageBreak <-function(y) { 
RawFeed<-RawFeed[-x-y] 
} 

RawFeedTemp<-lapply(RawFeed.1,PageBreak,y=y2) 

哪家做的工作,那种 - 我留下的阵列,使得RawFeedTemp[[n]]只有该页面删除标题信息。

那么我该如何执行一个类似的操作,在这里我剩下一个列表,其中每个页面的标题信息已被删除,或者是否有一种方法来组合数组中的元素,使其仅包含一组行,排除那些我想要删除?

编辑:数据

[306] N 46 10/08/12 10/08/12 Stuff :30 NM 0 $0.00" 
[307] Week: 10/08/12 10/14/12 Other Stuff $6,500.00 0.00 
[308] " Contract Agreement Between: Print Date 10/05/12 Page 5 of 6"                                         
[309] ""                                                        
[310] ""                                                        
[311] " Contract/Revision Alt Order #"                                                
[312] " Person                                                     
[313] " Address 1                                                   
[314] " Address 2                                                    
[315] " Address 3                                         
[316] " Address 4                                         
[317] ""                                                        
[318] " Original Date/Revision"                                               
[319] ""                                                     
[320] "08/10/12/10/04/12"                                               
[321] ""                                                        
[322] ""                                                        
[323] ""                                                       
[324] "* Line Ch Start Date End Date Description Start 
[325] MORE DATA 

另一文件的例子,可能有不同数量的这些头。另外请注意,记录占据多行,大多数文件在开始新页面之前完成记录,但少数人坚持将记录的第二行推到新页面,为什么我需要将它们全部删除

感谢你的帮助!

回答

0

由于您没有给出您的数据的明确例子,我不确定给定的解决方案。

如果我明白你有'页面'和'开始'之间的部分(标题)的文档,你想删除。这里有2头数据的样本:

str <- 'Page ......  ### header1 
alalalala 
lalalalalal 
aalalala 
lslslsls start ksksksks 
keep me 1 
keep me 2 
Page ......    ### header 2 
aalalala 
lslslsls start ksksksks 
keep me 3 
keep me 4' 

这里我使用readLines读文件,并找到利用grep标题行,并删除加入从线列表行索引。

ll <- readLines(textConnection(str)) 
ids <- matrix(grep('Page|start',ll),ncol=2,byrow=TRUE) 
ll[-unlist(apply(ids,1,function(x)seq(x[1],x[2])))] 

[1] "keep me 1" "keep me 2" "keep me 3" "keep me 4" 
+0

谢谢你,像一个魅力工作 – user2520179