从HTML中提取文本表

我想从表http://www.amiriconstruction.co.uk/goodwoodgolf/scoretable.htm中将文本从Mac OS X命令行中以纯文本形式提取为无纺织品。从HTML中提取文本表

我尝试了很多sed命令，但sed只会再次打印整个文件。我究竟做错了什么？

的是我的尝试

例

sed -n '/<tr>/,/<\/tr>/p' scoretable.htm（将只打印表格内容用html标签:(）

2012-04-07 elhombre

你看相关的问题（[1]（HTTP： //stackoverflow.com/questions/6854586/提取数据从html表与bash脚本），[2]（http://stackoverflow.com/questions/10053793/how-can-i-extract-td-from-html-in-bash ）等）？ – 2012-04-07 14:56:52

小TXR网页抓取，随着wget帮助抢页：

@(deffilter nobr ("<br />" "")) 
@(deffilter brsp ("<br />" " ")) 
@(deffilter nosp (" " "")) 
@(next "!wget 2>/dev/null -O - http://www.amiriconstruction.co.uk/goodwoodgolf/scoretable.htm") 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> 
@(skip) 
<div class="scoreTableArea"> 
@(collect) 
<h2 class="unify">@year - @event</h2> 
@ (filter brsp event) 
@ (collect) 
<tr> 
<td class="center">@pos</td> 
<td>@player</td> 
<td>@company</td> 
<td>@date</td> 
<td class="center">@points</td> 
</tr> 
@ (filter nobr player company date points) 
@ (filter nosp pos points) 
@ (until) 
</tbody> 
@ (end) 
@(end) 
@(output :filter :from_html) 
@ (repeat) 

Event: @event 
Year: @year 

DATE  POS PT PLAYER   COMPANY 
@ (repeat) 
@{date -10} @{pos -2} @{points 2} @{player 16} @company 
@ (end) 
@ (end) 

@(end)

采样运行：

$ txr scoretable.txr 

Event: Teeing off to Clobber Ken 
Year: 2011 

DATE  POS PT PLAYER   COMPANY 
Sept 2011 1 40 John Durrant  King Sumners Partnership 
Sept 2011 2 34 Grahame Pettit Amiri Construction 
    Oct 2011 3 31 Tony Deacon  Gleeds 
    Oct 2011 4 29 Tony Boyle  Lacey Hickey Caley 
    Oct 2011 5 29 Richard Hemming Scott White and Hookins 
Sept 2011 6 29 Ian McCoy  Selway Joyce 
June 2011 7 27 Julian Larkin C&G Properties 
Sept 2011 8 25 Roque Menezes Capita Symonds 
June 2011 9 22 Shawn Lambert PWP Architects 
Sept 2011 10 22 Kevin Lendon  Amiri Construction 

Event: Ken Watson (HNW Architects) Undisputed Amiri Golf Demon of the Downs 
Year: 2010 

DATE  POS PT PLAYER   COMPANY 
     2010 1 40 Ken Watson  HNW Architects 
     2010 2 37 David Heda  London Clancy 
     2010 3 34 Gordon Brown  Currie & Brown 
     2010 4 32 Alistair Taylor Wildbrook Properties 
       5 30 Andy Goodridge City Estates 
       6 25 Russ Pitman  Henderson Green 
       7 24 Phil Piper  Piper Whitlock 
       8 23 Kevin Miller  Urban Pulse Architects 
       9 19 Simon Asquith Godsall Arnold Partnership 
       10 19 Shawn Lambert PWP Architects 
       11 18 Martin Judd  Davis Langdon

来源

2012-04-07 15:46:38 Kaz

请注意，HTML中的“ ”正被转换为“U + 00A0”空间。 – Kaz 2012-04-07 15:52:19

最好包含TXR下载链接。祝你们好运。 – shellter 2012-04-07 22:18:45

+1使用txr;正确的工作的正确工具。 – Sorpigal 2012-04-09 10:24:53

sed -n 's;</\?td>;;gp' scoretable.html | \ 
sed -e 's;<td class="center">;;' \ 
    -e 's;<.*>;;'

请注意，我使用;而不是/作为我的分隔符 - 我觉得它更容易阅读。 Sed会使用你在's作为分隔符后放置的任何字符。

好的，现在解释一下。第一行：

-n将压制输出，但命令末尾的p告诉sed专门打印所有与该模式匹配的行。这将使我们只有包裹在<td>标签中的行。同时，我发现任何与</\?td>相匹配的东西，并且什么都不代替。 /\?意味着/不能出现或只出现一次，所以这将匹配开始和结束标签。末尾的g或全局意味着它不会停止尝试匹配第一次排成一行后的模式。没有g它只会替换开始标签。

从这个输出被管道输送到第二行再次sed的：

-e只是指定有一个编辑命令来运行。如果你只是运行一个命令，那么我就运行两个命令（下一个命令在第三行）。

这消除<td class="center">，下一行删除任何其他标记（在这种情况下<br>标签。

如果你确定有最多只有一个标签上一行的最后一个命令只能运行否则，.*将贪婪的比赛太多，所以在：

<td class="center">24 </ br>

它会匹配整行，并删除一切

来源

2012-06-06 17:00:02 Dean

从HTML中提取文本表

回答

相关问题