我有一些html文件,并且想要提取一些标签之间的内容: 页面标题 某些标记的内容在这里。查找HTML文件中的特定标签
<p>A paragraph comes here</p>
<p>A paragraph comes here</p><span class="more-about">Some text here</span><p class="en-cpy">Copyright © 2012 </p>
我只是想这些标签:头,对 但在第二段可以看出,最后一个标签是与P开始,但不是我的愿望标签,我不希望它的内容。 我用下面的脚本提取我想要的文字,但我不能筛选出标记,如最后一次在我的例子....怎么可能只提取<p>
标签?
grep "<p>" $File | sed -e 's/^[ \t]*//'
我要补充的是,最后的标签(这是我不希望出现在输出)是我所期望的标签之一(这是在我的例子),并使用grep命令之后的所有该行的内容将返回作为输出...(这是我的问题)
XSLT是一种通用工具(和语言)。 Google for'xsltproc'的例子。 – tripleee
如果您拥有有效的XHTML(即有效的XML),那么这绝对是一条更简单的路线。 –
哇,XSLT似乎是一个奇怪的工具,但我没有时间。我必须在1小时内完成它,似乎我必须花时间学习如何创建xsl文件。 – Hakim