是否可以编写生成正则表达式或基于某些HTML文档解析链接的XPath的代码?自学正则表达式或xpath查询?
我想要的是解析一个页面的一些链接。我唯一知道的是,网页上的大多数链接都是这些链接。
举个简单的例子,带一个谷歌搜索引擎结果页面,例如this。大多数的链接是从搜索结果中,看起来是这样的:
<h3 class="r"><a onmousedown="return rwt(this,'','','res','1','AFQjCNERidL9Hb6OvGW93_Y6MRj3aTdMVA','')" class="l" href="http://stackoverflow.com/"><em>Stack Overflow</em></a></h3>
是否可以写学习本,并承认这一点,并能够解析各个环节,即便谷歌改变了他们的演示代码?
我正在考虑解析出所有链接,并在每个标签之前和之后查找X字符,然后从中找出答案。
我知道这也可以用XPath完成,但问题仍然是一样的。我可以解析这些内容并生成一个有效的XPath来查找serp链接吗?
呃...不会链接永远是href =“东西”? – dss539 2009-05-27 21:08:38