我已经学会了如何创建一个HTTP Get请求方法来从URL检索数据,但是我想过滤响应只给我一个网页链接列表。如何过滤HTTP获取响应?
例如,如果HTML包含以下文字:
<link href="http://www.thompsons.co.uk">
那么它应该打印出来:
我已经学会了如何创建一个HTTP Get请求方法来从URL检索数据,但是我想过滤响应只给我一个网页链接列表。如何过滤HTTP获取响应?
例如,如果HTML包含以下文字:
<link href="http://www.thompsons.co.uk">
那么它应该打印出来:
您在整个数据完全读出,然后用正则表达式解析它提取链接。在这里阅读更多:http://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/
我强烈建议你不要使用正则表达式来“解析”HTML。除非您可以控制正在处理的网页的格式,否则基于正则表达式的解决方案可能会变得脆弱和错误。
而是使用宽容的HTML解析器。这个问题可以让多个解决方案:HTML/XML Parser for Java
Ermm ......没人提到托尼的小马驹??? http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –
取决于案件。我在分析特定来源的链接和/或其他内容时使用了正则表达式。如果案例是解析通用链接,那么也许另一种方法更好。 – Endy