如何过滤HTTP获取响应？

我已经学会了如何创建一个HTTP Get请求方法来从URL检索数据，但是我想过滤响应只给我一个网页链接列表。如何过滤HTTP获取响应？

例如，如果HTML包含以下文字：

<link href="http://www.thompsons.co.uk">

那么它应该打印出来：

您可以使用jsoup：

2012-09-06 12:55:19

您在整个数据完全读出，然后用正则表达式解析它提取链接。在这里阅读更多：http://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/

2012-09-06 12:18:45 Endy

Ermm ......没人提到托尼的小马驹??? http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –

取决于案件。我在分析特定来源的链接和/或其他内容时使用了正则表达式。如果案例是解析通用链接，那么也许另一种方法更好。 – Endy

我强烈建议你不要使用正则表达式来“解析”HTML。除非您可以控制正在处理的网页的格式，否则基于正则表达式的解决方案可能会变得脆弱和错误。

而是使用宽容的HTML解析器。这个问题可以让多个解决方案：HTML/XML Parser for Java

2012-09-06 12:24:03

回答