1
I want to extract links from html, using jsoupJsoup解析链接<a href="www.abc.com">
Expected output: absolute link.
I use "abs:href" for that.
This works:
Jsoup.parse("<a \n\r\t href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
delivers: http://www.ibm.com/123/?id=abc
这并不工作:
Jsoup.parse("<a \n\r\t href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
提供:http://www.ibm.com/www.ibm.com/123/?id=abc
我知道它有点很难知道是否 “www.ibm.com” 是一个绝对或相对链接。它可能是顶级域名,也可能是文件夹名称。任何已经证明的解就在这个黑客进入我的脑海:
String domain = url.replace("http://", "");
url.replace(domain + domain, domain);
从技术上讲,的链接**是错误的**。在网页浏览器中打开时,它只会打开“http:// example.com/current/page.html/www.abc.com”而不是“http:// www.abc.com”。原始的HTML页面作者肯定要修复它。 – BalusC