更新:我使用Jsoup来解析文本
解析一个网站时,我遇到了问题:当我得到HTML文本时,一些链接随机空间损坏。例如:更改难以字符串与未知的子串
What a pretty flower! <a href="www.goo gle.com/...">here</a> and <a href="w ww.google.com...">here</a>
正如你可能会注意到,在空间中的位置完全是随机的,但有一点是肯定的:它是一个href
标签内。 当然,我可以使用replace(" ", "")
方法,但可能有两个或多个链接。 我该如何解决这个问题?
在所有href值上使用replace(“”,“”)'有什么问题?另外,为什么试图修复返回垃圾网站的数据? –
也有正则表达式,你可以用它来识别你的链接,如果你只想使用'replace'就可以了。或[JSoup](http://jsoup.org/)(请参阅[此问题](http://stackoverflow.com/questions/9071568/parse-web-site-html-with-java)) – eebbesen
是的,我使用Jsoup解析,但改变substring不会改变初始字符串,对吧? – Groosha