我试图从字符串中提取网址,它们不是标准化的,所以有些是在href标记中,其他是在它们自己的标记中。从字符串中提取网址的类型为
我也需要他们加以分类,因此,例如以下字符串:
var txt1: String = "Some text! <a href="http://www.google.com/test.mp3">MP3</a>"
var txt2: String = "Some text! <a href="http://www.google.com/test.jpg">IMG</a>"
var txt3: String = "Some more! <a href="http://www.google.com/">Link!</a>"
因此,这些字符串是所有的连接,并包含3个网址,我正在寻找的线沿线的东西:
var result: List = List(
"mp3" -> List("http://www.google.com/test.mp3"),
"img" -> List("http://www.google.com/test.jpg"),
"url" -> List("http://www.google.com/")
)
我已经研究过正则表达式,但只有这么远,提取的HREF去没有定义类型,这也没有对自己的标签之外取得的URL
val hrefRegex = new Regex("""\<a.*?href=\"(http:.*?)\".*?\>.*?\</a>""");
val hrefs:List[String]= hrefRegex.findAllIn(txt1.mkString).toList;
任何帮助非常感谢,谢谢提前:)
您应该使用一个HTML解析器像jsoup。 –
谢谢金,你知道任何物品让我开始?依赖,进口等? – jhdevuk