2011-10-14 61 views
3

我试图从字符串中提取网址,它们不是标准化的,所以有些是在href标记中,其他是在它们自己的标记中。从字符串中提取网址的类型为

我也需要他们加以分类,因此,例如以下字符串:

var txt1: String = "Some text! <a href="http://www.google.com/test.mp3">MP3</a>" 
var txt2: String = "Some text! <a href="http://www.google.com/test.jpg">IMG</a>" 
var txt3: String = "Some more! <a href="http://www.google.com/">Link!</a>" 

因此,这些字符串是所有的连接,并包含3个网址,我正在寻找的线沿线的东西:

var result: List = List(

    "mp3" -> List("http://www.google.com/test.mp3"), 
    "img" -> List("http://www.google.com/test.jpg"), 
    "url" -> List("http://www.google.com/") 
) 

我已经研究过正则表达式,但只有这么远,提取的HREF去没有定义类型,这也没有对自己的标签之外取得的URL

val hrefRegex = new Regex("""\<a.*?href=\"(http:.*?)\".*?\>.*?\</a>"""); 
val hrefs:List[String]= hrefRegex.findAllIn(txt1.mkString).toList; 

任何帮助非常感谢,谢谢提前:)

+0

您应该使用一个HTML解析器像jsoup。 –

+0

谢谢金,你知道任何物品让我开始?依赖,进口等? – jhdevuk

回答

5

假设val txt = txt1 + txt2 + txt3,你可以用文本转换成XML元素为一个字符串,然后分析它为XML和使用XML标准库中提取的锚。

// can do other cleanup if necessary here such as changing "link!" 
def normalize(t: String) = t.toLowerCase() 

val txtAsXML = xml.XML.loadString("<root>" + txt + "</root>") 
val anchors = txtAsXML \\ "a" 
// returns scala.xml.NodeSeq containing the <a> tags 

然后你只需要后期处理,直到你有一个像你组织的数据要:

val tuples = anchors.map(a => normalize(a.text) -> a.attributes("href").toString) 
// Seq[String, String] containing elements 
// like "mp3" -> http://www.google.com/test.mp3 

val byTypes = tuples.groupBy(_._1).mapValues(seq => seq.map(_._2)) 
// here grouped by types: 
// Map(img -> List(http://www.google.com/test.jpg), 
//  link! -> List(http://www.google.com/), 
//  mp3 -> List(http://www.google.com/test.mp3)) 
+0

非常感谢,让我在正确的方向肯定:) – jhdevuk