解析字符串

< A HREF =“http://www.google.com”>谷歌</A> < BR /> //无空格解析字符串

我试图提取路段http://www.google.com以及文本谷歌

2013-11-21 user2809437

为什么你想自己解析它？有许多伟大的图书馆，如Jsoup，可以帮你照顾它。 – stevevls

@stevevls这是作业的要求。 – user2809437

您的教授是否坚持使用正则表达式来解析此HTML？ –

这应该做的工作。

String url = "<a href=\"http://www.google.com\">Google</a><br/>"; 
    String[] separate = url.split("\""); 
    String URL = separate[1]; 
    String text = separate[2].substring(1).split("<")[0];

来源

2013-11-21 01:28:39 Adarsh

你可以使用一个简单的正则表达式来提取它。尝试这个。

String s = "<a href=\"http://www.google.com\">Google</a><br/>"; 
Pattern pattern = Pattern.compile("<a\\s+href=\"([^\"]*)\">([^<]*)</a>"); 
Matcher matcher = pattern.matcher(s); 
if (matcher.find()) { 
    System.out.println(matcher.group(1)); 
    System.out.println(matcher.group(2)); 
}

来源

2013-11-21 01:30:03 akaya

我在我的网络爬虫中使用了过滤器API，它完美地工作。

下面是API代码：

public static String filterHref(String hrefLine) 
{ 
    String link = hrefLine; 
    if (!link.toLowerCase().contains("href")) 
     return ""; 
    String[] hrefSplit = hrefLine.split("href"); // split href="..." alt="...">...<...> 

    link = hrefSplit[ 1 ].split("\\s+")[ 0 ]; // get href attribute and value 
    if (link.contains(">")) 
     link = link.substring(0, link.indexOf(">")); 
    link = link.replaceFirst("=", ""); 
    link = link.replace("\"", "").replace("'", "").trim(); 
    return link; 
}

来源

2013-11-21 01:39:10

回答

相关问题