2015-05-05 42 views
0

我写下了下面的代码。我需要从下面的URL中提取价格。我正在用java编写代码。 http://www.walmart.com/ip/VIZIO-E70-C3-70-1080p-240Hz-Class-LED-Smart-HDTV/43310251从沃尔玛提取HTML内容html页面

String regEx = "<span\\s+class=\"sup\">.+</span>[\n]*(\\d+(,)*\\d+)[\n*]<span\\s+class=\"visuallyhidden\">[.]*</span>[\n]*<span\\s+class=\"sup\">(\\d+)"; 
Pattern p1 = Pattern.compile(regEx); 
System.out.println("Vikash"); 
while ((line = in .readLine()) != null) { 
    sb.append(line + "\n"); 

} 
m = p1.matcher(sb); 
while (!m.hitEnd()) { 
    if (m.find()) { 
     System.out.println("$" + m.group()); 
    } 
} 
+0

我没有得到价格。我应该得到1398.00。请帮助 –

+2

使用jsoup jar来提取html内容http://jsoup.org/ –

+2

为什么你不使用他们的API? –

回答

0

如果您无法使用API​​的,你应该使用这个框架。看看http://jsoup.org

它会生成一个结构化的文档,并允许您遍历ids,类,标签等。

E.g.

findElementsByClass("sup")。当我回到桌面时,我可以提供一些示例代码。

+0

当然。通过示例代码将有帮助 –

+0

我在HTML页面中看到的模式如下。如果你以此为例,它会更好。我需要提取价格。

$ 1,398 . 00