从沃尔玛提取HTML内容html页面

我写下了下面的代码。我需要从下面的URL中提取价格。我正在用java编写代码。 http://www.walmart.com/ip/VIZIO-E70-C3-70-1080p-240Hz-Class-LED-Smart-HDTV/43310251 从沃尔玛提取HTML内容html页面

String regEx = "<span\\s+class=\"sup\">.+</span>[\n]*(\\d+(,)*\\d+)[\n*]<span\\s+class=\"visuallyhidden\">[.]*</span>[\n]*<span\\s+class=\"sup\">(\\d+)"; 
Pattern p1 = Pattern.compile(regEx); 
System.out.println("Vikash"); 
while ((line = in .readLine()) != null) { 
    sb.append(line + "\n"); 

} 
m = p1.matcher(sb); 
while (!m.hitEnd()) { 
    if (m.find()) { 
     System.out.println("$" + m.group()); 
    } 
}

来源

2015-05-05 Vikash Mishra

我没有得到价格。我应该得到1398.00。请帮助 –

使用jsoup jar来提取html内容http://jsoup.org/ –

为什么你不使用他们的API？ –

如果您无法使用API的，你应该使用这个框架。看看http://jsoup.org

它会生成一个结构化的文档，并允许您遍历ids，类，标签等。

E.g.

findElementsByClass("sup")。当我回到桌面时，我可以提供一些示例代码。

来源

2015-05-05 07:26:29 Goot

当然。通过示例代码将有帮助 –

我在HTML页面中看到的模式如下。如果你以此为例，它会更好。我需要提取价格。

$ 1,398 . 00

–

从沃尔玛提取HTML内容html页面

回答

相关问题