2010-04-19 54 views
0

我是解析器的新手。我喜欢从网站获取特定数据。我需要使用解析器。如何开始解析器?我需要下载什么? 代码是用Java中的解析器从网站获取数据的代码是什么?Java代码中的解析器入门

回答

0

我的建议是使用一个开源的HTML解析器如HTMLCleaner - http://htmlcleaner.sourceforge.net/

可以使用HTMLCleaner(或类似)来创建Web页面的DOM表示,然后用它来提取任何信息你想从网页。

的过程看起来是这样的:

URL url = new URL("website you want to load"); 
HTMLCleaner h = new HTMLCleaner(); 
TagNode HtmlNode = h.clean(url.openStream()); 
//perform queries on the DOM to extract information