2012-11-20 45 views
1

当我使用InputStreamReader从网页读取数据时,一切都可以。 我有解析数据到DocumentHTML的问题。将数据解析为DocumentHTML

主要原因是HTML脚本有一些不正确使用的特殊字符。 有两个&标志两次(“& &”),我相信这会导致代码崩溃。

我的代码如下所示:

URL url = new URL(PageUrl); 
URLConnection conn = url.openConnection(); 
// ... omitted ... 

// parsing 
HTMLDocument doc = (HTMLDocument)db.parse(conn.getInputStream()); 

因为我在做一个Android应用程序,因为DocumentHTML对象将是太大,我不使用标准的解析函数。

我发现许多解析HTML的例子像使用jsoup一样,但它们不是我想要的。

我想写我自己的解析代码,以便HTMLDocument对象保持小。

回答

0

为什么不使用java中可用的所有可用的Html解析器? 他们有社区支持,所以他们是最好的选择。

Open Source HTML Parsers in Java

+0

最主要的原因是,如果我使用现有的HTML解析器,在Java中HTMLDocument的对象的大小将是在大型叮咬可用,因为Android应用会慢慢的工作实在是太大了。如果我要编写自己的代码,HTMLDocument对象的大小将以千字节为单位,并且它将具有合适的大小以支持Android应用程序。它会更快地工作。 – user1282256

+0

在这里,您可以看到应用程序内编码解析器的示例。我希望它可以帮助: - > http://stackoverflow.com/questions/8480130/parsing-html-in-java-for-an-android-app –