1
当我使用InputStreamReader从网页读取数据时,一切都可以。 我有解析数据到DocumentHTML的问题。将数据解析为DocumentHTML
主要原因是HTML脚本有一些不正确使用的特殊字符。 有两个&标志两次(“& &”),我相信这会导致代码崩溃。
我的代码如下所示:
URL url = new URL(PageUrl);
URLConnection conn = url.openConnection();
// ... omitted ...
// parsing
HTMLDocument doc = (HTMLDocument)db.parse(conn.getInputStream());
因为我在做一个Android应用程序,因为DocumentHTML对象将是太大,我不使用标准的解析函数。
我发现许多解析HTML的例子像使用jsoup一样,但它们不是我想要的。
我想写我自己的解析代码,以便HTMLDocument对象保持小。
最主要的原因是,如果我使用现有的HTML解析器,在Java中HTMLDocument的对象的大小将是在大型叮咬可用,因为Android应用会慢慢的工作实在是太大了。如果我要编写自己的代码,HTMLDocument对象的大小将以千字节为单位,并且它将具有合适的大小以支持Android应用程序。它会更快地工作。 – user1282256
在这里,您可以看到应用程序内编码解析器的示例。我希望它可以帮助: - > http://stackoverflow.com/questions/8480130/parsing-html-in-java-for-an-android-app –