将数据解析为DocumentHTML

当我使用InputStreamReader从网页读取数据时，一切都可以。我有解析数据到DocumentHTML的问题。将数据解析为DocumentHTML

主要原因是HTML脚本有一些不正确使用的特殊字符。有两个&标志两次（“& &”），我相信这会导致代码崩溃。

我的代码如下所示：

URL url = new URL(PageUrl); 
URLConnection conn = url.openConnection(); 
// ... omitted ... 

// parsing 
HTMLDocument doc = (HTMLDocument)db.parse(conn.getInputStream());

因为我在做一个Android应用程序，因为DocumentHTML对象将是太大，我不使用标准的解析函数。

我发现许多解析HTML的例子像使用jsoup一样，但它们不是我想要的。

我想写我自己的解析代码，以便HTMLDocument对象保持小。

来源

2012-11-20 user1282256

为什么不使用java中可用的所有可用的Html解析器？他们有社区支持，所以他们是最好的选择。

Open Source HTML Parsers in Java

来源

2012-11-20 22:30:26

最主要的原因是，如果我使用现有的HTML解析器，在Java中HTMLDocument的对象的大小将是在大型叮咬可用，因为Android应用会慢慢的工作实在是太大了。如果我要编写自己的代码，HTMLDocument对象的大小将以千字节为单位，并且它将具有合适的大小以支持Android应用程序。它会更快地工作。 – user1282256

在这里，您可以看到应用程序内编码解析器的示例。我希望它可以帮助： - > http://stackoverflow.com/questions/8480130/parsing-html-in-java-for-an-android-app –

将数据解析为DocumentHTML

回答

相关问题