2012-09-11 41 views
2

我正在研究一个产品,我需要解析一个HTML文档。我寻找Jericho,TagSoup,Jsoup和Crawl4J。我应该使用哪个解析器来解析HTML,因为我需要在使用石英的多线程环境中运行此过程?应该使用什么html解析器?

一次,如果10个线程在内存中运行,那么我需要一个消耗更少内存的API。在jericho中,我在某处读到它是基于文本的搜索API并消耗较少的内存。我对吗?或者我应该去为其他,为什么?

回答

2

测试它们并检查它们的内存占用情况。如果不知道和测试您要解析的HTML,很难对内存配置文件进行预测。

FFIW,我已经在许多不同的系统中使用了Jsoup,我发现它工作得很好。我从来没有注意到它有任何猖獗的内存问题。

0

我“米使用JSoup,我非常深刻的印象,它是邪恶的快的解析,以及它的CSS样式的内容模式匹配是非常容易的维护比的XPath。

我第一次尝试Validator.nu的解析器,并发现它非常缺乏的文档是非常薄的,我无法得到正常执行,在浏览器工作正常的XPath

此外,检查出这个问题:。Which HTML Parser is the best?

相关问题