应该使用什么html解析器？

我正在研究一个产品，我需要解析一个HTML文档。我寻找Jericho，TagSoup，Jsoup和Crawl4J。我应该使用哪个解析器来解析HTML，因为我需要在使用石英的多线程环境中运行此过程？应该使用什么html解析器？

一次，如果10个线程在内存中运行，那么我需要一个消耗更少内存的API。在jericho中，我在某处读到它是基于文本的搜索API并消耗较少的内存。我对吗？或者我应该去为其他，为什么？

2012-09-11 vaibought

测试它们并检查它们的内存占用情况。如果不知道和测试您要解析的HTML，很难对内存配置文件进行预测。

FFIW，我已经在许多不同的系统中使用了Jsoup，我发现它工作得很好。我从来没有注意到它有任何猖獗的内存问题。

2012-09-11 11:41:26 pap

我“米使用JSoup，我非常深刻的印象，它是邪恶的快的解析，以及它的CSS样式的内容模式匹配是非常容易的维护比的XPath。

我第一次尝试Validator.nu的解析器，并发现它非常缺乏的文档是非常薄的，我无法得到正常执行，在浏览器工作正常的XPath

此外，检查出这个问题：。Which HTML Parser is the best?

2014-01-03 18:28:56

回答