2012-09-10 63 views
2

寻找TagSoup和JSoup之间关于真实世界文档的性能比较。到目前为止,我一直在使用TagSoup进行HTML处理,并且它工作得很好。唯一的缺点是由于SAX本质,应该使用堆栈以编程方式完成大量的工作(例如用于处理带有标记的文本)。 JSoup看起来更简洁 - 但我关心的是性能。TagSoup vs JSoup :: Performance?

回答

0

TagSoup website状态:

有各种用Java编写的其他HTML SAX解析器,特别是NekoHTML,JTidy(C库和工具HTML整洁的端口),以及HTML解析器。所有这些都有其优点和缺点:围绕Web的普遍看法似乎是TagSoup是最慢的,但也是最稳健和可靠的。

我试着创建一个应用程序,它将使用jsoup和5个页面使用TagSoup解析5个页面并发布时间。不幸的是,我不知道如何使用TagSoup 1.2.1将网页返回到DOM,这使得苹果与苹果的比较变得困难。