如何使用Node.js解析HTML页面

@kzh：不，但我阅读的问题（和OP的[评论]（http://stackoverflow.com/questions/7372972/how-do-i-parse-a-html-page-with-node- js/7373003＃comment-8899571））是他对其他[非节点]选择开放。 – josh3736

Htmlparser2通过FB55似乎是一个很好的选择。

来源

2013-04-20 18:09:13 esp

应该怎么处理[这个返回格式]（http://demos.forbeslindesay.co.uk/htmlparser2/）？写一堆for循环和树遍历？ –

你可以注册打开/关闭标签事件，所以根据你想要的，这是一个非常好的替代imho。 – Phil

@ polkovnikov.ph同样的作者也有[domutils]（https://github.com/FB55/domutils）包裹，它与htmlparser2返回的格式一起工作 - 它有很多方法，其中一些具有相同的方法DOM方法的语法，有些不同;你不会真的需要手动遍历对象。没有文档，但源代码非常清晰 - 它的工作原理与您所期望的一样。 – esp

jsdom太严格，无法做任何真正的屏幕抓取事情，但美丽的oup不会扼杀糟糕的标记。

node-soupselect是Python beautifulsoup成的的NodeJS一个端口，它精美的作品

来源

2013-08-24 11:40:12

使用Cheerio。它不像jsdom那样严格，并且针对抓取进行了优化。作为奖励，使用你已经知道的jQuery选择器。

❤熟悉的语法：Cheerio实现了核心jQuery的一个子集。 Cheerio 删除了jQuery 库中的所有DOM不一致和浏览器，显示出其真正华丽的API。

ϟ快速：Cheerio使用非常简单，一致的DOM 模型。因此，解析，操作和渲染的效率令人难以置信。初步的端到端基准测试表明，cheerio的速度比JSDOM快8倍左右。

❁非常灵活：Cheerio环绕@ FB55's原谅 htmlparser。 Cheerio可以解析几乎任何HTML或XML文档。

来源

2013-11-12 16:36:49 Meekohi

但是不构建DOM并且不允许XPath。 jQuery语法肯定是该库的一个缺点。 –

@ polkovnikov.ph在我的经验中，很少有应用程序需要完整的DOM解析，并且与jQuery/Cheerio中的快速“懒惰”评估相比，构建DOM是非常昂贵的。从这个意义上讲，jQuery风格的解析是一个好处，但是如果你的应用程序需要操纵DOM服务器端，你可能更愿意尝试jsdom。 – Meekohi

'jsdom'太慢了：/ –

使用htmlparser2，它的方式更快，更简单。请教此使用示例：

https://www.npmjs.org/package/htmlparser2#usage

而且现场演示这里：

http://demos.forbeslindesay.co.uk/htmlparser2/

来源

2014-11-28 12:04:19

如何获得此演示中获得的输出的确切类型？ – RaisingAgent