如何使用Node.js创建Web爬虫？

我刚刚对搜索引擎的工作方式感兴趣，并且发现他们使用“机器人”或“网络爬虫”。我立即开始想知道这些事情是如何工作的，我想创造一个！所以，首先：你如何制作一个从服务器请求页面的程序？如果你在JavaScript中给了我一个简单的例子（我使用Node将它作为正常的脚本语言运行），那将会非常棒。接下来，有没有让我解释HTML的Node模块？为我创建一个DOM，以便我可以循环所有链接等等？纠正我，如果我错了，但我想它是这样做的... C++，C或Python中的任何示例也受到热烈欢迎，但我更喜欢JS或Python，因为我更熟悉高级脚本语言。如何使用Node.js创建Web爬虫？

来源

2011-12-26 corazza

这可能会感兴趣.. https://github.com/cgiffard/ node-simplecrawler – Opentuned 2012-12-03 13:52:27

获取HTTP网页：node http.get（例如有）
DOM文档：jsdom（也包括示例）

来源

2011-12-26 12:28:13

谢谢！这正是我正在寻找的东西，现在，还有一件事：我如何将这两者结合起来？用http.get加载页面，然后将其提供给jsdom？ – corazza 2011-12-26 12:41:56

这是正确的。 – 2011-12-26 12:42:33

好吧，很好，但是我要喂它，怎么样？ “res”对象？到jsdom.env？ – corazza 2011-12-26 12:46:23

如何使用Node.js创建Web爬虫？

回答

相关问题