2011-12-26 55 views
4

我刚刚对搜索引擎的工作方式感兴趣,并且发现他们使用“机器人”或“网络爬虫”。我立即开始想知道这些事情是如何工作的,我想创造一个!所以,首先:你如何制作一个从服务器请求页面的程序?如果你在JavaScript中给了我一个简单的例子(我使用Node将它作为正常的脚本语言运行),那将会非常棒。接下来,有没有让我解释HTML的Node模块?为我创建一个DOM,以便我可以循环所有链接等等?纠正我,如果我错了,但我想它是这样做的... C++,C或Python中的任何示例也受到热烈欢迎,但我更喜欢JS或Python,因为我更熟悉高级脚本语言。如何使用Node.js创建Web爬虫?

+0

这可能会感兴趣.. https://github.com/cgiffard/ node-simplecrawler – Opentuned 2012-12-03 13:52:27

回答

3
+0

谢谢!这正是我正在寻找的东西,现在,还有一件事:我如何将这两者结合起来?用http.get加载页面,然后将其提供给jsdom? – corazza 2011-12-26 12:41:56

+1

这是正确的。 – 2011-12-26 12:42:33

+0

好吧,很好,但是我要喂它,怎么样? “res”对象?到jsdom.env? – corazza 2011-12-26 12:46:23