我刚刚对搜索引擎的工作方式感兴趣,并且发现他们使用“机器人”或“网络爬虫”。我立即开始想知道这些事情是如何工作的,我想创造一个!所以,首先:你如何制作一个从服务器请求页面的程序?如果你在JavaScript中给了我一个简单的例子(我使用Node将它作为正常的脚本语言运行),那将会非常棒。接下来,有没有让我解释HTML的Node模块?为我创建一个DOM,以便我可以循环所有链接等等?纠正我,如果我错了,但我想它是这样做的... C++,C或Python中的任何示例也受到热烈欢迎,但我更喜欢JS或Python,因为我更熟悉高级脚本语言。如何使用Node.js创建Web爬虫?
4
A
回答
3
- 获取HTTP网页:node http.get(例如有)
- DOM文档:jsdom(也包括示例)
相关问题
- 1. 如何在ASP.NET中创建Web爬虫?
- 2. Java Web爬虫库
- 3. C#web和ftp爬虫库
- 4. Web爬虫的Rx框架
- 5. c#基于web的爬虫
- 6. Rails是否为Web爬虫和僵尸程序创建会话?
- 7. 如何在Web爬虫中使用Message Queue?
- 8. 如何在java中创建网络爬虫?
- 9. 如何在java中创建网络爬虫
- 10. 如何使用asp.net mvc3和c#构建网络爬虫?
- 11. 如何为使用oauth2的网站构建Python爬虫
- 12. 如何使网络爬虫更有效?
- 13. 如何为Web爬虫禁用Rails会话?
- 14. Python爬虫 - html.fromstring
- 15. 网络爬虫
- 16. Python的爬虫?
- 17. 爬虫实例
- 18. Web爬虫解析PHP/Javascript链接?
- 19. 用scrapy创建一个简单的python爬虫程序
- 20. 使用Jena Library的Java中的关联数据的Web爬虫
- 21. Node.js:创建Web Hook
- 22. Ruby中的Web爬虫:如何实现最佳性能?
- 23. 如何在Java中设计一个Web爬虫?
- 24. Perl Web爬虫如何跟随ASP.NET回发?
- 25. 如何有效地运行python web爬虫
- 26. 网络爬虫应用
- 27. 开源C++爬虫?
- 28. C++网络爬虫
- 29. 文件爬虫OSError
- 30. PHP网络爬虫
这可能会感兴趣.. https://github.com/cgiffard/ node-simplecrawler – Opentuned 2012-12-03 13:52:27