任何人都可以推荐一个网站爬虫,可以显示我的网站中的所有链接?网络爬虫应用
Q
网络爬虫应用
1
A
回答
1
Xenu是我找到的最好的链接检查工具。它会检查所有链接,然后给你一个选项来查看或导出它们。它是免费的,你可以从他们的网站下载它http://home.snafu.de/tilman/xenulink.html。
0
只要您是该网站的所有者(即您拥有所有文件),Adobe Dreamweaver就可以生成所有内部外部链接的报告,并报告所有损坏的链接(孤立文件)。但是,您必须先在Dreamweaver中设置您的网站。
5
W3C有最好的一个,我发现
0
如果你需要做的链接的任何后期处理,我建议任何机械化的许多变种。
在Ruby:
require "rubygems"
require "mechanize"
require "addressable/uri"
processed_links = []
unprocessed_links = ["http://example.com/"] # bootstrap list
a = WWW::Mechanize.new
until unprocessed_links.empty?
# This could take awhile, and depending on your site,
# it may be an infinite loop. Adjust accordingly.
processed_links << unprocessed_links.shift
a.get(processed_links.last) do |page|
page.links.each do |link|
link_uri = Addressable::URI.parse(link).normalize
# Ignore external links
unprocessed_links << link_uri.to_str if link_uri.host == "example.com"
end
end
end
大意的东西。
0
Larbin ...需要一点C++编码,但它是完美的高性能网络爬虫基础,可用于基本上做所有事情,从linkwalking到indexnig到数据采集。
相关问题
- 1. 网络爬虫
- 2. C++网络爬虫
- 3. PHP网络爬虫
- 4. Python网络爬虫
- 5. java网络爬虫
- 6. 网络爬虫类
- 7. 自动网络爬虫
- 8. 网络爬虫的功能
- 9. 网络爬虫,反馈?
- 10. 网络爬虫的Java
- 11. 递归网络爬虫perl
- 12. 简单的网络爬虫
- 13. Python中的网络爬虫
- 14. 需要网络爬虫
- 15. 网络爬虫文本云
- 16. 硒与python网络爬虫
- 17. 网络爬虫从Android Market
- 18. 网络爬虫不打印
- 19. 网络爬虫提取
- 20. 使用perl的网络爬虫
- 21. 使用vb.net的网络爬虫/蜘蛛
- 22. 用Java编写网络爬虫
- 23. 使用网络爬虫的道德
- 24. 网络爬虫使用双绞线
- 25. 错误使用C#网络爬虫
- 26. 在Scala中的网络爬虫算法
- 27. 识别敌对网络爬虫
- 28. 构建自动网络爬虫
- 29. 编写网络爬虫模板
- 30. 网络爬虫产生输出缓存