2012-03-12 42 views
0

是否有可能从给定的网址获取所有链接以获取给定网站的所有结构?获取指定域中所有网站的链接,任何工具?

例如:

www.test.com 
www.test.com/page1.aspx 
www.test.com/page2.aspx 
www.test.com/page3.aspx 
www.test.com/page1.aspx?id=1 
... 

像wget的,但只有程序来检索链接

感谢您的帮助

+0

这些链接从哪里来? – Oded 2012-03-12 16:22:56

+0

正在寻找一个选项?您是否只查找通过超链接公开的页面列表,或者您是否需要能够获取域中所有有效URL的列表? – 2012-03-12 16:24:16

+0

来自html(页面结构) – gruber 2012-03-12 16:24:16

回答

0

如果你的意思是你想获得一个页面,你可以在所有的链接使用HTML Agility Pack来下载,解析和查询它包含的所有链接的HTML。

这可以扩展到遵循这些链接(保留已访问的链接的列表,以便您不进入循环),然后轮到它们并获取返回页面上的链接。

这些是原始爬虫的原料。

相关问题