如何阅读网站的内容？

我想读取一个网站的内容，并通过使用c＃和asp.net将其存储在一个文件中。我知道我们可以通过使用httpwebrequest来阅读它。但是有可能读取所有可用的链接数据吗？如何阅读网站的内容？

例如：假设我想读取http://www.msn.com我可以直接给出url并且可以读取没有问题的主页数据。但是在这里，msn.com页面在主页中包含很多链接，我也想阅读这些页面内容。可能吗？

有人可以给我一个starup来做到这一点吗？

预先感谢

2009-10-07 Nagu

试试吧你自己，如果你考虑这个问题，这很容易。如果你仍然有困难，那么回来后，发布你正在使用的代码，并解释它是如何失败的，我相信你会得到一些帮助。 – Lazarus

3.1 CURRENTURL =出列（）

3.2读取当前网址

3.3使用正则表达式从当前页面中提取所有网址。

3.4插件的所有URL队列

你将不得不在队列中的URL限制某种深度或某一领域，否则你会尝试下载整个互联网:)

2009-10-07 11:45:35

嗨感谢您的快速回复..你能给我一个简单的例子从当前页面提取网址吗？ – Nagu

我会与“美丽的汤”刮去的页面。 – jldupont

3.35对于找到的每个网址，如果它是您已经访问过的网址，请将其忽略。否则，你可以发现自己在一个循环。 –

回答