2009-10-07 89 views
0

我想读取一个网站的内容,并通过使用c#和asp.net将其存储在一个文件中。我知道我们可以通过使用httpwebrequest来阅读它。但是有可能读取所有可用的链接数据吗?如何阅读网站的内容?

例如:假设我想读取http://www.msn.com我可以直接给出url并且可以读取没有问题的主页数据。但是在这里,msn.com页面在主页中包含很多链接,我也想阅读这些页面内容。可能吗?

有人可以给我一个starup来做到这一点吗?

预先感谢

+0

试试吧你自己,如果你考虑这个问题,这很容易。如果你仍然有困难,那么回来后,发布你正在使用的代码,并解释它是如何失败的,我相信你会得到一些帮助。 – Lazarus

回答

1
  1. 定义URL的队列

  2. 添加主页URL排队

  3. 而队列不是empy

3.1 CURRENTURL =出列()

3.2读取当前网址

3.3使用正则表达式从当前页面中提取所有网址。

3.4插件的所有URL队列

你将不得不在队列中的URL限制某种深度或某一领域,否则你会尝试下载整个互联网:)

+0

嗨感谢您的快速回复..你能给我一个简单的例子从当前页面提取网址吗? – Nagu

+0

我会与“美丽的汤”刮去的页面。 – jldupont

+0

3.35对于找到的每个网址,如果它是您已经访问过的网址,请将其忽略。否则,你可以发现自己在一个循环。 –