2012-03-30 29 views
1

请问您可以告诉我如何使用C# language找到网页的年龄。例如,如果我想在我的C#程序中找到此en.wikipedia.org/wiki/ATI_Technologies网站的年龄(它是第一次创建/上传到网络的那一天),那我该怎么做?请让我知道这将是什么活动?C#网页的年龄?

+0

与您看到的服务器文件和响应不存在1:1的关系。特别是对于维基百科。 – Yuck 2012-03-30 14:43:55

+0

连续抓取整个网页,首次出现时记录每个网页。然后你就可以回答这个问题。但请记住,谷歌和网络存档都不能做到这一点,这应该从一个角度提出您的问题... – Joey 2012-03-30 14:44:39

+0

Yuck,这就是为什么HTTP地址*资源*,而不是*文件*;) – Joey 2012-03-30 14:45:11

回答

0

http://archive.org有你需要的信息,你可以问他们一个webservice使用。

+0

这可能会让你非常接近,但应该说这不是100%可靠的。即使您确信archive.org对他们发现的内容(健康的怀疑态度)是真实的,但他们完全有可能无法抓取您正在查找的特定页面。 – 2012-03-30 14:47:45

+0

这是一个很好的观点,但您可以与元数据结合使用。 – Har 2012-03-30 14:52:18

+0

这种组合绝对是一种方式。我认为,archive.org可能是最好的选择,如果你必须去单一来源,但只有当有问题的网站是从其“出生”记录 – 2012-03-30 15:12:11

3

我不认为有任何可靠的方法来做到这一点。您需要指望发布商在页面的元数据中使用该数据,而不是每个人都这样做。

0

您可以在HTTP响应头中检查Last-Modified

+0

这不是一个指标它创建的时间*。 – Joey 2012-03-30 14:47:43

+0

我同意,认为该名称足够描述,但可以提供一些信息。 – 2012-04-10 15:28:25

0

7月29日有没有办法得到一个数据高度自信。 WhoIs,archive.org(感谢HarHaHu,我会忘记这一点),并且只是询问quesiton网站的所有者可能会在某种程度上起作用,但是不会保留单个文件或网址的原始发布日期自动且安全地在任何地方,甚至在主机的机器上。维基百科和许多其他网站确实在其大多数页面上保存了档案和历史信息,但是您必须相信它们并不是在任何地方隐藏数据。

每个页面的历史归档将是一个巨大的承诺,并且没有像这个现有的,你正在寻找的数据只是没有任何细节/可靠性。关于这甚至意味着什么含糊不清:您是否跟踪某个特定网址是否开始以200的响应代码响应?你跟踪单个文件吗?如果网站搬迁,那些新网页,还是旧网页?正确定义是一个困难的问题,几乎不可能完全解决。