2012-03-04 33 views
0

我正在写一些链接刮码,我只希望抓取给定网页的<head>部分。显然,我一直对HEAD请求的内容感到困惑,因为我认为它本来就是这样做的。相反,它只是返回HTTP标头。HEAD请求vs获取网页的'<head>`

有没有办法只读取给定页面的<head>部分,而没有获取整个文档?

回答

2

不,在HTTP协议中没有规定(它根本不知道HTML)。您需要执行正确的GET或POST,使用HTML解析器来提取您需要的数据。

你可以做的唯一的事情是限制你回来的东西是使用Range标题,但这只是猜测你的部分是关于你请求多少数据。

+0

好答案 - 谢谢 – Yarin 2012-03-04 13:27:53