2016-10-26 58 views
0

我正在开发一些报废软件来检查产品价格是否变化。为此,我发送Web http请求来获取产品页面,它将返回整个html页面。有很多项目的检查,所以我做并行,所以我的网络带宽迅速耗尽Web抓取:如何从某个页面获取特定元素?

的主要问题:

是否可以发送网页的HTTP请求与选择查询得到的只有html页面的特定元素

+0

特定元素?否。您应该检查一个API,因为这样会非常有利于提取 – itsme86

+0

该供应商没有API –

+0

不错的梦想,但我不知道任何协议只向服务器请求页面的一部分,你可能可以使用一个客户端流来处理一些事情,一旦你关心的元素被接收到,这些客户端流就会关闭流,但是这会发生在非常接近线的地方(即直接套接字控制,也许?)。 –

回答

0

您最好的(免费/低价)赌注是Html Agility Pack。那里有自动化的解决方案,有一个用户界面,你可以将它粘在URL中,然后点击并点击你想要提取的元素,然后他们为你生成信息。大$ $$$的东西,虽然:(。使用Html敏捷包,你必须手工创建“xpath”

+0

我使用Html敏捷包,但我hav e下载整个html以使其可以选择 –

+0

@IvanSukhetskyi,正确。您不能只下载HTML的任意部分。 HTML不算什么。大部分尺寸来自脚本,图片,动画,样式等,这些都不需要拉动。 – SledgeHammer

0

你不能,除非目标服务器支持范围请求,你可以发送一个请求测试目标服务器是否符合范围要求