2011-02-04 36 views
-2

我尝试使用.net(Webclient,webrequest,响应等)屏幕刮网站 我试过很多方法,但似乎没有工作。如何刮登录所需的网站 - example.com

我总是收到“请登录查看此内容!”站点,而不是 全部拍卖信息:http://www.example.com/en/auctions/auto-details/107891/

我发送的登录数据与POST方法

请帮

+5

也许herptyderpty.com不希望你刮他们的网站?如果您有权在您的应用程序中检索他们的数据,那么我会通过API来接近他们的数据。 – Lazarus 2011-02-04 12:59:40

+0

-1当然,你可以用一种不列出某人的网站的方式来描述这个...除非它是你的网站,你应该说明...... – davidsleeps 2011-02-04 12:59:49

回答

2

它,因为当您通过浏览器查看它的身份验证cookie被发送到squiddlydoo.com以便它知道你已经登录(或者其他)并向你显示内容。

WebClient的不这样做 - 让你没有登录

你必须以某种方式捕获的cookie(如果你允许这样做,你就可以),并发送。当您提出请求时,它在标题中关闭

0

还有合法的理由。例如,我们在我们的Intranet上运行第三方Web应用程序。我需要为一些简单的任务制作一个快速的API。它确实需要登录。 那里没有什么可疑的。我认为“Scraping”一词意味着两台计算机之间真正合法的http交互的负面影响。 黑客代码如此编码是黑客?我曾为大型财富500强企业工作,并且看到他们运行一个宏记录程序来批量访问旧的旧式DOS应用程序的信息。 有时候会要求您创建快速的API,或者在某些情况下只有可能的API。