2013-08-16 56 views
0

我试图刮上玩具反斗城的页面的特定字段...刮网站只能使用一次

http://www.toysrus.com/product/index.jsp?productId=13157031

与选择“价格”。

它的所有工作一次性通过页面加载,那么它永远不会再工作。有些网站是否有防止人们刮取其内容的方法?我有点新鲜,请温和。我使用Wordpress,WP-Web的刮刀,并作为代码在页面下面:

Price: 

[wpws url="http://www.toysrus.com/product/index.jsp?productId=13157031" 
selector="price" on_error="error_show" user-agent="diaperbot"] 

回答

1

做一些网站有阻止人们刮其内容的方法吗?

是的,他们这样做。他们可能在您的查询中检测到用户代理并阻止了您的IP。

为什么?阅读TOS有关下载的内容:http://www.toysrus.com/helpdesk/index.jsp?display=safety&subdisplay=terms

这WP插件是相当原始。如果您想更有效地刮取网站并获得更好的效果,请使用python,这是一种专门用于抓取的语言。检查http://www.google.com/search?q=python+scraper+tutorial

2

markratledge是正确的。要考虑的最直接的事情就是改变你的用户代理,所以你不能识别你自己。以下是常用/最受欢迎代理商列表的有用链接:http://techblog.willshouse.com/2012/01/03/most-common-user-agents/。另外,你的知识产权是另一件大事。如果您仅使用1个IP进行拼抢,则视您的音量而定,可能会很快被阻止。您可能需要使用代理。我们有许多从免费到收费的服务。我发现Ntrepid的工具是有用的(http://ntrepidcorp.com/ion/harvest-data.php)。