2013-04-17 45 views
0

我正在创建一个Web应用程序,它解析不同的网站,例如,如果您在应用程序上搜索“stackoverflow”,我们将搜索多个网站,谷歌,雅虎,bing,stackoverflow等。围绕这个事实,我需要为我决定通过HTML解析的每个网站使用api,到目前为止它工作正常。但我知道,如果像谷歌这样的网站从同一个IP地址获得非常快速的请求,他们将阻止该IP,所以我想要做的就是使用用户IP并将它发送到应用程序中,例如谷歌将认为用户发起了请求。我想到了一些方法,例如:有没有JavaScript发起请求,并发回的HTML,但它只是看起来像这样一个拖动,看到我已经写了解析器的红宝石,我真的不觉得2个单独的调用会很高效。所以如果任何人有任何想法如何通过ip欺骗或其他黑客来实现这一点,我会永远感激。谢谢在数据包请求中更改IP请求Rails

+0

请花时间格式化您的问题,并使用正确的语法,标点,大小写和拼写。堆栈溢出喜欢简洁,写得好,百科全书般的问题。 –

回答

0

你可以使用银行代理服务器,但这是昂贵的。我个人认为我会使用批准的方式来做事情,而不用担心试图绕过他们的会话嗅探算法。

你正在采取的“捷径”可能会比使用他们的API慢,特别是当你考虑花时间重写你的代码。这是一场试图处理HTML抓取的持续战斗,因为它们都将改变他们的HTML布局,打破你的刮板。如果有的话,它们的API变化会更慢,更不经常,所以您的代码会嗡嗡作响。