我的要求是通过在线搜索关键字来对给定关键字进行报告。如何在Google上进行网络抓取
我的计划是,我的WebCrawler将
- 在谷歌搜索或谷歌,必应和雅虎
- 返回网站的冰或雅虎
- 打开网页/链接关键字使用使报告这些页面。
因为我想做一个规则服从webcrawler。所以,当我看到这些网站的robots.txt
我才知道,搜索引擎已经封锁了WebCrawler的搜索关键字,如
google.com/robots.txt
User-agent: *
Disallow: /search
我知道,如果我尝试在搜索引擎上搜索关键字我的IP可能被阻止。
我的新计划,我的WebCrawler将
- 搜索关键字的谷歌或冰或雅虎(最多2 - 在不同的时间跨度,每日3次 )
- 打开网页/链接的网站返回谷歌,bing或雅虎 (给予2-3分钟的延迟打开每个网页/链接返回搜索引擎)
- 使用这些网页的报告。
问题
- 让我知道,即使经过这么多的保健将谷歌阻止我的IP ?这样的网络安全吗?
- 也让我知道使用代理隐藏/更改 实际的IP地址的好技术。
PS:我使用Java和Jsoup为webcrawling
您应该使用搜索引擎提供的搜索API。这样你不会被阻止(尽管搜索仍然有限)。 – Kayaman