2017-09-15 69 views
0

我的要求是通过在线搜索关键字来对给定关键字进行报告。如何在Google上进行网络抓取

我的计划是,我的WebCrawler将

  1. 在谷歌搜索或谷歌,必应和雅虎
  2. 返回网站的冰或雅虎
  3. 打开网页/链接关键字使用使报告这些页面。

因为我想做一个规则服从webcrawler。所以,当我看到这些网站的robots.txt我才知道,搜索引擎已经封锁了WebCrawler的搜索关键字,如

google.com/robots.txt

User-agent: * 
Disallow: /search 

我知道,如果我尝试在搜索引擎上搜索关键字我的IP可能被阻止。

我的新计划,我的WebCrawler将

  1. 搜索关键字的谷歌或冰或雅虎(最多2 - 在不同的时间跨度,每日3次 )
  2. 打开网页/链接的网站返回谷歌,bing或雅虎 (给予2-3分钟的延迟打开每个网页/链接返回搜索引擎)
  3. 使用这些网页的报告。

问题

  1. 让我知道,即使经过这么多的保健将谷歌阻止我的IP ?这样的网络安全吗?
  2. 也让我知道使用代理隐藏/更改 实际的IP地址的好技术。

PS:我使用Java和Jsoup为webcrawling

+2

您应该使用搜索引擎提供的搜索API。这样你不会被阻止(尽管搜索仍然有限)。 – Kayaman

回答

0

尝试,做你job.Its自动化,所以我不认为你的ip会被任何服务提供商的阻塞。

+0

它是一款测试软件。你能让我知道这有什么用处吗? – Junaid

+0

就像网页上的任何人类点击一样,您可以使用硒来做到这一点,人们使用它来测试或监控生产服务器。同时,当您点击某个网址或链接或点击网页中的任何地方时,您可以使用标准Java代码从页面收集数据。此链接将为您提供帮助:https://stackoverflow.com/questions/34804319/selenium-webdriver-web-crawler – Chauhan

+0

我不想抓取特定的网址。由于关键字未知,因此我们无法确定要抓取的网站和网址数量。 – Junaid