如何在Google上进行网络抓取

我的要求是通过在线搜索关键字来对给定关键字进行报告。如何在Google上进行网络抓取

我的计划是，我的WebCrawler将

在谷歌搜索或谷歌，必应和雅虎
返回网站的冰或雅虎
打开网页/链接关键字使用使报告这些页面。

因为我想做一个规则服从webcrawler。所以，当我看到这些网站的robots.txt我才知道，搜索引擎已经封锁了WebCrawler的搜索关键字，如

google.com/robots.txt

User-agent: * 
Disallow: /search

我知道，如果我尝试在搜索引擎上搜索关键字我的IP可能被阻止。

我的新计划，我的WebCrawler将

搜索关键字的谷歌或冰或雅虎（最多2 - 在不同的时间跨度，每日3次）
打开网页/链接的网站返回谷歌，bing或雅虎 （给予2-3分钟的延迟打开每个网页/链接返回搜索引擎）
使用这些网页的报告。

问题

让我知道，即使经过这么多的保健将谷歌阻止我的IP ？这样的网络安全吗？
也让我知道使用代理隐藏/更改实际的IP地址的好技术。

PS：我使用Java和Jsoup为webcrawling

来源

2017-09-15 Junaid

您应该使用搜索引擎提供的搜索API。这样你不会被阻止（尽管搜索仍然有限）。 – Kayaman

尝试硒，做你job.Its自动化，所以我不认为你的ip会被任何服务提供商的阻塞。

来源

2017-09-15 05:29:17 Chauhan

它是一款测试软件。你能让我知道这有什么用处吗？ – Junaid

就像网页上的任何人类点击一样，您可以使用硒来做到这一点，人们使用它来测试或监控生产服务器。同时，当您点击某个网址或链接或点击网页中的任何地方时，您可以使用标准Java代码从页面收集数据。此链接将为您提供帮助：https://stackoverflow.com/questions/34804319/selenium-webdriver-web-crawler – Chauhan

我不想抓取特定的网址。由于关键字未知，因此我们无法确定要抓取的网站和网址数量。 – Junaid

如何在Google上进行网络抓取

回答

相关问题