2017-07-07 51 views
0

是否有可能通过使用python检查网站是否被黑名单列出?我试过:Python - 检查网站是否被Google列入黑名单

try: 
      opener = requests.get(strona['url'], headers={ 
       'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) \ 
       AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 \ 
       Safari/537.36' 
      }) 
      tekst_html = opener.text 

和搜索tekst_html为“您正在进入误导性页面”或类似的东西。我意识到在html源代码中没有这样的短语。我认为这是显示警告的外部脚本。

这是列入黑名单的网站的示例:http://www.forum.dietaproteinowa.eu/

回答

1

用户代理不控制什么浏览器显示,它控制哪些内容站点发送。网站被铬阻挡,所以铬引擎必须阻止。如果它被网站服务器控制,这将是非常荒谬的:“嘿,看看这个人似乎使用铬,但谷歌表示,我们被列入黑名单,所以我们最好不要发送他的内容,并发送谷歌给我们特定的拦截网页”

要检查这样的网站是否被列入黑名单,你基本上需要物理运行chrome。谢天谢地,python可以为你使用selenium模块和chrome驱动程序。

有了硒,你需要运行chrome驱动程序,然后请求驱动程序打开给定的站点,在它被加载后请求源代码,接收硒并检查<html>标记是否具有blacklisted类。

如果你不想浏览器弹出,你可以使用一些硒特定的技巧。例如,在linux上,你可以在python中创建虚拟显示器,并在该虚拟显示器中运行chrome驱动程序。