0
我正在使用Beautifulsoup和Python。 我尝试从包含哈希#的链接获取元素。这是一个分页链接,#之后的部分是页码。Beautifulsoup和哈希链接#
它不起作用,我明白这个问题是因为urllib2无法处理这个问题,因为#之后的URL部分是用于客户端处理,并且永远不会发送到服务器。
所以我使用Chrome的开发者工具的网络选项卡检查真实的URL,它给了我这样的:
它看起来像服务器不喜欢这个网址,因为在所有它给我一个空白页面,只包含这个奇怪的结果:{"filtersBlock":"\n\n
所以我的问题是,有没有办法处理这种与BeautifulSoup的链接?
我找到了一种方法,使用BeautifulSoup来抓取DOM和Selenium来处理这些包含#的链接。只需将包含#的Selenium驱动程序传递给driver.get(“www.myserver.com/products#/page-2”)即可。 – Laurent