2017-02-09 111 views
0

我正在使用Beautifulsoup和Python。 我尝试从包含哈希#的链接获取元素。这是一个分页链接,#之后的部分是页码。Beautifulsoup和哈希链接#

它不起作用,我明白这个问题是因为urllib2无法处理这个问题,因为#之后的URL部分是用于客户端处理,并且永远不会发送到服务器。

所以我使用Chrome的开发者工具的网络选项卡检查真实的URL,它给了我这样的:

http://www.myserver.com/modules/blocklayered/blocklayered-ajax.php?_=1486617675431&id_category_layered=24&layered_weight_slider=0_10&layered_price_slider=21_2991&orderby=position&orderway=desc&n=20&p=3

它看起来像服务器不喜欢这个网址,因为在所有它给我一个空白页面,只包含这个奇怪的结果:{"filtersBlock":"\n\n

所以我的问题是,有没有办法处理这种与BeautifulSoup的链接?

+0

我找到了一种方法,使用BeautifulSoup来抓取DOM和Selenium来处理这些包含#的链接。只需将包含#的Selenium驱动程序传递给driver.get(“www.myserver.com/products#/page-2”)即可。 – Laurent

回答

0

我找到了一种方法,使用BeautifulSoup来抓取DOM和Selenium来处理这些包含#的链接。只需将包含#的链接传递给Selenium驱动程序driver.get("www.myserver.com/products#/page-2")即可。