我正在使用python scrapy刮一个网站。 该网页的格式为http://www.cuponation.in/myntra-coupons#voucher-13537 它包含'#'。在将此网页作为start_url进行抓取时,会忽略#后面的部分。如何刮#包含#使用python scrapy
有没有一种方法,我可以使用python scrapy
我正在使用python scrapy刮一个网站。 该网页的格式为http://www.cuponation.in/myntra-coupons#voucher-13537 它包含'#'。在将此网页作为start_url进行抓取时,会忽略#后面的部分。如何刮#包含#使用python scrapy
有没有一种方法,我可以使用python scrapy
虽然拼抢很平常,它忽略#
后的部分用刮的#在fullurl它。该符号通常会将您带到id
等于'凭证-13537'的网页上的<div>
标记,就是这一切。所以一旦你刮的页面,你应该尝试寻找类似的东西:
<div id="voucher-13537">
,这就是你要寻找的。
谈到解析html文件,如果你还没有使用它,我建议你看看BeautifulSoup4
模块。
提及BeautifulSoup4可能更适合OP –
'#'只会带你到页面上的某个地方。 – BrenBarn
我要说实话,我不明白是什么造成了所有的仇恨。这似乎是一个非常简单的问题陈述。 – Veedrac
@Veedrac,真实,但它显示了一个非常根本的刮擦误解,我不知道OP期望结果是什么。 – OGHaza