我正在使用Scrapy进行报废项目。Scrapy,网址上的哈希标记
我意识到Scrapy将URL从哈希标签剥离到最后。
下面是从外壳输出:
[s] request <GET http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C#/ref=sr_nr_p_8_0?rh=n%3A165796011%2Cn%3A%212334086011%2Cn%3A%212334148011%2Cn%3A3006339011%2Cp_8%3A2229010011&bbn=3006339011&ie=UTF8&qid=1309631658&rnid=598357011>
[s] response <200 http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C>
这确实影响了我再杀因为经过了几个小时试图找出为什么不选择一些项目,我认识到,通过长期提供的HTML网址与短网址提供的网址不同。另外,经过一番观察,内容在一些关键部分发生了变化。
有没有办法修改这个行为,让Scrapy保持整个URL?
感谢您的反馈和建议。
感谢您的回答,我能够在URL中获得这个哈希标记背后的概念。基本上,按照@also的说法,JAX请求会生成一个响应,在我的情况下我必须解析JSON。下面的Scrapy示例在这个问题上提出了一些清晰的观点。 这些文件有助于进一步参考: http://blog.scrapy.org/scraping-ajax-sites-with-scrapy http://code.google.com/web/ajaxcrawling/docs/ getting-started.html – romeroqj