0
我正在使用scrapy来抓取网站。来自相同PyQuery对象的不同输出
with open('test.html', 'wb') as f:
f.write(response.body)
使用此块,我正在将文本写入文件。当我打开文件时,我可以看到许多“a”标签。
当我打印相同的东西。它只显示两个“a”标签
print response.body
你知道这里发生了什么吗?
我正在使用scrapy来抓取网站。来自相同PyQuery对象的不同输出
with open('test.html', 'wb') as f:
f.write(response.body)
使用此块,我正在将文本写入文件。当我打开文件时,我可以看到许多“a”标签。
当我打印相同的东西。它只显示两个“a”标签
print response.body
你知道这里发生了什么吗?
我已经解决了这个问题。抓取的网站在组合框中有第二个<html>
标记。
我正在使用PyQuery,如果在html结构中有任何问题,PyQuery不起作用。
现在我已将选择器更改为xpath,现在它会在html中查找所有标记。
我认为这取决于您正在爬行的网站。 – eLRuLL
您是否尝试同时写入/打印? – kev
这些代码都是解析方法。所以,在相同的分析方法中,响应不会改变。 – AnovaConsultancy