我试图写一个程序,作为一个例子,将刮最高价关闭此网页:原始HTML与使用机械化和美丽的汤蟒蛇DOM刮
http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults
第一,我很容易通过执行以下操作来检索HTML:
from urllib import urlopen
from BeautifulSoup import BeautifulSoup
import mechanize
webpage = 'http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults'
br = mechanize.Browser()
data = br.open(webpage).get_data()
soup = BeautifulSoup(data)
print soup
但是,原始HTML不包含价格。浏览器确实......这是事情(这里的澄清可能也会帮助我)...并在构建DOM树时从别处检索价格。
我被引导认为机械化会像我的浏览器一样行动并返回DOM树,我也相信这是我看到的,例如Chrome的开发人员工具视图(页面如果我对此不正确,我该如何去获取价格信息的存储空间?)为了查看DOM树,是否需要告诉机械化要做些什么?
一旦我可以将DOM树转换为python,我需要做的一切应该是快照。谢谢!
大约四年前,我可能会同意你关于美丽的汤...... – pguardiario 2012-03-04 09:12:34
精心制作..... – 2012-03-04 13:07:42
现在任何基于libxml2的解析器都会击败美丽的汤,并且有很多汤。 – pguardiario 2012-03-04 22:11:28