这是我的理解是,当我做:有没有简单的方法让Mechanize获取网页的所有组件?
agent = Mechanize.New
page = agent.get("http://www.stackoverflow.com/")
机械化将使该text/html
的HTTP
GET
请求。但是,当我在完整的Web浏览器(如Chrome/Firefox)中导航到诸如Stackoverflow.com之类的网页时,浏览器会读取HTML页面,并随后发出GET
请求关联的CSS,图像,JavaScript等。
我可以想象解析由Mechanize返回的初始HTML,并识别任何CSS,图像等,并进行后续请求,但有没有一种简单的方法让Mechanize自动抓取所有或指定的组,也许只是关联的图像网页的组件?
为了给出一个有用的答案,最好知道你的最终目标是什么。你究竟在努力完成什么? – 2013-05-02 19:26:48
一个目标是从Web服务器的角度来看,机械化_look_和_behave_更像是一个完整的Web浏览器。 – Stephen 2013-05-02 22:41:25
然后,你应该看看像phantomjs一样的无头浏览器! – 2013-05-02 23:28:01