我试图报废一个网页。我使用Nokogiri /机械化。所以如果我让机械化获取文件而不是页面对象
page = agent.get(url)
page.class
=> Mechanize::File
,有时我得到一个页面对象有时候是一个文件对象。但我需要的是,每当一个页面对象。我试图为plain/text添加一个pluggable_parser,但这对我不起作用。
有没有人有一个想法如何我可以修复它,或者我如何从文件对象中找出内容类型或知道如何将文件转换为页面对象?
感谢迈克尔
使用相同的网址或不同的网址? – Serabe
具有相同的网址,我认为它是一个肮脏的HTML代码或类似的东西。我没有与其他方获得页面对象的问题。我尝试了一个工作,并下载文件,以使用uri从文件中创建一个页面对象。 – mibo