2016-12-09 59 views
-1

我一直在试图刮页面机械化时,为了获得完整的HTML文档:如何使用使用机械化

agent = Mechanize.new 
doc = agent.get("SomeURL").parser 

它不会返回整个文档和部分,我需要获取信息的是未显示。我如何强制Mechanize给我完整的文档?

+1

我们没有足够的信息来帮助你。如果它没有返回整个文档,它返回什么?什么部分缺失?请具体说明。 –

+0

在命令行中使用'wget','curl'或'nokogiri'来检索文档,然后查看数据是否在那里。文档解析后,文档具有DHTML并且浏览器正在加载内容的可能性很大。在这种情况下,Mechanize不能帮助你,你需要一些解释JavaScript的东西。 –

回答

0

尝试

agent = Mechanize.new 
doc = agent.get("SomeURL") 
doc.body 
+3

包含一些解释总是比较好,而不是只有代码唯一的答案,因为这会使未来的读者更有用。 – EJoshuaS

+0

虽然此代码片段可能会解决问题,但它并不能解释为什么或如何回答问题。请[请提供您的代码解释](// meta.stackexchange.com/q/114762/269535),因为这确实有助于提高帖子的质量。 **标记/评论者:** [仅限代码解答,例如downvote,请勿删除!](// meta.stackoverflow.com/a/260413/2747593)(注意:我不熟悉有了这个域,所以这个答案实际上可能很简单,可以做出解释,从而减少提示,这是不必要的。你可能还想添加一个解释来防止更多的NAA/VLQ标志。) –