我只有一个帖子的网址,如http://www.avc.com/a_vc/2011/08/html5-continued.html,是否有任何获得这篇文章内容的方式?我的意思是,排除菜单,标志和广告。如何从博客中获取一篇文章的内容?
非常感谢!
我只有一个帖子的网址,如http://www.avc.com/a_vc/2011/08/html5-continued.html,是否有任何获得这篇文章内容的方式?我的意思是,排除菜单,标志和广告。如何从博客中获取一篇文章的内容?
非常感谢!
如果你想刮这个网站,首先要考虑这是否合法。
然后,你可以这样做得到适当的元素的innerHTML
(或与jQuery - .html()
)。在你的情况下,这是disqus_post_message
正如@ bensiu指出,它会更容易使用RSS提要。
既然你标记的Java,这里有可能是有用的库:
谢谢bozho!但我已经知道这两个框架,事情就是这样我应该为每个网站实施一个模式。关于rss的东西,尝试找到de rss链接,然后找到具有相同url的标签。最后一种情况看起来更好,但有数百种变化,所以如果可能的话,我想避免这种选择。 – deniswsrosa
使用RSS提要什么是可用 – bensiu
此页面上java是为了javascript,因为汽车是汽车:-P – Neal