Q

如何抓取网站？

java
android

2012-10-03 150 views -3 likes

-3

我知道如何解析RSS提要，但是如何阅读文章？我必须刮网站吗？或者有没有其他的解析在Java文章？如何抓取网站？

在此先感谢

编辑：我决定使用jSoup。

2012-10-03 Ahmad

A

回答

2

那么RSS提要（大概）包含的链接是文章链接，所以它（大概）归结为你的意思是“读”。

如果您只是需要获取它们，请使用URL.getInputStream或其他一些HTTP客户端库。
如果您想显示最终用户阅读的新闻文章页面，那么您只需要在本机浏览器中打开该URL即可。
如果你想提取文章文本，那么你需要使用合适的HTML解析器解析HTML，或者使用忽略HTML结构的kludgey文本模式识别（blech！）。

2012-10-03 23:13:05

相关问题