2012-10-20 36 views
1

我想从论坛主题中提取用户帖子。仅限用户文本。如何使用Jsoup或样板从HTML页面中提取?请给我一个解决方案。从论坛中提取用户视图

给我一个解决方案

回答

0
  1. 连接到网站,jsoup像张贴在这里:http://jsoup.org/cookbook/input/load-document-from-url
  2. 使用选择为得到你需要的岗位。例如,所有可能的选择名单都可以在这里:http://jsoup.org/cookbook/extracting-data/selector-syntax

一般来说,你应该看看到Jsoup Codebook

您是否需要登录或才能以访客身份访问论坛?

+0

未登录。我必须在Java程序中使用Jsoup从论坛中提取仅用户视图 – Murali

+0

然后,您可以像这样获取完整的HTML文档:'Document doc = Jsoup.connect(“http://yoururl.com/”).get( );' – ollo

+0

顺便说一句。您可以使用此代码:http://stackoverflow.com/questions/13005872/extract-the-thread-head-and-thread-reply-from-a-forum/13014174#comment17678171_13014174 – ollo