2011-02-16 105 views
5

我想安装爬网程序来抓取一个网站,让我说博客,并只提取网站中的链接,并将链接粘贴到文本文件中。你能指导我一步一步地设置爬虫吗?我正在使用Eclipse。安装指南crawler4j

回答

0

Jsoup将做你需要的所有与HTML解析。 Jsoup是处理html源代码的java api。你可以得到

  1. 表,你可以用它来分析每一行或每一列。
  2. 列表中的所有链接和源导入到该html(导入像 css和js文件)。
  3. 特定标签的数据。

以上。

为了您的目的,here是示例代码。

希望这会帮助你。