2012-01-09 39 views
1

对于我的第一个爬行程序的网站,我打算做到以下几点:爬行使用Python

  1. 打开下面的网址使用硒:http://www.google.com/
  2. 收集所有培训相关链接
  3. 在结果页,枚举所有存在的http链接并将它们存储在csv中。
  4. 回到步骤2,但单击下一个

谁能给我一些帮助上手? (如果有帮助,我在Python 2.6.6上)

+1

本网站的硒使用量过大。网站没有任何动态(ajax)内容。如果这是你的第一个任务,请尝试[机械化](http://wwwsearch.sourceforge.net/mechanize/)在文档 – reclosedev 2012-01-09 17:41:54

回答

4

看看BeautifulSoup库,在页面上查找链接非常简单,并且已经有了StackOverflow的示例。

+0

有样本感谢每一个。你的建议真的帮助我。 – user1063643 2012-01-10 16:31:55

+0

我使用了这个BeautifulSoup库并且抓取了下面的链接 – user1063643 2012-01-10 17:22:16

+0

看看Python的re库(对于正则表达式),你可以使用它来匹配满足条件的URL。 – Peter 2012-01-10 18:06:14

1

国际海事组织,lxml是更容易使用和pythonic API。查看here作为详细解释的例子。

0

如果您的目标只是为了获取数据,您有没有考虑联系Cars.com的人员?他们可能能够为您提供Feed或API访问权限,前提是您的最终目标是获取数据,而不是仅开发抓取程序。