对于我的第一个爬行程序的网站,我打算做到以下几点:爬行使用Python
- 打开下面的网址使用硒:http://www.google.com/
- 收集所有培训相关链接
- 在结果页,枚举所有存在的http链接并将它们存储在csv中。
- 回到步骤2,但单击下一个
谁能给我一些帮助上手? (如果有帮助,我在Python 2.6.6上)
对于我的第一个爬行程序的网站,我打算做到以下几点:爬行使用Python
谁能给我一些帮助上手? (如果有帮助,我在Python 2.6.6上)
看看BeautifulSoup库,在页面上查找链接非常简单,并且已经有了StackOverflow的示例。
有样本感谢每一个。你的建议真的帮助我。 – user1063643 2012-01-10 16:31:55
我使用了这个BeautifulSoup库并且抓取了下面的链接 – user1063643 2012-01-10 17:22:16
看看Python的re库(对于正则表达式),你可以使用它来匹配满足条件的URL。 – Peter 2012-01-10 18:06:14
如果您的目标只是为了获取数据,您有没有考虑联系Cars.com的人员?他们可能能够为您提供Feed或API访问权限,前提是您的最终目标是获取数据,而不是仅开发抓取程序。
本网站的硒使用量过大。网站没有任何动态(ajax)内容。如果这是你的第一个任务,请尝试[机械化](http://wwwsearch.sourceforge.net/mechanize/)在文档 – reclosedev 2012-01-09 17:41:54