爬行使用Python

对于我的第一个爬行程序的网站，我打算做到以下几点：爬行使用Python

谁能给我一些帮助上手？（如果有帮助，我在Python 2.6.6上）

本网站的硒使用量过大。网站没有任何动态（ajax）内容。如果这是你的第一个任务，请尝试[机械化]（http://wwwsearch.sourceforge.net/mechanize/）在文档 – reclosedev 2012-01-09 17:41:54

看看BeautifulSoup库，在页面上查找链接非常简单，并且已经有了StackOverflow的示例。

2012-01-09 18:17:55 Peter

有样本感谢每一个。你的建议真的帮助我。 – user1063643 2012-01-10 16:31:55

我使用了这个BeautifulSoup库并且抓取了下面的链接 – user1063643 2012-01-10 17:22:16

看看Python的re库（对于正则表达式），你可以使用它来匹配满足条件的URL。 – Peter 2012-01-10 18:06:14

国际海事组织，lxml是更容易使用和pythonic API。查看here作为详细解释的例子。

2012-01-09 19:46:05 schlamar

如果您的目标只是为了获取数据，您有没有考虑联系Cars.com的人员？他们可能能够为您提供Feed或API访问权限，前提是您的最终目标是获取数据，而不是仅开发抓取程序。

2012-01-14 18:15:46 carguy

回答