2011-08-10 129 views
6

我想创建或找到一个用Python编写的开源网络爬虫(蜘蛛/机器人)。它必须找到并遵循链接,收集元标记和元描述,网页标题和网页网址,并将所有数据放入MySQL数据库。Python网络爬虫与MySQL数据库

有谁知道任何可以帮助我的开源脚本吗?此外,如果任何人都可以给我一些关于我应该做什么的指示,那么他们是非常欢迎的。

回答

4

是的,我知道,

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

开源Web爬虫

http://scrapy.org/

教程

http://www.example-code.com/python/pythonspider.asp

PS我不知道,如果他们使用的MySQL,因为通常蟒蛇或采用sqlit或postgre SQL所以,如果你愿意,你可以用我给你的库并导入蟒蛇-mysql模块并执行此操作:D

http://sourceforge.net/projects/mysql-python/

4

我建议你使用Scrapy,这是一个基于Twistedlxml的强大的抓取框架。它特别适合您要执行的任务类型,它具有基于正则表达式的规则来跟踪链接,并允许您使用正则表达式或XPath表达式从HTML中提取数据。它还提供了他们所谓的“管道”,以便将数据转储到任何你想要的。

Scrapy没有提供内置的MySQL管道,但有人写了一个here,你可以从中自己创建。

3

Scrappy是一个网络抓取和抓取框架,您可以扩展以将选定的数据插入数据库。

它就像Django框架的反转。