我想创建或找到一个用Python编写的开源网络爬虫(蜘蛛/机器人)。它必须找到并遵循链接,收集元标记和元描述,网页标题和网页网址,并将所有数据放入MySQL数据库。Python网络爬虫与MySQL数据库
有谁知道任何可以帮助我的开源脚本吗?此外,如果任何人都可以给我一些关于我应该做什么的指示,那么他们是非常欢迎的。
我想创建或找到一个用Python编写的开源网络爬虫(蜘蛛/机器人)。它必须找到并遵循链接,收集元标记和元描述,网页标题和网页网址,并将所有数据放入MySQL数据库。Python网络爬虫与MySQL数据库
有谁知道任何可以帮助我的开源脚本吗?此外,如果任何人都可以给我一些关于我应该做什么的指示,那么他们是非常欢迎的。
是的,我知道,
库
https://github.com/djay/transmogrify.webcrawler
http://code.google.com/p/harvestman-crawler/
http://code.activestate.com/pypm/orchid/
开源Web爬虫
教程
http://www.example-code.com/python/pythonspider.asp
PS我不知道,如果他们使用的MySQL,因为通常蟒蛇或采用sqlit或postgre SQL所以,如果你愿意,你可以用我给你的库并导入蟒蛇-mysql模块并执行此操作:D
Scrappy是一个网络抓取和抓取框架,您可以扩展以将选定的数据插入数据库。
它就像Django框架的反转。