Python网络爬虫与MySQL数据库

我想创建或找到一个用Python编写的开源网络爬虫（蜘蛛/机器人）。它必须找到并遵循链接，收集元标记和元描述，网页标题和网页网址，并将所有数据放入MySQL数据库。Python网络爬虫与MySQL数据库

有谁知道任何可以帮助我的开源脚本吗？此外，如果任何人都可以给我一些关于我应该做什么的指示，那么他们是非常欢迎的。

是的，我知道，

库

开源Web爬虫

教程

PS我不知道，如果他们使用的MySQL，因为通常蟒蛇或采用sqlit或postgre SQL所以，如果你愿意，你可以用我给你的库并导入蟒蛇-mysql模块并执行此操作：D

2011-08-10 20:29:45 Lynob

我建议你使用Scrapy，这是一个基于Twisted和lxml的强大的抓取框架。它特别适合您要执行的任务类型，它具有基于正则表达式的规则来跟踪链接，并允许您使用正则表达式或XPath表达式从HTML中提取数据。它还提供了他们所谓的“管道”，以便将数据转储到任何你想要的。

Scrapy没有提供内置的MySQL管道，但有人写了一个here，你可以从中自己创建。

2011-08-10 20:29:19 MatToufoutu

Scrappy是一个网络抓取和抓取框架，您可以扩展以将选定的数据插入数据库。

它就像Django框架的反转。

2011-08-10 20:29:30 hannson

回答