2012-03-09 131 views
0

我打算写一个基于scrapy的Gui应用程序,用户输入一个网站URL,然后点击“抓取”按钮,然后整个网站将被抓取并存储在内置的scrapy-db中sqlite的)。如何使用scrapy抓取网站?

如何使用scrapy来帮助我抓取网站?

回答

0

那么,你的问题是不是很好的框架。您如何使用Scrapy取决于您。

下面是Scrapy确实基本上是:

1)网站具有树形结构A-> B,A-> C,A-> d,B-> E,C->˚F.....等

2)Scrapy可以帮助您通过树递归

3)在抓取,Scrapy让你 '我的' 的信息抓取。对于你需要学习的XPath页面

http://www.w3schools.com/xpath/

4定位和解析DOM值)解析的值,并将其存储在数据库中。

让我们知道您正在为自己感兴趣的内容搜索。如果您只是抓取并保存网页,那么您最好还是购买[HTTrack] http://www.httrack.com