2015-06-03 25 views
0

只是一个简单的问题,我想创建一个简单的蜘蛛,它将访问站点的sitemap.xml并将url保存在记事本中,但我只有下面的代码将1个URL保存在记事本中。简单的网站地图扫描器,保存为.txt

这似乎是打印所有我需要在CMD但不是在TXT

import urllib2 as ur 
import re 

f = ur.urlopen(u'http://www.site.co.uk/sitemap.xml') 
res = f.readlines() 
for d in res: 
    data = re.findall('<loc>(http:\/\/.+)<\/loc>',d) 
    for i in data: 
    print i 
    file = open("sitemapdata.txt", "w") 
    file.write(i) 
    file.close() 

提前感谢的信息。

回答

0

只要我发布这个,我意识到出了什么问题。我意外地遗漏了+'\n'并需要更改:​​

import urllib2 as ur 
import re 

f = ur.urlopen(u'http://www.site.co.uk/sitemap.xml') 
res = f.readlines() 
for d in res: 
    data = re.findall('<loc>(http:\/\/.+)<\/loc>',d) 
    for i in data: 
    print i 
    file = open("sitemapdata.txt", "a") 
    file.write(i +'\n') 
    file.close()