如何在网页抓取后保存结果文本

-1

我正在学习Python来制作网页抓取工具。以下代码通过帮助很好地工作。那我想知道如何保存结果？你能帮助解决这个问题吗？如何在网页抓取后保存结果文本

import nltk 
import urllib 
import readability 
from bs4 import BeautifulSoup 
from readability.readability import Document 
import mechanize 

url = "http://www.nytimes.com/2015/06/02/science/medicines-hidden-roots-in-an-ancient-manuscript.html?ref=science&_r=0" 

br = mechanize.Browser() 
br.set_handle_robots(False) 
br.addheaders = [('User-agent', 'Firefox')] 

html = br.open(url).read() 

readable_article = Document(html).summary() 
readable_title = Document(html).short_title() 

soup = BeautifulSoup(readable_article) 

final_article = soup.text 

links = soup.findAll('img', src=True) 

print final_article 

output = zip(readable_article,readable_title) 
writer = csv.writer(open('newyorktimes.csv', 'wb')) 
writer.writerows(final_article) 

exit()

来源

2015-06-02 Steve

这是一堆错别字：

你这样做：

from readabiliry.radability import Document 
#   ^^

，你应该导入

from readability.readability import Document

来源

2015-06-02 09:25:55 wonderb0lt

谢谢你这么多!!!!!!!你救了我。 – Steve

如何在网页抓取后保存结果文本

回答

相关问题