2014-04-11 62 views

回答

2

您是否希望阅读来自RSS数据,处理它,并保存呢?使用Requests来获取数据。

import requests 

req = requests.get('http://feeds.bbci.co.uk/news/technology/rss.xml') 
reg.text // XML as a string 

BeautifulSouplxmlElementTree处理(可处理XML或类似的库)的数据

from bs4 import BeautifulSoup 
soup = BeautifulSoup(req.text) 

images = soup.findAll('media:thumbnail') 

最后做任何你想要的数据

for image in images: 
    thing = DjangoModelThing() 
    thing.image = image.attrs.get('url') 
    thing.save() 

UPDATE

另外,您可以抓住从RSS

articles = soup.findAll('item') 

for article in articles: 
    title = article.find('title') 
    description = article.find('description') 
    link = article.find('link') 
    images = article.find('media:thumbnail') 
+0

每篇文章考虑RSS此链接:http://www.bbc.com/news/technology-26985818#sa-ns_mchannel=rss&ns_source=PublicRSS20-sa,我想要这个链接中的图片和内容。 – TheNone

+1

这不是RSS的网址。您是否想在给定的RSS提要中找到该文章,或者您只有HTML的网址? 如果您正在刮取RSS(XML)或HTML,则区别在于。他们是类似的过程,但HTML很容易改变。 – rockingskier