从django-yarr的RSS URL获取内容和图像

我为我的rss阅读器应用程序使用django-yarr。有什么办法从rss url获取内容并保存在数据库中？或者是否有任何图书馆可以做到这一点？从django-yarr的RSS URL获取内容和图像

在此先感谢

2014-04-11 TheNone

您是否希望阅读来自RSS数据，处理它，并保存呢？使用Requests来获取数据。

import requests 

req = requests.get('http://feeds.bbci.co.uk/news/technology/rss.xml') 
reg.text // XML as a string

BeautifulSoup，lxml或ElementTree处理（可处理XML或类似的库）的数据

from bs4 import BeautifulSoup 
soup = BeautifulSoup(req.text) 

images = soup.findAll('media:thumbnail')

最后做任何你想要的数据

for image in images: 
    thing = DjangoModelThing() 
    thing.image = image.attrs.get('url') 
    thing.save()

UPDATE

另外，您可以抓住从RSS

articles = soup.findAll('item') 

for article in articles: 
    title = article.find('title') 
    description = article.find('description') 
    link = article.find('link') 
    images = article.find('media:thumbnail')

来源

2014-04-11 14:47:22 rockingskier

每篇文章考虑RSS此链接：http://www.bbc.com/news/technology-26985818#sa-ns_mchannel=rss&ns_source=PublicRSS20-sa，我想要这个链接中的图片和内容。 – TheNone

这不是RSS的网址。您是否想在给定的RSS提要中找到该文章，或者您只有HTML的网址？如果您正在刮取RSS（XML）或HTML，则区别在于。他们是类似的过程，但HTML很容易改变。 – rockingskier

从django-yarr的RSS URL获取内容和图像

回答

相关问题