1
我为我的rss阅读器应用程序使用django-yarr。有什么办法从rss url获取内容并保存在数据库中? 或者是否有任何图书馆可以做到这一点?从django-yarr的RSS URL获取内容和图像
在此先感谢
我为我的rss阅读器应用程序使用django-yarr。有什么办法从rss url获取内容并保存在数据库中? 或者是否有任何图书馆可以做到这一点?从django-yarr的RSS URL获取内容和图像
在此先感谢
您是否希望阅读来自RSS数据,处理它,并保存呢?使用Requests来获取数据。
import requests
req = requests.get('http://feeds.bbci.co.uk/news/technology/rss.xml')
reg.text // XML as a string
BeautifulSoup,lxml或ElementTree处理(可处理XML或类似的库)的数据
from bs4 import BeautifulSoup
soup = BeautifulSoup(req.text)
images = soup.findAll('media:thumbnail')
最后做任何你想要的数据
for image in images:
thing = DjangoModelThing()
thing.image = image.attrs.get('url')
thing.save()
UPDATE
另外,您可以抓住从RSS
articles = soup.findAll('item')
for article in articles:
title = article.find('title')
description = article.find('description')
link = article.find('link')
images = article.find('media:thumbnail')
每篇文章考虑RSS此链接:http://www.bbc.com/news/technology-26985818#sa-ns_mchannel=rss&ns_source=PublicRSS20-sa,我想要这个链接中的图片和内容。 – TheNone
这不是RSS的网址。您是否想在给定的RSS提要中找到该文章,或者您只有HTML的网址? 如果您正在刮取RSS(XML)或HTML,则区别在于。他们是类似的过程,但HTML很容易改变。 – rockingskier