2014-04-10 117 views
4

我想为我的网站建立一个RSS饲料履带。虽然我不太清楚,但是怎么开始呢。我的抓取工具如何识别RSS提要?我有什么可以抓取的东西,哪个RSS阅读器有? 我不需要任何代码,只是帮助我的大脑了解我必须创建什么。PHP RSS饲料履带

感谢之前!

问候

Xatenev

+0

检查https://superfeedr.com如果你不想重新发明轮子:) –

+0

嘿,它似乎很酷,但我能做什么呢? :P这似乎是一个巨大的数据库的饲料,我(可能)得到了很多RSS源。那是正确的吗?^^ – Xatenev

回答

2

我认为,如果你的抓取工具扫描所有链接和至少一个时间去寻找文本<rss version="2.0">打开每个页面有可能。据我所知,每个RSS提要都应该包含这一行。

<?xml version="1.0" encoding="UTF-8" ?> 
<rss version="2.0"> 
<channel> 
<title>RSS Title</title> 
<description>This is an example of an RSS feed</description> 
<link>http://www.someexamplerssdomain.com/main.html</link> 
<lastBuildDate>Mon, 06 Sep 2010 00:01:00 +0000 </lastBuildDate> 
<pubDate>Mon, 06 Sep 2009 16:20:00 +0000 </pubDate> 
<ttl>1800</ttl> 

<item> 
    <title>Example entry</title> 
    <description>Here is some text containing an interesting description.</description> 
    <link>http://www.wikipedia.org/</link> 
    <guid>unique string per item</guid> 
    <pubDate>Mon, 06 Sep 2009 16:20:00 +0000 </pubDate> 
</item> 

</channel> 
</rss> 

如果你打算使用PHP,我对使用PHP构建的SimpleXML有非常积极的经验。

P.S. Xatenev不客气;)

+0

我该如何真正抓取这些RSS提要?我的抓取工具如何识别这些数据,并将数据返回给我,我需要哪些数据? – Xatenev

+0

我不知道你是否有很多正则表达式的经验,我认为这是一条路。 – Duke

+0

我知道正则表达式,但我的意思是一个爬虫,例如,只是在网站上,拿起所有的链接,然后他继续在另一个网站上爬行。我如何获取网站上的所有RSS订阅源?这些链接很容易从源代码中找到,我可以从源代码中找到RSS源吗? – Xatenev