获取网站上的所有RSS链接

我目前正在编写一个非常基本的程序，首先会通过网站的html代码来查找所有RSS链接，然后将RSS链接放入数组并解析每个内容链接到现有的XML文件中。获取网站上的所有RSS链接

但是，我还在学习C＃，并且我还没有熟悉所有的类。我通过用get_file_contents（）编写自己的类来完成所有这些工作，并且使用cURL来完成这项工作。我也设法用Java来绕过它。无论如何，我试图通过使用C＃来实现相同的结果，但我认为我在这里做错了什么。

TLDR;编写正则表达式以查找网站上所有RSS链接的最佳方法是什么？

到目前为止，我的代码看起来是这样的：

 private List<string> getRSSLinks(string websiteUrl) 
    { 
     List<string> links = new List<string>(); 
     MatchCollection collection = Regex.Matches(websiteUrl, @"(<link.*?>.*?</link>)", RegexOptions.Singleline); 

     foreach (Match singleMatch in collection) 
     { 
      string text = singleMatch.Groups[1].Value; 
      Match matchRSSLink = Regex.Match(text, @"type=\""(application/rss+xml)\""", RegexOptions.Singleline); 
      if (matchRSSLink.Success) 
      { 
       links.Add(text); 
      } 
     } 

     return links; 
    }

来源

2012-05-27 Nikkster

不要使用正则表达式来解析HTML。使用HTML解析器，而不是见this link的解释

我喜欢HtmlAgilityPack解析HTMLS

using (var client = new WebClient()) 
{ 
    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); 
    doc.LoadHtml(client.DownloadString("http://www.xul.fr/en-xml-rss.html")); 

    var rssLinks = doc.DocumentNode.Descendants("link") 
     .Where(n => n.Attributes["type"] != null && n.Attributes["type"].Value == "application/rss+xml") 
     .Select(n => n.Attributes["href"].Value) 
     .ToArray(); 
}

来源

2012-05-27 17:00:03

非常感谢！现在我已经完成了我想要的，谢谢你..祝你有美好的一天！ – Nikkster

获取网站上的所有RSS链接

回答

相关问题