如何从博客文章中正确提取内容？

我试图从一个博客文章了这样的内容：如何从博客文章中正确提取内容？

static void GetBlogData (string blogPostUrl) 
{ 
    string blogPostContent = null; 

    WebClient client = new WebClient(); 
    //client.Headers.Add (HttpRequestHeader.Referer, "http://www.stackoverflow.com"); 

    TextWriter writer = new StreamWriter ("/home/nanda/projects/mono/common/article"); 

    try 
    { 
     blogPostContent = client.DownloadString (blogPostUrl); 
    } 

    catch (Exception ex) 
    { 
     Term.PrintLn ("Unable to download\n{0}", ex.Message); 
    } 

    if (blogPostContent != null) 
    { 
     writer.WriteLine (blogPostContent); 
    } 

    else 
    { 
     Term.PrintLn ("No content found"); 
    } 
}

我知道这是太简单的方法，但我想知道为什么我无法从像一些网址中提取内容他们有块或什么的。如何检测网站/博客是否阻止我下载其内容？

来源

2012-07-19 Animesh

他们可能会期待您发送cookie或登录。 – 2012-07-19 07:33:45

网站无法阻止您下载其内容，而不会阻止网站的浏览器咨询。

如果下载失败，则指：

一）您的网址是错误的

b）该网站需要某种形式的身份证明文件和您的要求没啥事（可能是一个cookie）

来源

2012-07-19 07:35:53 Falanwe

如何将cookie添加到请求中？ – Animesh 2012-07-19 07:49:51

如何从博客文章中正确提取内容？

回答

相关问题