我设计一个网站,擦伤顶尖技术网站,如thenextweb.com,mashable.com和readwriteweb.com等在c#中使用htmlagilitypack从网页中提取链接和帖子的方法?
现在使用HTML敏捷性包放弃的一种方式是采取一个网站让thenextweb.com和根据其<tags>
获取其文章链接和内容,即使用<div class ="article-listing"> ..... </div>
并通过该链接获取链接。 以相同的方式为每个网站设计算法(因为每个网站的标签不同)。
这是我用来从网站thenextweb.com的主页获取链接:
var webGet = new HtmlWeb();
var document = webGet.Load(url);
var infos = from info in
document.DocumentNode.SelectNodes("//div[@class='article-listing']")
select new
{
Contr = info.InnerHtml
};
lvLinks.DataSource = infos;
lvLinks.DataBind();
是否有任何其他简单的方式,通过它我可以提取链接和内容(岗位和图片,日期等) ?
谢谢,但这不是我想要做的。 – ItsLockedOut 2012-01-06 04:12:51
@iKunu - 您可以编辑问题并准确解释您需要什么,以及为什么这不能解决问题? RSS是从网站获取故事的首选方式... – Kobi 2012-01-06 14:44:24
:我需要对所有故事进行一些剪裁操作......这就是为什么我需要从网页上抓取它们。但是现在我找到了一种方法来做到这一点。谢谢 – ItsLockedOut 2012-01-07 03:17:08