2011-08-07 30 views
1

我确信这已被问了十亿次半,但我搜索了但没有找到任何东西。使用jQuery服务器端刷新html页面

我想动态地清理一些html页面,并将结果加载到我的数据库中。 jQuery看起来像是完美的库,但当然这是在浏览器中运行的,我希望在没有浏览器/用户交互的情况下执行此操作。

什么建议在服务器端实现这一点(在我的情况下是C#)?正则表达式看起来似乎过度杀伤,并不一定适合这项任务。

感谢, -Ben

UPDATE:

这个库似乎像什么,我以后......我是人,我真的很喜欢的方式jQuery的工作。

http://htmlagilitypack.codeplex.com/

+0

你在说[网页抓取](http://en.wikipedia.org/wiki/Web_scraping)吗? –

回答

4

jQuery的似乎是完美的图书馆要做到这一点

我不知道这件事。 same origin policy将限制您只在与提供javascript的域相同的域上(这基本上限制您到自己的域,并且对于网页抓取而言非常有限)来抓取页面。使用服务器端语言来执行此任务和HTML解析库会更好。根据您使用的服务器端语言,可能有不同的库可用。 Html Agility Pack是非常好的,如果你在服务器上使用.NET。但无论你做什么,无论你选择什么解决方案,你都可以选择一件事:don't use regular expressions解析HTML。

+0

是的,我想我明白,我将不得不下载我想先搜索/解析的HTML。我对它的那部分是没问题的,它是解析我很好奇的页面的机制。 –

+0

相同的来源策略不适用于