2012-02-07 41 views
0

这是我想要完成的任务:如何在内存解析网页

我需要编写将从命令行启动从网页中提取一些数据的工具。页面的内容是使用JavaScript动态生成的(想象一个jQuery,它调用Web服务来获取项目列表并在页面上呈现它们)

我的第一个想法是使用WebBrowser控件加载页面。但它需要一个图形用户界面来托管网络控制,因此不存在问题。

任何人都可以提出什么我可以尝试?有没有可以解析网页而不必可见的库?

回答

0

打开Goog​​le Chrome Developer Tools(按F12),然后转到网络选项卡。有一个小按钮,左下角有一个圆圈图标(保存导航日志),您可能需要单击它。

如果您现在浏览到您希望工具捕获的页面,Chrome浏览器将记录浏览器发出的所有HTTP请求 - 包括任何XHR请求。

您应该可以使用它来了解如何在工具或脚本中构建相同的HTTP请求来检索相同的信息。

0

有解析网页的各种便利,你可以使用'HTML敏捷包'来做同样的事情。 还有一个网站,你会发现解析器已经设计的网站是black belt coder