2015-07-19 46 views
2

很简单的问题,我希望:没有人知道一个工具,将有效地刮去与微软矩阵建网站?我可以用Python语言编写的代码,但它会带我这样的时间比我想我要献给即因为矩阵产生非常糟糕和丑陋的HTML中的任务。微软Web Matrix的

我已经试过网络哈维,氦刮板,和我试过网站刮板插件的Chrome。 WebHarvey在HTML上ch咽,无法加载后续页面。 Helium Scraper能够从一个细节页面移动到另一个细节页面(后面的链接被遵循),但是来自细节页面的内容没有被取消。 Chrome插件网络抓取工具无法导航链接,弹出窗口显示错误页面。我的直觉告诉我,这与独特的ASP.net事情有关,但我可能是错的。

任何指针或建议理解。

+1

你是一个很好的问题。请考虑添加有关您遇到的错误的更多详细信息。建议:Google“用于asp.net页面的屏幕景观工具”。请让我们知道你找到了什么! – paulsm4

回答

2

你知道有两个完全不同的版本的Microsoft Web Matrix的权利?有从2003年开始的;我不知道它的html是什么样子。有一个从2011年到目前使用剃刀cshtml源文件来产生它的HTML。在2011+之一,你手写html;没有拖放,所以不太可能会从站点到站点获得一致的html。

+0

这我不知道。 HTML非常可怕并且不一致。这是一个有趣的例子: 标题公司: 土地标题保证 <跨度类= “标签”>财务条款: 现金,常规 什么给我带来麻烦是看似随机形成的HTML我因为提取数据是不可能的。 –

+1

当前版本的webMatrix不生成类,因此可能全部来自旧版本。它看起来让人想起使用Word来生成HTML。 – Knox