我已经使用3种语言进行Web Scraping - Ruby,PHP和Python,并且诚实地说,他们中的任何一个都不适合完成任务。有什么语言只是“完美”的网页抓取?
Ruby具有出色的机械和XML解析库,但电子表格支持非常差。
PHP具有优秀的电子表格和HTML解析库,但它没有与WWW相同的功能:机械化。
Python有一个很差的机械库。我遇到了很多问题,仍然无法解决它们。它的电子表格库也是或多或少像样,因为它无法创建XLSX文件。
有没有什么是完美的网页浏览。
PS:我正在开发Windows平台。
Excel格式的支持是有点正交网络刮... – 2010-08-12 13:21:24
我认为“完美”是相当主观的,但是,你有没有尝试过.NET?我认为它的XML解析库非常强大,你可以很容易地绑定到MSOffice,以及电子表格支持。 – Tommy 2010-08-12 13:22:24
@Tommy:它有相当于机械化吗?我用它与WebBrowserControl,但发现它效率低下。 – Shubham 2010-08-12 13:25:32