有什么语言只是“完美”的网页抓取？

我已经使用3种语言进行Web Scraping - Ruby，PHP和Python，并且诚实地说，他们中的任何一个都不适合完成任务。有什么语言只是“完美”的网页抓取？

Ruby具有出色的机械和XML解析库，但电子表格支持非常差。

PHP具有优秀的电子表格和HTML解析库，但它没有与WWW相同的功能：机械化。

Python有一个很差的机械库。我遇到了很多问题，仍然无法解决它们。它的电子表格库也是或多或少像样，因为它无法创建XLSX文件。

有没有什么是完美的网页浏览。

PS：我正在开发Windows平台。

2010-08-12 Shubham

Excel格式的支持是有点正交网络刮... – 2010-08-12 13:21:24

我认为“完美”是相当主观的，但是，你有没有尝试过.NET？我认为它的XML解析库非常强大，你可以很容易地绑定到MSOffice，以及电子表格支持。 – Tommy 2010-08-12 13:22:24

@Tommy：它有相当于机械化吗？我用它与WebBrowserControl，但发现它效率低下。 – Shubham 2010-08-12 13:25:32

检查的Python +斗志旺盛，这是相当不错的：

2010-08-12 13:53:54 juanjux

我一直都在用这个！ – JudoWill 2010-08-12 14:20:56

为什么不直接使用XML Spreadsheet格式？创建这个过程非常简单，对于任何类型的基于类的系统来说，这可能都是微不足道的。

另外，对于Python，您是否尝试过BeautifulSoup进行解析？ Urllib + BeautifulSoup制作了一个非常强大的组合。

2010-08-12 14:43:42

Python + Beautiful Soup用于网页抓取，既然您在Windows上，您可以使用win32com for Excel自动生成您的xlsx文件。

2010-08-12 14:56:34 Martin

简短的回答是没有。

问题是，HTML是一大组格式 - 只有更新的变体是一致的（和基于XML）。如果您打算使用PHP，那么我会推荐使用DOM解析器，因为这可以处理大量不符合格式良好的XML的HTML。

您的文章的字里行间 - 你似乎是：

1）捕获来自该网页内容与复杂的交互管理

2的要求）的数据解析成一致的机器可读的格式

3）将数据写入到电子表格

这肯定是3独立的问题 - 如果没有一种语言满足所有3个条件，那么为什么不为工作用最好的工具，只是担心ABO为数据提供适当的临时格式/媒介？

2010-08-12 16:41:27 symcbean

回答