2010-08-12 18 views
7

我已经使用3种语言进行Web Scraping - Ruby,PHP和Python,并且诚实地说,他们中的任何一个都不适合完成任务。有什么语言只是“完美”的网页抓取?

Ruby具有出色的机械和XML解析库,但电子表格支持非常差。

PHP具有优秀的电子表格和HTML解析库,但它没有与WWW相同的功能:机械化。

Python有一个很差的机械库。我遇到了很多问题,仍然无法解决它们。它的电子表格库也是或多或少像样,因为它无法创建XLSX文件。

有没有什么是完美的网页浏览。

PS:我正在开发Windows平台。

+3

Excel格式的支持是有点正交网络刮... – 2010-08-12 13:21:24

+2

我认为“完美”是相当主观的,但是,你有没有尝试过.NET?我认为它的XML解析库非常强大,你可以很容易地绑定到MSOffice,以及电子表格支持。 – Tommy 2010-08-12 13:22:24

+0

@Tommy:它有相当于机械化吗?我用它与WebBrowserControl,但发现它效率低下。 – Shubham 2010-08-12 13:25:32

回答

1

为什么不直接使用XML Spreadsheet格式?创建这个过程非常简单,对于任何类型的基于类的系统来说,这可能都是微不足道的。

另外,对于Python,您是否尝试过BeautifulSoup进行解析? Urllib + BeautifulSoup制作了一个非常强大的组合。

0

Python + Beautiful Soup用于网页抓取,既然您在Windows上,您可以使用win32com for Excel自动生成您的xlsx文件。

1

简短的回答是没有。

问题是,HTML是一大组格式 - 只有更新的变体是一致的(和基于XML)。如果您打算使用PHP,那么我会推荐使用DOM解析器,因为这可以处理大量不符合格式良好的XML的HTML。

您的文章的字里行间 - 你似乎是:

1)捕获来自该网页内容与复杂的交互管理

2的要求)的数据解析成一致的机器可读的格式

3)将数据写入到电子表格

这肯定是3独立的问题 - 如果没有一种语言满足所有3个条件,那么为什么不为工作用最好的工具,只是担心ABO为数据提供适当的临时格式/媒介?

C.