2010-05-17 55 views
0

谷歌搜索ajax api非常棒,codeplex上提供的.net包装使得它从.net项目中使用它非常简单。但是,api本身是残缺的,因此它只能返回每个查询64个结果。对许多应用程序不是很有用。谷歌搜索ajax API是限制性的。任何替代品?

忽略可能的TOS问题,是否有已知的.net库,可以查询根谷歌网站,并将结果刮到结果集?我假设这会导致比启用ajax版本更大的结果数量。

回答

1

您可以链接HTML5解析器,获取页面代码并将其解析为DOM。然后你可以拆分DOM元素并从那里获取值。

+0

我想htmlhtml敏捷包可以做到这一点。 – 2010-05-18 14:34:43

+0

如果我没有记错的话,谷歌禁止自动刮取他们的SERP,经过一些查询后,您最终会面对谷歌的验证码。当然,使用API​​不存在这个问题。 – Lamnk 2011-02-27 01:26:27

+0

我不是不同意你的看法,但我会根据我的经验。我写了一个与libcurl链接的程序来做一些网站的抓取,我需要做Google。有趣的是,Google完全禁止libcurl的默认UA字符串。所以,如果你有任何问题,也许欺骗你的UA作为'人类浏览器'可能会有所帮助。当然,谷歌可能有一些“聪明”的预防措施,例如人类不能过于频繁地进行查询。 – 2011-02-27 10:28:24