2010-01-26 26 views
3

我在excel文件中有20000-50000个条目。一列包含该公司的名称。理想情况下,我希望搜索该公司的名称,并且无论是第一个结果,我都会选择与其关联的网址。我知道Google(我的理想选择)提供了一个AJAX Search API。但是,每个注册人也有1000个搜索限制。有没有办法在没有使用Google的20个帐户的情况下获得超过20000次搜索,或者有没有其他引擎可以使用?25000-50000条目的网页搜索API

任何解决此问题的替代方法也是受欢迎的(即WhoIs查找)。

+0

只是想指出,如果您不知道:AJAX搜索API是获得直接访问Google搜索索引的唯一合法途径。 (请参阅http://markmail.org/message/gcluw5ayuocvxfv5) – David 2010-01-26 02:18:45

+0

我浏览了常见问题解答和使用条款,了解有关多个帐户的信息。多个帐户似乎不被禁止。然而,ToU表示,你不能隐藏或掩盖你的服务的身份,所以如果你有多个账户,他们可能很容易弄清楚 - 以防他们打击。 – David 2010-01-26 02:19:09

回答

3

谷歌AJAX搜索没有1000这样的限制。雅虎搜索没有。谷歌AJAX搜索限制你获得64搜索结果,但没有限制。

Google AJAX Search API - Class Reference

注: 页是基于 搜索的类型结果的最大数量。本地搜索支持4页 页(或最多32页总共 结果)和其他搜索者 (博客,书籍,图片,新闻,专利, 视频和网页)支持8页(对于 最多共有64个结果)。

+0

啊,我需要更彻底!我正在研究SOAP Search API FAQ,而不是AJAX。对于那个很抱歉。 – Brian 2010-01-26 02:49:12

1

接近于避免使用外部搜索服务...

方法1 - 把XML的信息内容到一个数据库,并使用SQL/JDBC进行搜索。使用休眠等的变化。

方法2 - 将XML文件作为内存数据结构作为Java集合读取,并以编程方式执行搜索。这将使用一些内存,具体取决于XML文件中的信息量,但您只需要弄清楚如何解析/加载XML并访问集合。

但是,如果您解释了您正在尝试执行此操作的上下文,它将有所帮助。它是一个浏览器插件吗? Web应用程序的客户端?服务器端?桌面应用程序?

+0

那么,我最好喜欢把它作为Java的桌面应用程序的一次性运行。我可以将它作为服务器上的PHP脚本运行,但我不想在运行时阻止该网站或任何其他内容(这将需要很长时间)。 – Brian 2010-01-26 02:56:40