2013-11-10 109 views
1

我试图从亚马逊提取诸如价格和供应商等信息。从python提取特定信息来源:

我现在这样做的方式是找到关键词,如价格,然后找到我想要的信息。

问题是,如果像亚马逊这样的网站改变他们的框架一点点,代码可能不再工作。

我想知道是否有一些更好的方法/算法做类似的事情。

谢谢!

回答

1

您想从网站访问数据。您建议的是手工API或应用程序编程接口。

手工API的主要缺陷之一就是您提到的,或者网页供应商可能会做出一些小改变,导致您的API无法使用。

通常,使用可直接访问属于网站所有者的数据的API是一个更好的主意。这些API是由网站所有者自己创建的,因此他们可以直接访问数据,并且可以解决使用HTML抓取时需要的所有混乱格式。


具体来说,亚马逊的价格API位于here

重要:

如前所述here,请阅读许可协议第4B:

(b)您会以合法的方式使用产品广告内容只(I) (ii)根据本许可协议的条款以及在第6节中授予的许可的明确范围内;和(iii)发送最终用户到亚马逊网站并推动销售。 您不得在任何网站或应用程序或任何其他方式下使用产品广告API,数据馈送或产品广告内容,但这些方式不具有广告和营销亚马逊网站以及推动产品销售和亚马逊网站上的服务。