2009-04-19 64 views
0

我知道cURL会下载一个完整的文件。网页抓取和链接评估

我真正想要的是采取页面上的所有链接,并根据我的具体标准,链接的位置等进行评估,并决定是否应该抓取该页面并解析它以获取信息。

更具体地说,我想查找与娱乐事件有关的链接,并解析数据并将其存储在我的MySQL数据库中,以填充我所在地区的事件的网站。

有没有人有想法如何完成?

-Jason

回答

2

我建议你的基础在现有的网络爬虫/索引解决方案的努力,而不是代码或工具,如卷曲实现它自己。例如,

参见Lucene

+0

如何在GoDaddy上将这部署到共享服务器上? – Toddly 2009-04-19 15:42:33

0

如果你想要的只是一个页面上的链接的枚举,你可以使用.NET WebBrowser和DOM来做到这一点。挖掘我的代码...我会回到你身边。

0

您没有指定编程语言。 Apache Droids可能是你的事情,如果你愿意使用Java来定制它。它计划作为一个最小的爬虫,您可以根据您的特定需求进行自定义。

0

如上所述,你没有提到一种语言。如果你使用Ruby,蜘蛛网宝石可以用于这个。您可以手动告诉它不要找到任何链接(默认情况下它会自动抓取所有链接),并且您可以自己在每个页面上执行此操作(如您所说需要评估它们),然后可以手动将它们放入队列中,如果您希望它们被抓取。

看来好像Ruby on Rails是由godaddy共享主机支持的,如果那就是你的。

(刚刚看到这是3年前,可能对别人有帮助!)