网页抓取和链接评估

我知道cURL会下载一个完整的文件。网页抓取和链接评估

我真正想要的是采取页面上的所有链接，并根据我的具体标准，链接的位置等进行评估，并决定是否应该抓取该页面并解析它以获取信息。

更具体地说，我想查找与娱乐事件有关的链接，并解析数据并将其存储在我的MySQL数据库中，以填充我所在地区的事件的网站。

有没有人有想法如何完成？

-Jason

2009-04-19 Toddly

我建议你的基础在现有的网络爬虫/索引解决方案的努力，而不是代码或工具，如卷曲实现它自己。例如，

参见Lucene。

2009-04-19 15:23:16

如何在GoDaddy上将这部署到共享服务器上？ – Toddly 2009-04-19 15:42:33

如果你想要的只是一个页面上的链接的枚举，你可以使用.NET WebBrowser和DOM来做到这一点。挖掘我的代码...我会回到你身边。

2009-04-19 16:32:57

您没有指定编程语言。 Apache Droids可能是你的事情，如果你愿意使用Java来定制它。它计划作为一个最小的爬虫，您可以根据您的特定需求进行自定义。

2009-04-19 18:29:26

在其他答案中的解决方案听起来很有趣，但我只是做了一些类似和简单的事情，C#/Mono和HTML Agility Pack。

2009-07-18 21:28:53 kenny

如上所述，你没有提到一种语言。如果你使用Ruby，蜘蛛网宝石可以用于这个。您可以手动告诉它不要找到任何链接（默认情况下它会自动抓取所有链接），并且您可以自己在每个页面上执行此操作（如您所说需要评估它们），然后可以手动将它们放入队列中，如果您希望它们被抓取。

看来好像Ruby on Rails是由godaddy共享主机支持的，如果那就是你的。

（刚刚看到这是3年前，可能对别人有帮助！）

2012-08-21 18:29:27

回答