2015-09-15 238 views
0

我想获取网站上提供的所有链接(网页帖子)。而且,如果有任何新帖子被添加到网站,我应该能够获得链接。我将有10个网站的列表,链接提取过程需要定期运行。如何从网站获取所有网站链接?

有人可以帮助我如何获得只发布链接和新增加的帖子链接。

回答

0

我会建议编写一个php脚本(因为你提到的是php),这个脚本定期由cron-job调用。在脚本中你可以

选项1:定义一个curl commando,它会自动获取一个url的所有内容。 (可能会更好,如果你不得不提供一些信息与法后的网站。)

选项2:使用file_get_contents函数来获取所有内容

比你可以用正则表达式来解析这些结果提取你感兴趣的部分(例如搜索诸如<div class=".post">...</div>之类的东西)。之后,您可以将信息添加到您的数据库,或者只是检查信息是否已经存在。