2011-04-09 121 views
2

如何通过PHP获取网页内容?我如何抓取博客文章的文本,因为大多数RRS feed只给出文章的链接,所以我不能使用它。是否有这样或那样的PHP函数呢?请提供一些建议:)。通过PHP获取网站内容

+0

你试过谷歌吗? – 2011-04-09 23:40:08

+0

如果您有要从中获取内容的URL,请尝试阅读以下优秀主题:http://stackoverflow.com/questions/3650125/how-to-parse-html-with-php - 还有另一个问题与链接到我无法找到的HTML解析选项。 – Daniel 2011-04-09 23:41:07

+0

丹尼尔的建议是好的,在我的回答下面我发布了一个链接到一个漂亮的HTML分析器/屏幕抓取库,可能会帮助(或必要!)来实现您的最终目标。 – Eric 2011-04-09 23:42:04

回答

8

要只需要加载一个网页,HTML和一切,你可以在网址使用的fopen:

$page = file_get_contents('http://www.blog.com/one-example-post'); 

对于网页的更先进的装卸,卷曲库将互动更巧妙地与远程服务器(例如,如果有HTTP认证,或者它是一个https页面)。

一旦你有了页面的内容,你可能需要做一些screen scraping(又名网络抓取)......并且你很幸运,因为我只是为另一个项目做了这个。 Here's a great library,我发现,以帮助这种肮脏的技术。祝你好运。