2011-11-02 79 views
0

iam尝试使用php curl开发内容抓取器,我需要从url中检索内容,例如:http://mashable.com/2011/10/31/google-reader-backlash-sharebros-petition/并将其存储在csv文件中。例如:如果我输入一个url来提取数据,它应该将标题,内容,标签存储在csv中,然后为下一个url存储。他们的任何片段是这样的吗?通过php curl抓取内容

下面的代码生成所有内容,我需要在标题中明确称,帖子

<?php 
$homepage = file_get_contents('http://mashable.com/2011/10/28/occupy-wall-street-donations/'); 
echo strip_tags($homepage); 
?> 

回答

1

的内容有很多方法。事实上,你想分析一个HTML文件。 strip_tags是一种方式,但是很脏。

我建议你为此使用DOMDocument类(在so.com上应该有很多其他的方法)。其余的是标准的PHP,写作和从CSV阅读是有据可查的上php.net

示例获取链接在网站上(不是我): http://php.net/manual/en/class.domdocument.php#95894

+0

@snoopy感谢输入,我会如果你为我开始粘贴任何代码就会很高兴 – Ezhil

+0

刚刚添加了一个例子,也许这会有所帮助。 – sascha