-1
我正在编写一个爬网程序,它将绕过特定的一组网站并将所有的mp3链接抓取到数据库中。我不想下载文件,只需抓取链接,索引它们并能够搜索它们。使用PHP和如何某些网站临客guruji.com用于动态链接的Mp3链接爬行器
我正在编写一个爬网程序,它将绕过特定的一组网站并将所有的mp3链接抓取到数据库中。我不想下载文件,只需抓取链接,索引它们并能够搜索它们。使用PHP和如何某些网站临客guruji.com用于动态链接的Mp3链接爬行器
你可能想研究的正则表达式 - 那么,你已经接通后,做这样的事情:
function crawl($url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_TIMEOUT, 30); // 30 second timeout
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
$result = curl_exec ($ch);
curl_close ($ch);
if ($result) {
// top domain links
preg_match_all('/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is', $result, $output, PREG_SET_ORDER);
foreach($output as $item) {
// each link found is output
echo "<pre>";
var_dump($item[0]);
// do your magic here
}
}
}
这只能找到所有链接的,所以你必须根据你的使用情况调整比赛,或者拿出一个过滤器。
对你有好处......那么你的问题是什么?你想让我们写履带:D? – codaddict 2010-03-18 06:59:34
我需要知道如何做的动态链接..我已经写静态MP3链接的爬行... – ramesh 2010-03-18 07:00:20
这个问题似乎是脱离主题,因为它是一个毫无疑问的意向声明。 – Quentin 2013-07-18 16:39:22