2010-03-18 46 views
-1

我正在编写一个爬网程序,它将绕过特定的一组网站并将所有的mp3链接抓取到数据库中。我不想下载文件,只需抓取链接,索引它们并能够搜索它们。使用PHP和如何某些网站临客guruji.com用于动态链接的Mp3链接爬行器

+0

对你有好处......那么你的问题是什么?你想让我们写履带:D? – codaddict 2010-03-18 06:59:34

+0

我需要知道如何做的动态链接..我已经写静态MP3链接的爬行... – ramesh 2010-03-18 07:00:20

+1

这个问题似乎是脱离主题,因为它是一个毫无疑问的意向声明。 – Quentin 2013-07-18 16:39:22

回答

0

你可能想研究的正则表达式 - 那么,你已经接通后,做这样的事情:

function crawl($url) { 
    $ch = curl_init(); 
    curl_setopt($ch, CURLOPT_URL, $url); 
    curl_setopt($ch, CURLOPT_TIMEOUT, 30); // 30 second timeout 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); 
    $result = curl_exec ($ch); 
    curl_close ($ch); 

    if ($result) { 
     // top domain links 
     preg_match_all('/<a(?:[^>]*)href=\"([^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is', $result, $output, PREG_SET_ORDER); 

     foreach($output as $item) { 
      // each link found is output 
      echo "<pre>"; 
      var_dump($item[0]); 
      // do your magic here 
     } 
    } 
} 

这只能找到所有链接的,所以你必须根据你的使用情况调整比赛,或者拿出一个过滤器。