2016年2月9日 星期二

PHP教學 - 利用 curl 抓取網頁圖片

1. 取得指定網頁內的所有圖片:

    //取得指定位址的內容,並儲存至text 
    $text=file_get_contents('http://andy.diimii.com/');  
     
    //取得所有img標籤,並儲存至二維陣列match 
    preg_match_all('# ]*>#i', $text, $match); 
     
    //印出match 
    print_r($match); 
    ?>



2. 取得指定網頁內的第一張圖片:

    //取得指定位址的內容,並儲存至text 
    $text=file_get_contents('http://andy.diimii.com/'); 
     
    //取得第一個img標籤,並儲存至陣列match(regex語法與上述同義) 
    preg_match('/ ]*>/Ui', $text, $match); 
     
    //印出match 
    print_r($match); 
    ?>



3. 取得指定網頁內的特定div區塊(藉由id判斷):

    //取得指定位址的內容,並儲存至text 
    $text=file_get_contents('http://andy.diimii.com/2009/01/seo%e5%8c%96%e7%9a%84%e9%97%9c%e9%8d%b5%e5%ad%97%e5%bb%a3%e5%91%8a%e9%80%a3%e7%b5%90/');  
     
    //去除換行及空白字元(序列化內容才需使用) 
    //$text=str_replace(array("\r","\n","\t","\s"), '', $text);    
     
    //取出div標籤且id為PostContent的內容,並儲存至陣列match 
    preg_match('/ ]*id="PostContent"[^>]*>(.*?) <\/div>/si',$text,$match); 
     
    //印出match[0] 
    print($match[0]); 
    ?>



4. 上述2及3的結合:

    //取得指定位址的內容,並儲存至text 
    $text=file_get_contents('http://andy.diimii.com/2009/01/seo%e5%8c%96%e7%9a%84%e9%97%9c%e9%8d%b5%e5%ad%97%e5%bb%a3%e5%91%8a%e9%80%a3%e7%b5%90/');     
     
    //取出div標籤且id為PostContent的內容,並儲存至陣列match 
    preg_match('/ ]*id="PostContent"[^>]*>(.*?) <\/div>/si',$text,$match);    
     
    //取得第一個img標籤,並儲存至陣列match2 
    preg_match('/ ]*>/Ui', $match[0], $match2);  
     
    //印出match2[0] 
    print_r($match2[0]); 
    ?>

沒有留言:

張貼留言