PHP 教學 - 常見亂碼問題

PHP亂碼問題,UTF-8亂碼常見問題小結

    於 HTML head 指定此頁編碼為 UTF-8

        <head>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
        </head>

    PHP 送 Header 告訴瀏覽器這頁是 UTF-8 編碼

        <?php
        header("Content-Type:text/html; charset=utf-8");
        ?>

    設定 Apache 送出頁面預設語系 UTF-8 (比較不建議用此方法)

        addDefaultCharset UTF-8

        # 不過建議這行要包在 Directory 或 VirtualHost 內, 才不會影響到其它網頁.
        <Directory "/var/*/blog">
        addDefaultCharset UTF-8
        </Directory>
        
        <VirtualHost *>
        addDefaultCharset UTF-8
        </VirtualHost>

若PHP程式在遇到繁體中文顯示網頁時,出現亂碼的解決方法:
可以依照下列步驟下去逐一問題排解,

1.檢查php.ini文件裡面的設定
  php.ini路徑:C:\Windows\php.ini

  搜尋到default_charset之後,將文件內容改為
  default_charset="utf-8"
  並將前面的分號";"刪除
  若使用big5則將utf-8改為big5

2.檢查meta標籤
  <meta http-equiv="content-type" content="text/html; charset=utf-8">
  若使用big5則將utf-8改為big5

3.檢查my.ini文件裡面的設定
  my.ini路徑:在MySql安裝路徑下即可找到

  搜尋到default-character-set之後,將文件內容改為
  default-character-set = utf8
  若使用big5則將uft-8改為big5

4.若是因為MySql裡面的繁體中文導致亂碼,可直接在程式碼指定語系
  詳細內容可參考此篇PHP 連結MySQL資料庫語法以及從程式碼解決中文亂碼的問題

5.若是html檔案,且已經設定meta標籤內的charset,還是無法解決者
  將html檔案以記事本開啟,
  開啟之後,另存新檔,在最下面編碼的地方該改為 UTF-8



一.HTML頁面轉UTF-8編碼問題
1.在head後,title前加入一行:

<meta http-equiv='Content-Type' content='text/html; charset=utf-8' />
順序不能錯,一定要在

顯示的標題有可能是亂碼!

2.html檔編碼問題:

點擊編輯器的功能表:“檔”->“另存為”,可以看到當前檔的編碼,確保檔編碼為:UTF-8,
如果是ANSI,需要將編碼改成:UTF-8。
3.HTML文件頭BOM問題:
將檔從其他的編碼轉換成UTF-8編碼時,有時候會在檔的最開始加上一個BOM標籤,
在個BOM標籤可能會導致流覽器在顯示中文的時候出現亂碼。
刪除這個BOM標籤的方法:
1.可以用Dreamweaver打開檔,並重新保存,即可以去除BOM標籤!
2.可以用EditPlus打開檔,並在功能表“首選項”->“檔”->"UTF-8標識",設置為:“總是刪除簽名”,
然後保存檔,即可以去除BOM標籤!
4.WEB伺服器UTF-8編碼問題:
如果你按以上所列的步驟做了,還是有中文亂碼問題,
請檢查你的所使用的WEB伺服器的編碼問題
如果你使用的是Apache,請將設定檔裡的:charset 設成:utf-8(這裡僅列出方法,具體格式請參考apache的設定檔)
如果你使用的是Nginx,請將nginx.conf裡的:charset 設成 utf-8,
具體找到 "charset gb2312;"或者類似的語句,改成:“charset utf-8;”。
二.PHP頁面轉UTF-8編碼問題
1.在代碼開始出加入一行:
header("Content-Type: text/html;charset=utf-8");

2.PHP檔編碼問題

點擊編輯器的功能表:“檔”->“另存為”,可以看到當前檔的編碼,確保檔編碼為:UTF-8,
如果是ANSI,需要將編碼改成:UTF-8。
3.PHP文件頭BOM問題:
PHP檔一定不可以有BOM標籤
否則,會出現session不能使用的情況,並有類似的提示:
Warning: session_start() [function.session-start]: Cannot send session cache limiter - headers already sent
這是因為,在執行session_start() 的時候,整個頁面不能有輸出,但是當由於前PHP頁面存在BOM標籤,
PHP把這個BOM標籤當成是輸出了,所以就出錯了!
所以PHP頁面一定要刪除BOM標籤
刪除這個BOM標籤的方法:
1.可以用Dreamweaver打開檔,並重新保存,即可以去除BOM標籤!
2.可以用EditPlus打開檔,並在功能表“首選項”->“檔”->"UTF-8標識",設置為:“總是刪除簽名”,
然後保存檔,即可以去除BOM標籤!
4.PHP以附件形式保存檔的時候,UTF-8編碼問題:
PHP以附件形式保存檔,檔案名必須是GB2312編碼,
否則,如果檔案名中有中文的話,將是顯示亂碼:
如果你的PHP本身是UTF-8編碼格式的檔,
需要將檔案名變數由UTF-8轉成GB2312:
iconv("UTF-8", "GB2312", "$filename");

5.截斷顯示文章標題時,出現亂碼或者“?”問號的問題:
一般文章標題很長的時候,會顯示一部分標題,會對文章標題進行截斷,
由於一個UTF-8編碼格式的中文字元會佔用3個字元寬度,
截取標題的時候,有時會只截取到一個中文字元的1個字元或2字元寬度,
沒截取完整,將出現亂碼或“?”問號的情況,
用下面的函數截取標題,就不會有問題:

複製代碼代碼如下:


function get_brief_str($str, $max_length)
{
echo strlen($str) ."<br>";
if(strlen($str) > $max_length)
{
$check_num = 0;
for($i=0; $i < $max_length; $i++)
{
if (ord($str[$i]) > 128)
$check_num++;
}

if($check_num % 3 == 0)
$str = substr($str, 0, $max_length)."...";
else if($check_num % 3 == 1)
$str = substr($str, 0, $max_length + 2)."...";
else if($check_num % 3 == 2)
$str = substr($str, 0, $max_length + 1)."...";
}
return $str;
}


三.MYSQL資料庫使用UTF-8編碼的問題

1.用phpmyadmin創建資料庫和資料表
創建資料庫的時候,請將“整理”設置為:“utf8_general_ci”
或執行語句:

CREATE DATABASE `dbname` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
創建資料表的時候:如果是該欄位是存放中文的話,則需要將“整理”設置為:“utf8_general_ci”,

如果該欄位是存放英文或數位的話,預設就可以了。

相應的SQL語句,例如:

複製代碼代碼如下:


CREATE TABLE `test` (
`id` INT NOT NULL ,
`name` VARCHAR( 10 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
PRIMARY KEY ( `id` )
) ENGINE = MYISAM ;


2.用PHP讀寫資料庫

在連接資料庫之後:

[hide]$connection = mysql_connect($host_name, $host_user, $host_pass);

加入兩行:

複製代碼代碼如下:


mysql_query("set character set 'utf8'");//讀庫
mysql_query("set names 'utf8'");//寫庫


就可以正常的讀寫MYSQL資料庫了。

四.JS相關的UTF-8編碼問題
1.JS讀Cookie的中文亂碼問題

PHP寫cookie的時候需要將中文字元進行escape編碼,
否則JS讀到cookie中的中文字元將是亂碼。
但php本身沒有escape函數,我們新寫一個escape函數:

複製代碼代碼如下:


function escape($str)
{
preg_match_all("/[\x80-\xff].|[\x01-\x7f]+/",$str,$r);
$ar = $r[0];
foreach($ar as $k=>$v)
{
if(ord($v[0]) < 128)
$ar[$k] = rawurlencode($v);
else
$ar[$k] = "%u".bin2hex(iconv("UTF-8","UCS-2",$v));
}
return join("",$ar);
}

JS讀cookie的時候,用unescape解碼,
然後就解決cookie中有中文亂碼的問題了。

2.外部JS檔UTF-8編碼問題
當一個HTML頁面或則PHP頁面包含一個外部的JS檔時,
如果HTML頁面或則PHP頁面是UTF-8編碼格式的檔,
外部的JS檔同樣要轉成UTF-8的檔,
否則將出現,沒有包含不成功,調用函數時沒有反應的情況。
點擊編輯器的功能表:“檔”->“另存為”,可以看到當前檔的編碼,確保檔編碼為:UTF-8,
如果是ANSI,需要將編碼改成:UTF-8。

五.FLASH相關的UTF-8編碼問題
FLASH內部對所有字串,預設都是以UTF-8處理
1.FLASH讀文普通本檔(txt,html)
要將文字檔的編碼存為UTF-8
點擊編輯器的功能表:“檔”->“另存為”,可以看到當前檔的編碼,確保檔編碼為:UTF-8,
如果是ANSI,需要將編碼改成:UTF-8。
2.FLASH讀XML文件
要將XML檔的編碼存為UTF-8
點擊編輯器的功能表:“檔”->“另存為”,可以看到當前檔的編碼,確保檔編碼為:UTF-8,
如果是ANSI,需要將編碼改成:UTF-8。
在XML第1行寫:

3.FLASH讀PHP返回資料
如果PHP編碼本身是UTF-8的,直接echo就可以了
如果PHP編碼本身是GB2312的,可以將PHP轉存成UTF-8編碼格式的檔,直接echo就可以了
如果PHP編碼本身是GB2312的,而且不允許改檔的編碼格式,
用下麵的語句將字串轉換成UTF-8的編碼格式
$new_str = iconv("GB2312", "UTF-8", "$str");
再echo就可以了
4.FLASH讀資料庫(MYSQL)的資料
FLASH要通過PHP讀取資料庫中的資料
PHP本身的編碼不重要,關鍵是如果資料庫的編碼是GB2312的話,
需要用下面的語句將字串轉換成UTF-8的編碼格式
$new_str = iconv("GB2312", "UTF-8", "$str");

5.FLASH通過PHP寫資料
一句話,FLASH傳過來的字串是UTF-8格式的,
要轉換成相應的編碼格式,再操作(寫檔、寫資料庫、直接顯示等等)
還是用iconv函數轉換
6.FLASH使用本地編碼(理論上不推薦使用)
如果想讓FLASH不使用UTF-8編碼,而是使用本地編碼
對於中國大陸地區而言,本地編碼是GB2312或GBK
AS程式內,可以添加以下代碼:
System.useCodepage = true;
那麼FLASH內所有字元都是使用GB2312的編碼了
所有導入到FLASH或者從FLASH匯出的資料,都應該做相應的編碼轉換
因為使用本地編碼,會造成使用繁體中文地區的使用者產生亂碼,所以不推薦使用

------------------Dreamweaver 網頁編輯器---------------------------------
設定頁面的標題和編碼方式屬性



標題/編碼方式」頁面屬性選項可讓您根據撰寫網頁所使用的語言,指定專屬的文件編碼方式類型,以及針對該編碼方式類型,指定所要使用的 Unicode 標準化格式。

    選取「修改 > 頁面屬性」,或按一下文字「屬性」檢視窗中的「頁面屬性」按鈕。
    選擇「標題/編碼方式」類別並設定選項。

    標題
        指定出現在「文件」視窗和大多數瀏覽器視窗標題列中的頁面標題。

    文件類型 (DTD)
        會指定文件類型定義。例如,您可以從彈出式選單中選取「XHTML 1.0 Transitional」或「XHTML 1.0 Strict」,使 HTML 文件與 XHTML 相容。

    編碼
        會指定文件中字元所用的編碼方式。

        如果選取 Unicode (UTF-8) 為文件編碼方式,便不需要再使用實體編碼方式,因為 UTF-8 可以安全地呈現所有的字元。但若選取了其他的文件編碼方式,則可能需要實體編碼方式才能夠表示某些字元。如需字元實體的詳細資訊,請參閱 www.w3.org/TR/REC-html40/sgml/entities.html。

    重新載入
        可讓您轉換現有文件的編碼方式,或是以新的編碼方式重新開啟文件。

    Unicode 標準化格式
        只會在您選取 UTF-8 當作文件編碼方式時啟用。Unicode 標準化格式有四種類型。最重要的一種是「標準化格式 C」,因為這是全球資訊網中字元模型 (Character Model) 最常用的格式。為求完整起見,Adobe 也提供其餘三種 Unicode 標準化格式。

        在 Unicode 中,某些字元看起來很相似,但卻能以不同方式儲存於文件中。例如,「ë」(e 母音變化) 可以表示為「e 母音變化」單一字元,也可以表示為「一般拉丁字母 e」+「組合母音變化」兩個字元。Unicode 組合字元是與前一個字元組合一起使用的字元,因此母音變化可能出現在「拉丁字母 e」的上面。這兩種格式的印刷結果看起來完全一樣,但是儲存至檔案的內容互不相同。

        標準化程序是為了確定,能以不同格式來儲存的所有字元全部儲存成相同格式。也就是說,文件中所有的「ë」字元都儲存成單一的「e 母音變化」,或者都儲存成「e」+「組合母音變化」,所以一份文件中不至於同時出現兩種格式。

        如需有關 Unicode 標準化以及可供使用的特定格式之詳細資訊,請查閱 Unicode 網站,網址為:www.unicode.org/reports/tr15。

    包含 Unicode 簽名 (BOM)
        可讓您在文件中包含位元順序標記 (BOM)。BOM 是位於文字檔開頭處的 2 到 4 個位元組,用來識別檔案為 Unicode,而且若有 BOM 的話,也會指出後續位元組的位元順序。由於 UTF-8 沒有位元順序,所以加入 UTF-8 BOM 是選擇性的動作。但對 UTF-16 和 UTF-32 而言則是必要的。

        【出處】http://help.adobe.com/zh_TW/dreamweaver/cs/using/WS4A31B6A6-8F51-4b2a-AC51-3AA1F6F709A4a.html

        【出處】http://www.dotblogs.com.tw/jellycheng/archive/2010/11/18/19533.aspx

        【出處】http://www.jb51.net/article/30064.htm

留言

這個網誌中的熱門文章

c語言-關於#define用法

CMD常用網管指令

PHP 與 JavaScript 之間傳值利用 json