Web開發中常見的“亂碼”

題來源：

在微信公眾號開發指定回復消息為文本格式的時候，嘗試了幾種換行方式都不行，最終了解即 XML 的換行應使用：

是字符實體編號（16進制），可以用于處理XML中文本的換行。

對應的正確代碼在第9行（部分文字有修改）：

<xml>
 <ToUserName><![CDATA[<%=toUserName %>]]></ToUserName>
 <FromUserName><![CDATA[<%=fromUserName %>]]></FromUserName>
 <CreateTime><% createTime %></CreateTime>
 <MsgType><![CDATA[<%=msgType %>]]></MsgType>
 <% if (msgType==='text') { if(content!=="zs") { %>
 <Content><![CDATA[<%=content %>]]></Content>
 <% } else { %>
 <Content>歡迎來到報名圖書館暑假工！
報名步驟：
①將招聘推文轉發至朋友圈或者40人以上的群，讓更多同學了解本招聘。為招聘方宣傳以找到更多優質學生員工。
→<a >點此進入招聘推文</a>
②回復你的資料：報名+姓名+電話號碼+深圳哪個區+可上班時間
</Content>
 <% }} else if (msgType==='zs') { %>
 <Content><a >ddwadwada</a></Content>
 <% } else if (msgType==='image') { %>
 <Image>
 <MediaId><![CDATA[<%=content.mediaId %>]]></MediaId>
 </Image>
 ...
</xml>

由這個問題，我們想到web開發中還有一些類似的“亂碼”，這些亂碼又有哪些規律呢？

字符實體

字符實體是XML和HTML中的字符編碼方式，也就是上面事例中提到的，格式為：

& + 實體名稱 + ;
& + (# + unicode編碼) + ;

實體名稱一般是有意義的詞，方便大家記憶，比如小于號<的實體名稱是lt，也就是less than的縮寫。只有部分符號是有實體名稱的，使用unicode編碼是更通用的寫法。

像文字類一般不會采用這種編碼方式，主要用于在HTML或XML文檔中輸出一些保留字符和空格，比如我想在HTML中展示一段html代碼就需要使用字符實體

比如我們要展示`<p>情深深雨蒙蒙</p>` 以下兩種表示是等效的
?
<pre>
 <p>情深深雨蒙蒙</p>
 <p>情深深雨蒙蒙</p>
</pre>

總而言之，字符實體是HTML和XML中的編碼方式，比如在HTML文檔中寫入：我，那么最終頁面上看到的是我這個漢字。

unicode字符

編程語言中的unicode字符的格式為：

\u + 16進制unicode編碼

絕大多數編程語言，包括CSS中都支持unicode字符，不過HTML和XML是不支持的。那么什么時候使用unicode字符呢？一般來說有兩種場景：

避免文件保存時采用不同編碼導致的亂碼，因為\u已經聲明了是unicode。
正則匹配中的一些應用：Unicode編碼及在正則表達式中的使用

在JS中可以使用charCodeAt()獲取字符串的10進制unicode編碼

URL編碼

類似%E6%88%91這樣的，叫做URL編碼，在鏈接的參數里非常常見

網絡標準RFC 1738做了硬性規定：

“只有字母和數字[0-9a-zA-Z]、一些特殊符號”$-_.+!*'(),”[不包括雙引號]、以及某些保留字，才可以不經過編碼直接用于URL。”

所以像漢字，空格這些都必須經過轉碼。上面講的unicode字符，字符實體用的都是unicode編號，而URL編碼用的則是utf-8, 規則是將utf-8編碼每隔兩個字符加一個%

UTF 是英文 Unicode Transformation Format 的縮寫，意為把 Unicode 字符轉換為某種格式。unicode和utf-8并不是同一種東西，但是又存在著聯系：unicode是信源編碼，對字符集數字化; utf-8，utf-16這些是信道編碼，為更好的存儲和傳輸。

簡單說，unicode就是一組數字，每一個數字對應一個字符。utf-8就是對字符的傳輸和保存時的規則。比如說“我”這個字，unicode碼（16進制）是6211，utf-8是E68891, 那么對應的URL編碼就是%E6%88%91;

{
 Unicode編碼: 0x6211,
 UTF8編碼: E68891,
 UTF16編碼: FEFF6211,
 UTF32編碼: 0000FEFF00006211
 URL編碼: %E6%88%91
}

更多細節可以參考《阮一峰：關于URL編碼》

總結

Web開發中常見的幾種亂碼包括：Unicode字符、字符實體、URL編碼。如以下情況都表示“我”：

Unicode字符： \u6211
字符實體編號（16進制）：我
字符實體編號（10進制）：我
URL編碼：%E6%88%91

這些編碼規則的本質都是一些特殊符號 + Unicode編碼 所組成。

希望本文能幫助到您！

點贊+轉發，讓更多的人也能看到這篇內容（收藏不點贊，都是耍流氓-_-）

關注｛我｝，享受文章首發體驗！

每周重點攻克一個前端技術難點。更多精彩前端內容私信我回復“教程”

原文鏈接：http://eux.baidu.com/blog/fe/web%E5%BC%80%E5%8F%91%E4%B8%AD%E5%B8%B8%E8%A7%81%E7%9A%84%E4%B9%B1%E7%A0%81

作者：鄭佳潤

開發過程中，經常遇到中文亂碼問題，以前總是解決就好，并沒有對該問題總結一下，現在來總結一下開發過程中常見的中文亂碼問題。

一、有必要了解一些基本的編碼知識：

這篇字符編碼筆記是必讀的
jsp的三次編碼
第一階段：JVM將.jsp文件編譯為.java文件。JVM先讀取pageEncoding的值，根據該值去讀取.jsp文件，然后由指定的編碼方案生成UTF-8的.java文件。
第二階段：JVM將.java文件轉換為.class文件，從UTF-8至UTF-8。這個過程就與任何編碼的設置都沒有關系了，經過這個階段后.java文件就轉換成了統一的UTF-8編碼的.class文件了。
第三階段：服務器將處理的結果返回給瀏覽器，這個階段則依靠contentType的charset，如果設置了charset則瀏覽器就會使用指定的編碼格式進行解碼，否則采用默認的ISO-8859-1編碼格式進行解碼處理。
jsp中的編碼設置

pageEncoding:<%@ page pageEncoding=”UTF-8”%>
上文中第一階段，使用該值去讀取jsp文件，為避免中文亂碼，跟jsp文件編碼一致；對服務器響應進行重新編碼，即jsp的輸出流在瀏覽器中顯示的編碼（不是主要作用）。
contentType: <%@ page contentType=”text/html;charset=UTF-8”%>
使用該值對服務器響應進行重新編碼，即jsp的輸出流在瀏覽器中顯示的編碼；對表單get和post請求數據編碼；上文中第一階段，使用該值去讀取jsp文件（不是主要作用）。
< META http-equiv=”Content-Type” content=”text/html;charset=UTF-8”>
網頁的編碼信息，說明頁面制作所使用的編碼。
request.setCharacterEncoding()
可用在servlet和jsp頁面中，作用是設置對客戶端請求進行重新編碼的編碼，即post方式提交的數據進行編碼。
response.setCharacterEncoding()
與<%@ page contentType=”text/html;charset=UTF-8”%>一樣。
response.setContentType()
與<%@ page contentType=”text/html;charset=UTF-8”%>一樣。
response.setHeader(“Content-Type”,”text/html;charset=UTF-8”)
與< META http-equiv=”Content-Type” content=”text/html; charset=UTF-8”>一樣。
注意：上文1,2,3中有部分功能是一樣的，是有優先級的，在讀取jsp文件時，1>2；在對服務器響應進行編碼的時候，2>1>3，一般情況下，1，2都寫。

http請求默認以”ISO-8859-1”的編碼來傳送URL的。

二、中文亂碼的幾種情況及最簡單的解決方案：

pageEncoding設置錯誤
pageEncoding設置為jsp文件的編碼類型。
查詢字符串包含中文
中文的編碼方式取決于瀏覽器，chrome為UTF-8，IE為GB2312，這是由于瀏覽器并沒有遵循URI編碼規范。有兩種解決方法：

開發過程中，將查詢字符串提前編碼，
如：http://www.baidu.com/demo?demo=%D6%D0%B9%FA (UTF-8編碼)
在Servlet的doGet()方法中添加

1	String value=new String(request.getParameter("parameterName").getBytes("ISO-8859-1")，"瀏覽器的編碼方式");

表單中的get和post數據包含中文
中文的編碼方式取決于上文的contentType中的charset，有兩種解決辦法：

在Servlet的doPost()方法中添加request.setCharacterEncoding(“charset的值”);(僅對post有用)
在Servlet的doPost()方法中添加

1	String value=new String(request.getParameter("parameterName").getBytes("ISO-8859-1")，"charset的值");

三、原理

我們通過上面的方法可以解決亂碼問題，下面講講原理：

客戶端發到服務器的數據需要在客戶端進行編碼，類似于：String parameterName="中國".getBytes("UTF-8")然后將編碼后的數據發到服務器。
客戶端接受數據，request.getParameter(“”)的作用就是對接收到的數據進行解碼，默認使用ISO-8859-1進行解碼，可以使用request.setCharacterEncoding(“”)進行設置，但僅對post有用。假如我們使用默認的ISO-8859-1，肯定亂碼，因為編碼跟解碼不一致，那此時怎么辦呢，引出了上文中的兩種解決方案：使用request.setCharacterEncoding(“”)改變request.getParameter(“”)的解碼方式或者new String(request.getParameter("parameterName").getBytes("ISO-8859-1")，"charset的值")將request.getParameter(“”)解碼的數據重新編碼再解碼。

四、其他

在jsp中的頁面使用response.setContentType()等設置字符集會破壞jsp容器自身的頁面編碼，會引起html中字符亂碼，腳本不會亂，所以不建議設置。在開發中多采用page指令設置字符集。

1234567891011121314151617

<%	response.setContentType("text/html;charset=UTF-8");	String str=new String("你好".getBytes("iso-8859-1"),"utf-8");%><!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>Insert title here</title></head><body><p>你好</p><br><%=str %></body></html>

網頁測試

版規則

縮進

使用2個空格縮進

<ul>
  <li>Fantastic</li>
  <li>Great</li>
</ul>

.example {
  color: blue;
}

大小寫

只允許使用小寫。

所有的代碼都用小寫字母：適用于元素名，屬性，屬性值（除了文本和CDATA），選擇器，特性，特性值（除了字符串）。

<!-- 不推薦 -->
<A HREF="/">Home</A>

<!-- 推薦 -->
<img src="google.png"
alt="Google">

行為空格

建議刪除行尾白空格。

<!-- 不推薦 -->
<p>What?  </p>

<!-- 推薦 -->
<p>Yes please.</p>

常規Meta規則

編碼

如果沒有特殊需求，一般采用utf-8編碼。如果是cms站點，則遵守該站點的編碼規則。

<!-- 網頁編碼 -->
<meta charset="utf-8">

注釋

盡可能的去解釋你寫的代碼。說明該代碼包括什么、目的是什么、能做什么、為什么使用它等。

注釋是否需要詳盡，取決于項目的復雜程度。

一般單行注釋：

<!-- col -->

模塊間注釋：

<!-- news -->
<div class="news">
  <h2>News</h2>
  <p>...</p>
</div>
<!--/ news -->

循環注釋：

<ul>
  <!-- loop: new list -->
  <li>new's title 1</li>
  <li>new's title 2</li>
  <li>new's title 3</li>
  <li>new's title 4</li>
  <li>new's title 5</li>
  <!-- /loop: new list -->
</ul>

cms輸出注釋：

<!-- cms: news list -->
<ul>
  <li>new's title 1</li>
  <li>new's title 2</li>
  <li>new's title 3</li>
  <li>new's title 4</li>
  <li>new's title 5</li>
</ul>
<!-- /cms: news list -->

Tab選項卡內容注釋：

<!-- tab: news list -->
<div class="tab"></div>
<!-- /tab: news list -->

常規HTML設計規則

文檔類型

使用html5文檔聲明，不再使用XHTML（application/xhtml+xml）。

HTML5是目前所有HTML文檔類型中的首選：

<!DOCTYPE html>

HTML 的正確性

編寫有效、正確的HTML代碼，否則很難達到性能上的提升。

可以使用一些工具驗證你的代碼，如 W3C HTML validator

HTML 的語義性

根據HTML各個元素的用途而去使用它們。

<!-- 不推薦 -->
<div class="col">
  <div class="title">
news</div>
  <p>list1</p>
  <p>list2</p>
  <p>list3</p>
</div>

<!-- 推薦 -->
<div class="col">
  <h2 class="title">
news</h2>
  <p>list1</p>
  <p>list2</p>
  <p>list3</p>
</div>

部分標簽說明：

div 主要用于布局，分割頁面的結構;
ul/ol 主要用于無序/有序列表;
dl/dt/dd 當頁面中出現第一行為類似標題/簡述，然后下面為詳細描述的內容時應該使用該標簽;
span 沒有特殊的意義，可以用作排版的輔助，然后在css中定義span;
h1-h6 標題, 根據重要性依次遞減;
h1 最重要的標題;
label 使表單更有親和力而且能輔助表單排版;

不推薦使用的標簽：

font 文字的外觀，大小和顏色;
u 文本下劃線;
center 居中對齊;
s 刪除線;
strike 刪除線;
noframes 無視框時的內容;
iframe 定義嵌入視圖;
isindex 不建議使用（可搜尋，使用input代替）;
dir 目錄式列舉;
menu 菜單列表;
basefont 定義基本字體;
applet 定義java程序;
frame 定義個別視框;
frameset 視框格式總定義;

多媒體元素降級處理

給多媒體元素，比如canvas、videos、 images增加alt屬性，提高可用性（特別是常用的img標簽，盡可量得加上alt屬性，提供圖片的描述信息）。

<!-- 不推薦 -->
<img src="world.jpg">

<!-- 推薦 -->
<img src="world.jpg"
alt="our world images">

type屬性

在樣式表和腳本的標簽中忽略type屬性。

HTML5默認type為text/css和text/javascript類型，所以沒必要指定。即便是老瀏覽器也是支持的。

<!-- 不推薦 -->
<link rel="stylesheet"
 href="//www.google.com/css/maia.css"
 type="text/css">
<script src="
 //www.google.com/
 js/gweb/analytics/autotrack.js"
 type="text/javascript">
 </script>

<!-- 推薦 -->
<link rel="stylesheet"
 href="//www.google.com/css/maia.css">
<script src="
 //www.google.com/
 js/gweb/analytics/autotrack.js">
 </script>

HTML代碼格式規則

每個塊元素、列表元素或表格元素都獨占一行，每個子元素都相對于父元素進行縮進。按設計稿劃分模塊，盡量使頁面模塊化，模塊與模塊之前要有清晰的注釋。

如上面頁面框架，推薦寫法：

<!-- hader -->
<div class="header">header</div>
<!-- /hader -->
<!-- nav -->
<div class="nav">nav</div>
<!-- /nav -->
<!-- main -->
<div class="main">
  <!-- container -->
  <div class="container">
    <!--news-->
    <div class="news">
      <h2>news<h2>
      <p>...</p>
    </div>
    <!--news-->
  </div>
  <!--/container-->
  <!--sidebar-->
  <div class="sidebar">
sidebar</div>
  <!--sidebar-->
</div>
<!--/main-->
<!--footer-->
<div class="footer">
footer</div>
<!--/footer-->

HTML與SEO

頁面良好層次

保證整個頁面在未加載樣式表時仍有較好的層次清晰的頁面結構。

<!-- 不推薦 -->
<div class="logo">My Site</div>
<div class="nav">
  <a href="#">Home</a>
  <a href="#">News</a>
  <a href="#">Mobile</a>
</div>
<div class="news">
  <div>News</div>
  <a href="#">
news list 1</a>
  <a href="#">
news list 2</a>
  <a href="#">
news list 3</a>
</div>

<!-- 推薦 -->
<h1 class="logo">My Site</h1>
<ul class="nav">
  <li><a href="#">
Home</a></li>
  <li><a href="#">
News</a></li>
  <li><a href="#">
Mobile</a></li>
</ul>
<div class="news">
  <h2>News</h2>
  <ul>
    <li><a href="#">
news list 1</a>
</li>
    <li><a href="#">
news list 2</a>
</li>
    <li><a href="#">
news list 3</a>
</li>
  </ul>
</div>

權重標簽使用

H標簽使用

h1 權重高，體現當前網頁中相對比較重要的信息，但不宜過多，建議一個頁面只放一個;
h2 可以做副標題;
h3 可以做新聞列表;
h4-h6 可做相關新聞的列表標簽屬性完整;

strong、b使用

將需要加粗的文字使用b標簽來顯示。

將需要強調的文字（主要指包含關鍵詞的信息）使用strong標簽來強調主要內容。

注：b是粗體標簽，屬于實體標簽，它所包圍的字符將被設為bold（粗體）；strong 是加重語氣標簽，屬于邏輯標簽，它的作用是加強字符語氣。

標簽屬性使用

在很多情況下，a都要使用title來說明該鏈接的相關說明或目的意義。

例如：當使用overflow隱藏掉a中的溢出文字時，該a中的title是必不可少的，它可以告訴用戶被隱藏掉的文字內容是什么；又或者當一個圖片型鏈接出現時，該a中的title同樣是必不可少的，它可以告訴用戶這個圖片鏈接是做什么用的。

注：僅在img里添加alt標簽在火狐提示文字是出不來的，alt是圖片加載失敗或未加載完全時顯示出來的提示文字，要想鼠標移上去顯示提示信息應該用title，嚴謹的寫法是img里加入alt和title這兩個標簽。

精簡代碼

代碼保持精簡，最優化，這樣搜索引擎才更喜歡。

在線咨詢

上一篇：僅使用5美元設備，在鎖定的計算機中植入Web后門
下一篇：niushop阿里云短信配置

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商