java之學習篇-亂碼問題匯總

天突然想到之前的一個項目，是和另一個公司合作，我提供后臺，對方寫小程序調用我的接口，我本地測試好接口后，是沒有問題的，然后部署到對方服務器（windows系統），接著就是出先各種各樣的亂碼問題，在這里匯總記錄下，以便后面學習。

java亂碼出現的問題有很多，這里主要記錄下tomcat，log4j,mysql,jsp,html,http(get,post請求亂碼處理)。常見的問題可能是tomcat，http請求亂碼問題了，至于jsp和html的亂碼問題就很簡單了，相信大家也知道，我也就不多說了，首先來說下tomcat的亂碼問題，

一個是程序需要發送http GET請求到服務器，請求的參數中包含了中文字符。程序中參數為UTF-8格式，且經過了UTF-8 URL編碼再發送。使用的tomcat服務器，但服務器端后臺程序中取到的參數的中文是亂碼。

解決辦法：修改Tomcat的Server.xml，在Connector標簽中加上URLEncoding參數。

<Connector port="8080" maxThreads="150" minSpareThreads="25"
maxSpareThreads="75" enableLookups="false" redirectPort="8443"
acceptCount="100" debug="99" connectionTimeout="20000"
disableUploadTimeout="true" URIEncoding="UTF-8"/>

另一個是tomcat控制臺打印亂碼，程序中輸出到tomcat控制臺的中文信息亂碼了，

解決辦法：打開文件/tomcat/bin/catalina.bat，然后設置set JAVA_OPTS=　的內容中添加選項-Dfile.encoding=UTF-8即可，當然，我不敢包證，但是我的就是這么處理然后就可以了。

然后是log4j的日志打印亂碼，這個亂碼也是打印在tomcat控制臺的時候亂碼，但是日志文件卻不會，而且我本地測試的時候打印也不會亂碼

而且我配置的也是utf-8，這個曾經讓我惱火好久，后面我偶然在一篇博客上發現，說有些服務器你配utf-8是不行的，他的是編碼就是GBK，我就權當試試，沒想到還真是這個問題，這也是讓我很無語，，，，

然后就是http請求的亂碼，我這個亂碼問題是我在shiro判斷是否登錄的時候，因為我是前后端分離，所以我shiro判斷未登錄的時候，是返回狀態碼和提示信息，而不是跳轉登錄頁面，我用response返回中文提示信息是，結果返回的是亂碼，可是我明明設置了

res.setCharacterEncoding("utf-8");

可是到前端頁面的時候還是亂碼了，這讓我很費解，后面我仔細想了下，我服務端是設置了返回utf-8的編碼,但是瀏覽器是用utf-8去解析的嗎？后面去查了下還要加一條配置，

res.setContentType("text/html;charset=utf-8");

之前知道有這個配置，但是一直不知道有什么區別，今天算是明白了一點，這個就是告訴瀏覽器，你要用什么編碼去解析這個數據。

最后一個是mysql 中文的亂碼了，這個著實讓我煩惱了好久，我去網上查了，說建表的時候要設置utf-8的編碼，可是我在新建數據庫的時候就設置了默認就是utf-8的編碼，然后我說要配置數據庫的默認編碼，修改mysql配置文件/etc/my.cnf。

[mysqld]
character-set-server=utf8 
[client]
default-character-set=utf8 
[mysql]
default-character-set=utf8

我設置好這個以后，終于不會亂了，但是，，保存進去的中文居然全部變成了？？？號，于是又去奔波了，

通過這個命令，我們可以看到，我們服務端居然還不是utf-8？？？

這讓我很傷，終于，尋的良方，

只要在數據庫properties文件的連接信息里加兩個參數

?useUnicode=true&characterEncoding=utf-8

就可以了，唉，真是一波三折啊，

真是與服務器斗，其樂無窮；與數據庫斗，其樂無窮；與瀏覽器斗，其樂無窮啊

融界2024年1月16日消息，據國家知識產權局公告，中信銀行股份有限公司申請一項名為“一種基于iText的支持生僻字轉換方法及系統”的專利，公開號CN117408230A，申請日期為2023年10月。

專利摘要顯示，本發明提供了一種基于iText的支持生僻字轉換方法及系統，涉及人工智能技術領域。其中，所述方法包括：獲得生僻字字庫；獲得常規字字庫；將所述生僻字字庫與所述常規字字庫進行組合，獲得字庫集合；根據所述字庫集合對HTML進行字體樣式設定，獲得HTML信息；將所述字庫集合設置到iText中，調用所述iText對所述HTML信息進行PDF轉換，獲得轉換文件。解決了現有技術中存在遇到生成含有生僻字的HTML轉換PDF場景時，無法正常完成生僻字轉換，出現生僻字變為亂碼，且使用升級現有中文字字庫的方法不能隨時新增生僻字，靈活性差的技術問題。

本文源自金融界

明：本欄目所使用的素材都是凱哥學堂VIP學員所寫，學員有權匿名，對文章有最終解釋權；凱哥學堂旨在促進VIP學員互相學習的基礎上公開筆記。

關于亂碼問題的解決

會有亂碼現象，其實就是因為字符集編碼不一致的問題，就好像中國人和外國人談話一樣，互相不懂對方在說啥。字符集編碼也是如此，本來就是一段GBK編碼的文字，卻要用utf-8的編碼格式去解碼，就當然是雞同鴨講會出現亂碼啦，這個時候就得使用GBK編碼的格式去解碼才不會出問題。如果互相都是使用的GBK編碼后，那就像中國人和中國人都說普通話一樣，就能聽懂對方在說什么，這樣才不會出現亂碼。

在web開發中，請求或響應數據時出現亂碼，往往就是客戶端和服務端的編碼不一致的問題所導致的。

不過在介紹如何解決亂碼的問題前，我們先看看HttpServletRequest中關于獲得表單數據的一些方法，雖然在上一篇也介紹了使用方式，不過關于亂碼和拿到具體的值這方面沒有涉及到：

獲得和設置表單數據方法（如果是上傳文件的話則無法獲取文件中的數據）：

既然和表單有關，那么就得先寫一個簡單的html表單代碼，我們可以在Eclipse中創建一個html文件：

可能使用Eclipse編寫HTML的代碼不太方便，我們也可以使用一個專門編寫html代碼的工具來編寫Eclipse里已經創建了的html文件，我這里使用HBuilder作為示例：

1.復制Eclipse中的html文件所在目錄的路徑：

2.在HBuilder中點擊文件，然后選擇打開目錄把復制的文件路徑粘貼進去，并為這個工程起一個新的名稱：

工程目錄如下：

如圖，可以看到index.html已經在這個工程下了，我們可以在HBuilder中編輯這個html文件，編輯的內容會同步到Eclipse，因為它倆訪問的都是同一個目錄同一個html文件。

3.我在HBuilder編輯的代碼如下：

4.再看看Eclipse發生了什么：

可以看到代碼是同步的。

瀏覽器運行結果：

以下使用實際代碼演示常用的幾個獲得表單數據的方法，代碼示例：

在Eclipse中執行html文件，Eclipse有一個內置的瀏覽器：

如果要在其他的瀏覽器則需要使用這個URL地址：

http://localhost:8080/TestResponse/index.html

不要直接在HBuilder中運行這個html文件，因為它的URL是指向HBuilder的工程路徑的。

控制臺打印結果：

如圖，可以看到我們將所有的值都獲得到手了。

獲得表單數據的時候要注意一個問題：當你需要獲得一個屬性的值時，如果得到的結果為null，那么就是因為表單數據中并沒有這個屬性的存在。例如我獲得一個不存在的屬性：

控制臺打印結果：

可以看到結果為null，所以當你獲得表單數據進行某些操作時，出現了空指針異常的話，很有可能就是因為代碼上寫錯了獲得了一個不存在的屬性。

如果表單數據中的某個屬性值沒有寫，那么獲得的將是一個空字符串，而非null，例如：

控制臺打印結果：

如圖，并沒有打印null，而是打印空白，這個空白就是一個空字符串：’’

會出現亂碼的情況，以及解決方法：

現在我們修改一下代碼把表單提交的方法改為post，再運行一次，看看控制臺的打印結果，html代碼示例：

Java代碼示例：

提交的表單：

控制臺的打印結果：

可以看到控制臺中的打印結果出現了不能識別的字符，解決方法很簡單，使用setCharacterEncoding(String)方法，設置表單提交的數據的編碼格式即可：

運行結果：

注意：除了在Java代碼中需要設置編碼格式，在html文件中也要設置好編碼格式，如果html中不設置編碼格式的話，即便在Java代碼中使用了setCharacterEncoding(String)方法設置了也沒有用，所以這是雙向的，例如我把html文件中設置編碼格式的標簽給刪掉：

可以看到在網頁上顯示都是亂碼（這是因為Eclipse內置的瀏覽器原因，一般市面上的瀏覽器提前預設了字符編碼，所以不會出現這種情況）

控制臺打印結果：

果然出現了不能識別的字符，所以html文件也是需要設置好編碼的，不然的話就會出現亂碼的情況。

下面來看看瀏覽器的地址欄中為什么能夠顯示中文：

這其實是因為瀏覽器轉碼了，可以把這個URL復制到記事本中：

可以看到是一堆的編碼，并沒有顯示中文，所以實際上瀏覽器就是把這個編碼給轉換成了中文而已。

只要不屬于128個字符內的字符，在地址欄中都會轉換成這種格式的編碼，這些編碼格式是采用的16進制的編碼格式，以上面這文本示例編碼對應的中文：

如圖，每一個16進制編碼都是以%開頭，這是utf-8編碼的中文，所以一個中文字對應3個16進制編碼。

如果是GBK編碼格式的中文則是一個中文字對應2個16進制編碼，但是GBK編碼格式轉換成的16進制編碼不能被瀏覽器轉換，會仍然顯示著16進制編碼：

中文字對應的16進制編碼：

如圖，GBK編碼格式的中文字和utf-8編碼的中文字不一樣，是2個16進制編碼對應一個中文字。

關于客戶端請求數據方面的亂碼情況就介紹這么多，另外響應數據中出現亂碼的情況和解決方法在介紹HttpServletResponse方法部分進行說明。

思維導圖：

HttpServletResponse中的方法

HttpServletResponse接口類型的對象是封裝服務端響應數據的，所以這個對象中的方法都是與響應數據相關。以下羅列一些常用的方法：

下面使用實際的例子，演示以上方法的使用方式：

編輯響應頭一類的方法：

代碼示例：

在服務端設置響應數據的編碼格式是很有必要的，這么做同樣的也是為了避免出現亂碼的問題。例如以下這個示例，我不設置響應數據的編碼格式，并輸出一段中文，看看會發生什么，代碼示例：

運行結果：

如圖，可以看到，沒有設置響應數據的編碼格式的話，輸出中文就會無法被識別。

這種問題設置一下響應數據的編碼格式就好了，但是服務端設置的編碼格式，要與瀏覽器端的編碼格式對應上，如果不對應的話仍然會是亂碼，代碼示例：

運行結果：

添加新的響應頭數據：

代碼示例：

打開TCP/IP Monitor窗口，可以看到以上代碼添加進響應頭的數據：

獲得設置的響應頭信息：

代碼示例：

控制臺打印結果：

修改響應頭信息：

代碼示例：

TCP/IP Monitor窗口：

總結：

解決客戶端表單提交數據亂碼的問題，需要使用setCharacterEncoding(String)方法，設置好與客戶端對應的編碼格式。

解決服務端響應數據亂碼的問題，則使用setCharacterEncoding(String)方法，設置好對應的編碼格式。

HttpServletRequest是封裝請求數據的對象，所以它的方法都是與客戶端請求信息相關的。

HttpServletResponse是封裝響應數據的對象，所以它的方法都是與服務端響應信息相關的。

在線咨詢

上一篇：將織夢網頁GBK/GB2312編碼轉為UTF-8編碼步驟方法
下一篇：web前臺小測試題

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

java之學習篇-亂碼問題匯總

您的項目需求