幾天保存了網絡上的一個頁面,瀏覽器打開后,發現是亂碼。如下圖:
亂碼網頁
出現這個問題怎么處理呢?下面幫你解決
頁面html源碼
查看html,看到這里用了國標標準,看源碼截圖
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
解決方法:
把gb2312改成utf-8即可
修改為utf-8
修改后的結果,如圖:
修改后的展示
utf-8 這個是國際通用字庫,支持各種不同的語言
gb3212這個是中國的字庫,支持簡體中文和少數外語+一些符號,文件資源少一點
區別:utf-8跨平臺兼容性更好,由于它字庫更全所以加載會慢好多
charset屬性是定義HTML文檔的字符編碼格式。
常見的字符編碼有:Unicode、utf-8、gbk、gb2312
其中:
gbk是國家標準的擴展版(增加了繁體并包含所有亞洲字符集)
Unicode是國際組織制定的旨在容納全球所有字符的編碼方案,包括字符集、編碼方案等。又稱為萬國碼、統一碼、單一碼
天第一次看HTML5的書籍,嘗試使用記事本編寫第一個網頁,不料,打開網頁后,竟然是亂碼狀態,愁煞吾也,這個問題怎么破呢?經查相關資料,是因為記事本默認存儲的編碼格式與html中的編碼格式不一致導致的.....
情況具體是這樣的:
第一步是將寫好的內容的記事本的后綴“TXT”改成了HTML
打開網頁之后是這樣的:亂碼
查閱資料后,解決方法是這樣的:
在網頁空白處點擊右鍵,找到編碼點擊,選擇UTF-8,問題就解決了。
還有一種方法就是,使用記事本另存為修改后綴名為HTML,編碼處選擇UTF-8,就不會出現亂碼現象了。
者 | 丁彥軍
責編 | 仲培藝
近日,有位粉絲向我請教,在爬取某網站時,網頁的源代碼出現了中文亂碼問題,本文就將與大家一起總結下關于網絡爬蟲的亂碼處理。注意,這里不僅是中文亂碼,還包括一些如日文、韓文 、俄文、藏文之類的亂碼處理,因為他們的解決方式是一致的,故在此統一說明。
亂碼問題的出現
就以爬取 51job 網站舉例,講講為何會出現“亂碼”問題,如何解決它以及其背后的機制。
代碼示例:
import requests url = "http://search.51job.com" res = requests.get(url) print(res.text)
顯示結果:
打印 res.text 時,發現了什么?中文亂碼!??!不過發現,網頁的字符集類型采用的是 GBK 編碼格式。
我們知道 Requests 會基于 HTTP 頭部對響應的編碼作出有根據的推測。當你訪問 r.text 之時,Requests 會使用其推測的文本編碼。你可以找出 Requests 使用了什么編碼,并且能夠使用 r.encoding 屬性來改變它。
接下來,我們一起通過 Resquests 的一些用法,來看看 Requests 會基于 HTTP 頭部對響應的編碼方式。
print(res.encoding) #查看網頁返回的字符集類型 print(res.apparent_encoding) #自動判斷字符集類型
輸出結果為:
可以發現 Requests 推測的文本編碼(也就是網頁返回即爬取下來后的編碼轉換)與源網頁編碼不一致,由此可知其正是導致亂碼原因。
亂碼背后的奧秘
當源網頁編碼和爬取下來后的編碼轉換不一致時,如源網頁為 GBK 編碼的字節流,而我們抓取下后程序直接使用 UTF-8 進行編碼并輸出到存儲文件中,這必然會引起亂碼,即當源網頁編碼和抓取下來后程序直接使用處理編碼一致時,則不會出現亂碼,此時再進行統一的字符編碼也就不會出現亂碼了。最終爬取的所有網頁無論何種編碼格式,都轉化為 UTF-8 格式進行存儲。
注意:區分源網編碼 A-GBK、程序直接使用的編碼 B-ISO-8859-1、統一轉換字符的編碼 C-UTF-8。
在此,我們拓展講講 Unicode、ISO-8859-1、GBK2312、GBK、UTF-8 等之間的區別聯系,大概如下:
最早的編碼是 ISO8859-1,和 ASCII 編碼相似。但為了方便表示各種各樣的語言,逐漸出現了很多標準編碼。ISO8859-1 屬于單字節編碼,最多能表示的字符范圍是 0-255,應用于英文系列。很明顯,ISO8859-1 編碼表示的字符范圍很窄,無法表示中文字符。
1981 年中國人民通過對 ASCII 編碼的中文擴充改造,產生了 GB2312 編碼,可以表示 6000 多個常用漢字。但漢字實在是太多了,包括繁體和各種字符,于是產生了 GBK 編碼,它包括了 GB2312 中的編碼,同時擴充了很多。中國又是個多民族國家,各個民族幾乎都有自己獨立的語言系統,為了表示那些字符,繼續把 GBK 編碼擴充為 GB18030 編碼。每個國家都像中國一樣,把自己的語言編碼,于是出現了各種各樣的編碼,如果你不安裝相應的編碼,就無法解釋相應編碼想表達的內容。終于,有個叫 ISO 的組織看不下去了。他們一起創造了一種編碼 Unicode,這種編碼非常大,大到可以容納世界上任何一個文字和標志。所以只要電腦上有 Unicode 這種編碼系統,無論是全球哪種文字,只需要保存文件的時候,保存成 Unicode 編碼就可以被其他電腦正常解釋。Unicode 在網絡傳輸中,出現了兩個標準 UTF-8 和 UTF-16,分別每次傳輸 8 個位和 16 個位。于是就會有人產生疑問,UTF-8 既然能保存那么多文字、符號,為什么國內還有這么多使用 GBK 等編碼的人?因為 UTF-8 等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國人,用 GBK 等編碼也可以。
也可以這樣來理解:字符串是由字符構成,字符在計算機硬件中通過二進制形式存儲,這種二進制形式就是編碼。如果直接使用 “字符串??字符??二進制表示(編碼)” ,會增加不同類型編碼之間轉換的復雜性。所以引入了一個抽象層,“字符串??字符??與存儲無關的表示??二進制表示(編碼)” ,這樣,可以用一種與存儲無關的形式表示字符,不同的編碼之間轉換時可以先轉換到這個抽象層,然后再轉換為其他編碼形式。在這里,Unicode 就是 “與存儲無關的表示”,UTF-8 就是 “二進制表示”。
亂碼的解決方法
根據原因來找解決方法,就非常簡單了。
方法一:直接指定 res.encoding
import requests url = "http://search.51job.com" res = requests.get(url) res.encoding = "gbk" html = res.text print(html)
方法二:通過 res.apparent_encoding 屬性指定
import requests url = "http://search.51job.com" res = requests.get(url) res.encoding = res.apparent_encoding html = res.text print(html)
方法三:通過編碼、解碼的方式
import requests url = "http://search.51job.com" res = requests.get(url) html = res.text.encode('iso-8859-1').decode('gbk') print(html)
輸出結果:
基本思路三步走:確定源網頁的編碼 A---GBK、程序通過編碼 B---ISO-8859-1 對源網頁數據還原、統一轉換字符的編碼 C-UTF-8。至于為啥出現統一轉碼這一步呢? 網絡爬蟲系統數據來源很多,不可能使用數據時,再轉化為其原始的數據,這樣做是很廢事的。所以一般的爬蟲系統都要對抓取下來的結果進行統一編碼,從而在使用時做到一致對外,方便使用。
比如如果我們想講網頁數據保存下來,則會將起轉為 UTF-8,代碼如下:
with open("a.txt",'w',encoding='utf-8') as f: f.write(html)
總結
關于網絡爬蟲亂碼問題,這里不僅給出了一個解決方案,還深入到其中的原理,由此問題引申出很多有意思的問題,如 UTF-8、GBK、GB2312 的編碼方式怎樣的?為什么這樣轉化就可以解決問題?
最后,多動腦,多思考,多總結,致每一位碼農!
本文為作者投稿,版權歸其所有。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。