html開(kāi)發(fā)筆記15-圖片標(biāo)簽-向網(wǎng)頁(yè)添加圖片

、圖片標(biāo)簽是用 <img> 單標(biāo)簽來(lái)定義：

作用是向網(wǎng)頁(yè)中添加圖片，并且img標(biāo)簽有多個(gè)可用參數(shù)可以添加。

二、代碼演示

者：wuwhs

轉(zhuǎn)發(fā)鏈接：https://segmentfault.com/a/1190000023486410

前言

公司的移動(dòng)端業(yè)務(wù)需要在用戶上傳圖片是由前端壓縮圖片大小，再上傳到服務(wù)器，這樣可以減少移動(dòng)端上行流量，減少用戶上傳等待時(shí)長(zhǎng)，優(yōu)化用戶體驗(yàn)。前段時(shí)間小編也發(fā)布一篇關(guān)于《JS 圖片簡(jiǎn)易壓縮【實(shí)踐】》，有興趣的小伙伴也可以看看。

插播一下，本文案例已整理成插件，已上傳 npm ，可通過(guò) npm install js-image-compressor -D 安裝使用，可以從 github 下載。

github：https://github.com/wuwhs/js-image-compressor

JavaScript 操作壓縮圖片原理不難，已有成熟 API，然而在實(shí)際輸出壓縮后結(jié)果卻總有意外，有些圖片竟會(huì)越壓縮越大，加之終端（手機(jī)）類型眾多，有些手機(jī)壓縮圖片甚至變黑。

所以本文將試圖解決如下問(wèn)題：

弄清 Image 對(duì)象、data URL、Canvas 和 File（Blob）之間的轉(zhuǎn)化關(guān)系；
圖片壓縮關(guān)鍵技巧；
超大圖片壓縮黑屏問(wèn)題。

轉(zhuǎn)化關(guān)系

在實(shí)際應(yīng)用中有可能使用的情境：大多時(shí)候我們直接讀取用戶上傳的 File 對(duì)象，讀寫(xiě)到畫(huà)布（canvas）上，利用 Canvas 的 API 進(jìn)行壓縮，完成壓縮之后再轉(zhuǎn)成 File（Blob）對(duì)象，上傳到遠(yuǎn)程圖片服務(wù)器；不妨有時(shí)候我們也需要將一個(gè) base64 字符串壓縮之后再變?yōu)?base64 字符串傳入到遠(yuǎn)程數(shù)據(jù)庫(kù)或者再轉(zhuǎn)成 File（Blob）對(duì)象。一般的，它們有如下轉(zhuǎn)化關(guān)系：

具體實(shí)現(xiàn)

下面將按照轉(zhuǎn)化關(guān)系圖中的轉(zhuǎn)化方法一一實(shí)現(xiàn)。

file2DataUrl(file, callback)

用戶通過(guò)頁(yè)面標(biāo)簽 <input type="file" /> 上傳的本地圖片直接轉(zhuǎn)化 data URL 字符串形式。可以使用 FileReader 文件讀取構(gòu)造函數(shù)。FileReader 對(duì)象允許 Web 應(yīng)用程序異步讀取存儲(chǔ)在計(jì)算機(jī)上的文件（或原始數(shù)據(jù)緩沖區(qū)）的內(nèi)容，使用 File 或 Blob 對(duì)象指定要讀取的文件或數(shù)據(jù)。該實(shí)例方法 readAsDataURL 讀取文件內(nèi)容并轉(zhuǎn)化成 base64 字符串。在讀取完后，在實(shí)例屬性 result 上可獲取文件內(nèi)容。

function file2DataUrl(file, callback) {
  var reader = new FileReader();
  reader.onload = function () {
    callback(reader.result);
  };
  reader.readAsDataURL(file);
}

Data URL 由四個(gè)部分組成：前綴（data:）、指示數(shù)據(jù)類型的 MIME 類型、如果非文本則為可選的 base64 標(biāo)記、數(shù)據(jù)本身：

data:<mediatype>,<data>

比如一張 png 格式圖片，轉(zhuǎn)化為 base64 字符串形式：data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAQAAAAEACAYAAABccqhmAAAgAElEQVR4XuxdB5g。

file2Image(file, callback)

若想將用戶通過(guò)本地上傳的圖片放入緩存并 img 標(biāo)簽顯示出來(lái)，除了可以利用以上方法轉(zhuǎn)化成的 base64 字符串作為圖片 src，還可以直接用 URL 對(duì)象，引用保存在 File 和 Blob 中數(shù)據(jù)的 URL。使用對(duì)象 URL 的好處是可以不必把文件內(nèi)容讀取到 JavaScript 中而直接使用文件內(nèi)容。為此，只要在需要文件內(nèi)容的地方提供對(duì)象 URL 即可。

function file2Image(file, callback) {
  var image = new Image();
  var URL = window.webkitURL || window.URL;
  if (URL) {
    var url = URL.createObjectURL(file);
    image.onload = function() {
      callback(image);
      window.revokeObjectURL(url);
    };
    image.src = url;
  } else {
    inputFile2DataUrl(file, function(dataUrl) {
      image.onload = function() {
        callback(image);
      }
      image.src = dataUrl;
    });
  }
}

注意：要?jiǎng)?chuàng)建對(duì)象 URL，可以使用 window.URL.createObjectURL() 方法，并傳入 File 或 Blob 對(duì)象。如果不再需要相應(yīng)數(shù)據(jù)，最好釋放它占用的內(nèi)容。但只要有代碼在引用對(duì)象 URL，內(nèi)存就不會(huì)釋放。要手工釋放內(nèi)存，可以把對(duì)象 URL 傳給 window.revokeObjectURL()。

url2Image(url, callback)

通過(guò)圖片鏈接（url）獲取圖片 Image 對(duì)象，由于圖片加載是異步的，因此放到回調(diào)函數(shù) callback 回傳獲取到的 Image 對(duì)象。

function url2Image(url, callback) {
  var image = new Image();
  image.src = url;
  image.onload = function() {
    callback(image);
  }
}

image2Canvas(image)

利用 drawImage() 方法將 Image 對(duì)象繪畫(huà)在 Canvas 對(duì)象上。

drawImage 有三種語(yǔ)法形式：

void ctx.drawImage(image, dx, dy);
void ctx.drawImage(image, dx, dy, dWidth, dHeight);
void ctx.drawImage(image, sx, sy, sWidth, sHeight, dx, dy, dWidth, dHeight);

參數(shù)：

image 繪制到上下文的元素；
sx 繪制選擇框左上角以 Image 為基準(zhǔn) X 軸坐標(biāo)；
sy 繪制選擇框左上角以 Image 為基準(zhǔn) Y 軸坐標(biāo)；
sWidth 繪制選擇框?qū)挾龋?/li>
sHeight 繪制選擇框?qū)挾龋?/li>
dx Image 的左上角在目標(biāo) canvas 上 X 軸坐標(biāo)；
dy Image 的左上角在目標(biāo) canvas 上 Y 軸坐標(biāo)；
dWidth Image 在目標(biāo) canvas 上繪制的寬度；
dHeight Image 在目標(biāo) canvas 上繪制的高度；

function image2Canvas(image) {
  var canvas = document.createElement('canvas');
  var ctx = canvas.getContext('2d');
  canvas.width = image.naturalWidth;
  canvas.height = image.naturalHeight;
  ctx.drawImage(image, 0, 0, canvas.width, canvas.height);
  return canvas;
}

canvas2DataUrl(canvas, quality, type)

HTMLCanvasElement 對(duì)象有 toDataURL(type, encoderOptions) 方法，返回一個(gè)包含圖片展示的 data URL 。同時(shí)可以指定輸出格式和質(zhì)量。

參數(shù)分別為：

type 圖片格式，默認(rèn)為 image/png。
encoderOptions 在指定圖片格式為 image/jpeg 或 image/webp 的情況下，可以從 0 到 1 的區(qū)間內(nèi)選擇圖片的質(zhì)量。如果超出取值范圍，將會(huì)使用默認(rèn)值 0.92，其他參數(shù)會(huì)被忽略。

function canvas2DataUrl(canvas, quality, type) {
  return canvas.toDataURL(type || 'image/jpeg', quality || 0.8);
}

dataUrl2Image(dataUrl, callback)

圖片鏈接也可以是 base64 字符串，直接賦值給 Image 對(duì)象 src 即可。

function dataUrl2Image(dataUrl, callback) {
  var image = new Image();
  image.onload = function() {
    callback(image);
  };
  image.src = dataUrl;
}

dataUrl2Blob(dataUrl, type)

將 data URL 字符串轉(zhuǎn)化為 Blob 對(duì)象。主要思路是：先將 data URL 數(shù)據(jù)（data）部分提取出來(lái)，用 atob 對(duì)經(jīng)過(guò) base64 編碼的字符串進(jìn)行解碼，再轉(zhuǎn)化成 Unicode 編碼，存儲(chǔ)在Uint8Array（8位無(wú)符號(hào)整型數(shù)組，每個(gè)元素是一個(gè)字節(jié)）類型數(shù)組，最終轉(zhuǎn)化成 Blob 對(duì)象。

function dataUrl2Blob(dataUrl, type) {
  var data = dataUrl.split(',')[1];
  var mimePattern = /^data:(.*?)(;base64)?,/;
  var mime = dataUrl.match(mimePattern)[1];
  var binStr = atob(data);
  var arr = new Uint8Array(len);

  for (var i = 0; i < len; i++) {
    arr[i] = binStr.charCodeAt(i);
  }
  return new Blob([arr], {type: type || mime});
}

canvas2Blob(canvas, callback, quality, type)

HTMLCanvasElement 有 toBlob(callback, [type], [encoderOptions]) 方法創(chuàng)造 Blob 對(duì)象，用以展示 canvas 上的圖片；這個(gè)圖片文件可以被緩存或保存到本地，由用戶代理端自行決定。第二個(gè)參數(shù)指定圖片格式，如不特別指明，圖片的類型默認(rèn)為 image/png，分辨率為 96dpi。第三個(gè)參數(shù)用于針對(duì)image/jpeg 格式的圖片進(jìn)行輸出圖片的質(zhì)量設(shè)置。

function canvas2Blob(canvas, callback, quality, type){
  canvas.toBlob(function(blob) {
    callback(blob);
  }, type || 'image/jpeg', quality || 0.8);
}

為兼容低版本瀏覽器，作為 toBlob 的 polyfill 方案，可以用上面 data URL 生成 Blob 方法 dataUrl2Blob 作為HTMLCanvasElement 原型方法。

if (!HTMLCanvasElement.prototype.toBlob) {
 Object.defineProperty(HTMLCanvasElement.prototype, 'toBlob', {
  value: function (callback, type, quality) {
    let dataUrl = this.toDataURL(type, quality);
    callback(dataUrl2Blob(dataUrl));
  }
 });
}

blob2DataUrl(blob, callback)

將 Blob 對(duì)象轉(zhuǎn)化成 data URL 數(shù)據(jù)，由于 FileReader 的實(shí)例 readAsDataURL 方法不僅支持讀取文件，還支持讀取 Blob 對(duì)象數(shù)據(jù)，這里復(fù)用上面 file2DataUrl 方法即可：

function blob2DataUrl(blob, callback) {
  file2DataUrl(blob, callback);
}

blob2Image(blob, callback)

將 Blob 對(duì)象轉(zhuǎn)化成 Image 對(duì)象，可通過(guò) URL 對(duì)象引用文件，也支持引用 Blob 這樣的類文件對(duì)象，同樣，這里復(fù)用上面 file2Image 方法即可：

function blob2Image(blob, callback) {
  file2Image(blob, callback);
}

upload(url, file, callback)

上傳圖片（已壓縮），可以使用 FormData 傳入文件對(duì)象，通過(guò) XHR 直接把文件上傳到服務(wù)器。

function upload(url, file, callback) {
  var xhr = new XMLHttpRequest();
  var fd = new FormData();
  fd.append('file', file);
  xhr.onreadystatechange = function () {
    if (xhr.readyState === 4 && xhr.status === 200) {
      // 上傳成功
      callback && callback(xhr.responseText);
    } else {
      throw new Error(xhr);
    }
  }
  xhr.open('POST', url, true);
  xhr.send(fd);
}

也可以使用 FileReader 讀取文件內(nèi)容，轉(zhuǎn)化成二進(jìn)制上傳

function upload(url, file) {
  var reader = new FileReader();
  var xhr = new XMLHttpRequest();

  xhr.open('POST', url, true);
  xhr.overrideMimeType('text/plain; charset=x-user-defined-binary');

  reader.onload = function() {
    xhr.send(reader.result);
  };
  reader.readAsBinaryString(file);
}

實(shí)現(xiàn)簡(jiǎn)易圖片壓縮

在熟悉以上各種圖片轉(zhuǎn)化方法的具體實(shí)現(xiàn)，將它們封裝在一個(gè)公用對(duì)象 util 里，再結(jié)合壓縮轉(zhuǎn)化流程圖，這里我們可以簡(jiǎn)單實(shí)現(xiàn)圖片壓縮了：首先將上傳圖片轉(zhuǎn)化成 Image 對(duì)象，再將寫(xiě)入到 Canvas 畫(huà)布，最后由 Canvas 對(duì)象 API 對(duì)圖片的大小和尺寸輸出調(diào)整，實(shí)現(xiàn)壓縮目的。

/**
 * 簡(jiǎn)易圖片壓縮方法
 * @param {Object} options 相關(guān)參數(shù)
 */
(function (win) {
  var REGEXP_IMAGE_TYPE = /^image\//;
  var util = {};
  var defaultOptions = {
    file: null,
    quality: 0.8
  };
  var isFunc = function (fn) { return typeof fn === 'function'; };
  var isImageType = function (value) { return REGEXP_IMAGE_TYPE.test(value); };

  /**
   * 簡(jiǎn)易圖片壓縮構(gòu)造函數(shù)
   * @param {Object} options 相關(guān)參數(shù)
   */
  function SimpleImageCompressor(options) {
    options = Object.assign({}, defaultOptions, options);
    this.options = options;
    this.file = options.file;
    this.init();
  }

  var _proto = SimpleImageCompressor.prototype;
  win.SimpleImageCompressor = SimpleImageCompressor;

  /**
   * 初始化
   */
  _proto.init = function init() {
    var _this = this;
    var file = this.file;
    var options = this.options;

    if (!file || !isImageType(file.type)) {
      console.error('請(qǐng)上傳圖片文件!');
      return;
    }

    if (!isImageType(options.mimeType)) {
      options.mimeType = file.type;
    }

    util.file2Image(file, function (img) {
      var canvas = util.image2Canvas(img);
      file.width = img.naturalWidth;
      file.height = img.naturalHeight;
      _this.beforeCompress(file, canvas);

      util.canvas2Blob(canvas, function (blob) {
        blob.width = canvas.width;
        blob.height = canvas.height;
        options.success && options.success(blob);
      }, options.quality, options.mimeType)
    })
  }

  /**
   * 壓縮之前，讀取圖片之后鉤子函數(shù)
   */
  _proto.beforeCompress = function beforeCompress() {
    if (isFunc(this.options.beforeCompress)) {
      this.options.beforeCompress(this.file);
    }
  }

  // 省略 `util` 公用方法定義
  // ...

  // 將 `util` 公用方法添加到實(shí)例的靜態(tài)屬性上
  for (key in util) {
    if (util.hasOwnProperty(key)) {
      SimpleImageCompressor[key] = util[key];
    }
  }
})(window)

這個(gè)簡(jiǎn)易圖片壓縮方法調(diào)用和入?yún)ⅲ?/p>

var fileEle = document.getElementById('file');

fileEle.addEventListener('change', function () {
  file = this.files[0];

  var options = {
    file: file,
    quality: 0.6,
    mimeType: 'image/jpeg',
    // 壓縮前回調(diào)
    beforeCompress: function (result) {
      console.log('壓縮之前圖片尺寸大小: ', result.size);
      console.log('mime 類型: ', result.type);
      // 將上傳圖片在頁(yè)面預(yù)覽
      // SimpleImageCompressor.file2DataUrl(result, function (url) {
      //   document.getElementById('origin').src = url;
      // })
    },
    // 壓縮成功回調(diào)
    success: function (result) {
      console.log('壓縮之后圖片尺寸大小: ', result.size);
      console.log('mime 類型: ', result.type);
      console.log('壓縮率： ', (result.size / file.size * 100).toFixed(2) + '%');

      // 生成壓縮后圖片在頁(yè)面展示
      // SimpleImageCompressor.file2DataUrl(result, function (url) {
      //   document.getElementById('output').src = url;
      // })

      // 上傳到遠(yuǎn)程服務(wù)器
      // SimpleImageCompressor.upload('/upload.png', result);
    }
  };

  new SimpleImageCompressor(options);
}, false);

如果看到這里的客官不嫌棄這個(gè) demo 太簡(jiǎn)單可以戳這里試試水。如果你有足夠的耐心多傳幾種類型圖片就會(huì)發(fā)現(xiàn)還存在如下問(wèn)題：

壓縮輸出圖片寸尺固定為原始圖片尺寸大小，而實(shí)際可能需要控制輸出圖片尺寸，同時(shí)達(dá)到尺寸也被壓縮目的；
png 格式圖片同格式壓縮，壓縮率不高，還有可能出現(xiàn)“不減反增”現(xiàn)象；
有些情況，其他格式轉(zhuǎn)化成 png 格式也會(huì)出現(xiàn)“不減反增”現(xiàn)象；
大尺寸 png 格式圖片在一些手機(jī)上，壓縮后出現(xiàn)“黑屏”現(xiàn)象；

改進(jìn)版圖片壓縮

俗話說(shuō)“羅馬不是一天建成的”，通過(guò)上述實(shí)驗(yàn)，我們發(fā)現(xiàn)了很多不足，下面將逐條問(wèn)題分析，尋求解決方案。

壓縮輸出圖片寸尺固定為原始圖片尺寸大小，而實(shí)際可能需要控制輸出圖片尺寸，同時(shí)達(dá)到尺寸也被壓縮目的；

為了避免壓縮圖片變形，一般采用等比縮放，首先要計(jì)算出原始圖片寬高比 aspectRatio，用戶設(shè)置的高層以 aspectRatio，得出等比縮放后的寬，若比用戶設(shè)置寬的小，則用戶設(shè)置的高為為基準(zhǔn)縮放，否則以寬為基準(zhǔn)縮放。

var aspectRatio = naturalWidth / naturalHeight;
var width = Math.max(options.width, 0) || naturalWidth;
var height = Math.max(options.height, 0) || naturalHeight;
if (height * aspectRatio > width) {
  height = width / aspectRatio;
} else {
  width = height * aspectRatio;
}

輸出圖片的尺寸確定了，接下來(lái)就是按這個(gè)尺寸創(chuàng)建一個(gè) Canvas 畫(huà)布，將圖片畫(huà)上去。這里可以將上面提到的 image2Canvas 方法稍微做一下改造：

function image2Canvas(image, destWidth, destHeight) {
  var canvas = document.createElement('canvas');
  var ctx = canvas.getContext('2d');
  canvas.width = destWidth || image.naturalWidth;
  canvas.height = destHeight || image.naturalHeight;
  ctx.drawImage(image, 0, 0, canvas.width, canvas.height);
  return canvas;
}

png 格式圖片同格式壓縮，壓縮率不高，還有可能出現(xiàn)“不減反增”現(xiàn)象

一般的，不建議將 png 格式圖片壓縮成自身格式，這樣壓縮率不理想，有時(shí)反而會(huì)造成自身質(zhì)量變得更大。

因?yàn)槲覀冊(cè)凇熬唧w實(shí)現(xiàn)”中兩個(gè)有關(guān)壓縮關(guān)鍵 API：

toBlob(callback, [type], [encoderOptions]) 參數(shù) encoderOptions 用于針對(duì)image/jpeg 格式的圖片進(jìn)行輸出圖片的質(zhì)量設(shè)置；
toDataURL(type, encoderOptions 參數(shù)encoderOptions 在指定圖片格式為 image/jpeg 或 image/webp 的情況下，可以從 0 到 1 的區(qū)間內(nèi)選擇圖片的質(zhì)量。

均未對(duì) png 格式圖片有壓縮效果。

有個(gè)折衷的方案，我們可以設(shè)置一個(gè)閾值，如果 png 圖片的質(zhì)量小于這個(gè)值，就還是壓縮輸出 png 格式，這樣最差的輸出結(jié)果不至于質(zhì)量太大，在此基礎(chǔ)上，如果壓縮后圖片大小 “不減反增”，我們就兜底處理輸出源圖片給用戶。當(dāng)圖片質(zhì)量大于某個(gè)值時(shí)，我們壓縮成 jpeg 格式。

// `png` 格式圖片大小超過(guò) `convertSize`, 轉(zhuǎn)化成 `jpeg` 格式
if (file.size > options.convertSize && options.mimeType === 'image/png') {
  options.mimeType = 'image/jpeg';
}
// 省略一些代碼
// ...
// 用戶期待的輸出寬高沒(méi)有大于源圖片的寬高情況下，輸出文件大小大于源文件，返回源文件
if (result.size > file.size && !(options.width > naturalWidth || options.height > naturalHeight)) {
  result = file;
}

大尺寸 png 格式圖片在一些手機(jī)上，壓縮后出現(xiàn)“黑屏”現(xiàn)象；

由于各大瀏覽器對(duì) Canvas 最大尺寸支持不同

如果圖片尺寸過(guò)大，再創(chuàng)建同尺寸畫(huà)布，再畫(huà)上圖片，就會(huì)出現(xiàn)異常情況，即生成的畫(huà)布沒(méi)有圖片像素，而畫(huà)布本身默認(rèn)給的背景色為黑色，這樣就導(dǎo)致圖片“黑屏”情況。

這里可以通過(guò)控制輸出圖片最大寬高防止生成畫(huà)布越界，并且用透明色覆蓋默認(rèn)黑色背景解決解決“黑屏”問(wèn)題：

// ...
// 限制最小和最大寬高
var maxWidth = Math.max(options.maxWidth, 0) || Infinity;
var maxHeight = Math.max(options.maxHeight, 0) || Infinity;
var minWidth = Math.max(options.minWidth, 0) || 0;
var minHeight = Math.max(options.minHeight, 0) || 0;

if (maxWidth < Infinity && maxHeight < Infinity) {
  if (maxHeight * aspectRatio > maxWidth) {
    maxHeight = maxWidth / aspectRatio;
  } else {
    maxWidth = maxHeight * aspectRatio;
  }
} else if (maxWidth < Infinity) {
  maxHeight = maxWidth / aspectRatio;
} else if (maxHeight < Infinity) {
  maxWidth = maxHeight * aspectRatio;
}

if (minWidth > 0 && minHeight > 0) {
  if (minHeight * aspectRatio > minWidth) {
    minHeight = minWidth / aspectRatio;
  } else {
    minWidth = minHeight * aspectRatio;
  }
} else if (minWidth > 0) {
  minHeight = minWidth / aspectRatio;
} else if (minHeight > 0) {
  minWidth = minHeight * aspectRatio;
}

width = Math.floor(Math.min(Math.max(width, minWidth), maxWidth));
height = Math.floor(Math.min(Math.max(height, minHeight), maxHeight));

// ...
// 覆蓋默認(rèn)填充顏色 (#000)
var fillStyle = 'transparent';
context.fillStyle = fillStyle;

到這里，上述的意外問(wèn)題被我們一一解決了，如需體驗(yàn)改進(jìn)版的圖片壓縮 demo 的小伙伴可以戳這里

總結(jié)

我們梳理了通過(guò)頁(yè)面標(biāo)簽 <input type="file" /> 上傳本地圖片到圖片被壓縮整個(gè)過(guò)程，也覆蓋到了在實(shí)際使用中還存在的一些意外情況，提供了相應(yīng)的解決方案。將改進(jìn)版圖片壓縮整理成插件，已上傳 npm ，可通過(guò) npm install js-image-compressor -D 安裝使用。整理匆忙，如有問(wèn)題歡迎大家指正，完～

作者：wuwhs

轉(zhuǎn)發(fā)鏈接：https://segmentfault.com/a/1190000023486410

ython作為一門高級(jí)編程語(yǔ)言，它的定位是優(yōu)雅、明確和簡(jiǎn)單。我學(xué)用python差不多一年時(shí)間了，用得最多的還是各類爬蟲(chóng)腳本：寫(xiě)過(guò)抓代理本機(jī)驗(yàn)證的腳本，寫(xiě)過(guò)論壇中自動(dòng)登錄自動(dòng)發(fā)貼的腳本，寫(xiě)過(guò)自動(dòng)收郵件的腳本，寫(xiě)過(guò)簡(jiǎn)單的驗(yàn)證碼識(shí)別的腳本。

這些腳本有一個(gè)共性，都是和web相關(guān)的，總要用到獲取鏈接的一些方法，故累積了不少爬蟲(chóng)抓站的經(jīng)驗(yàn)，在此總結(jié)一下，那么以后做東西也就不用重復(fù)勞動(dòng)了。

下面分享一個(gè)小案例，實(shí)現(xiàn)爬取網(wǎng)站里面的圖片，包括源碼及實(shí)現(xiàn)思路。

一、還原手工操作

所謂爬取頁(yè)面圖片，正常人手動(dòng)操作可以分為兩步：

1.打開(kāi)頁(yè)面

2.選中圖片下載到指定文件夾

用代碼實(shí)現(xiàn)的話可以節(jié)省掉每次下載圖片的操作，運(yùn)行代碼實(shí)現(xiàn)批量下載。

二、設(shè)計(jì)代碼實(shí)現(xiàn)

步驟一：導(dǎo)入相關(guān)庫(kù)操作

import urllib #導(dǎo)入urllib包

import urllib.request#導(dǎo)入urllib包里的request方法

import re #導(dǎo)入re正則庫(kù)

步驟二：定義解析頁(yè)面 load_page（）

這個(gè)函數(shù)實(shí)現(xiàn)打開(kāi)傳入的路徑并將頁(yè)面數(shù)據(jù)讀取出來(lái)，實(shí)現(xiàn)代碼，包括發(fā)送請(qǐng)求，打開(kāi)頁(yè)面，獲取數(shù)據(jù)。

代碼實(shí)現(xiàn)：

def load_page(url):

request=urllib.request.Request(url)#發(fā)送url請(qǐng)求

response=urllib.request.urlopen(request)#打開(kāi)url網(wǎng)址

data=response.read()#讀取頁(yè)面數(shù)據(jù)

return data#返回頁(yè)面數(shù)據(jù)

步驟三：定義get_image()函數(shù)

首先利用正則表達(dá)式匹配圖片路徑并存到數(shù)組中。

其次遍歷數(shù)組實(shí)現(xiàn)圖片下載操作。

代碼實(shí)現(xiàn)：

def get_image(html):

regx=r'http://[\S]*jpg' #定義正則匹配公式

pattern=re.compile(regx)#構(gòu)造匹配模式，速度更快

get_image=re.findall(pattern,repr(html))#repr（）將內(nèi)容轉(zhuǎn)化為字符串形式，findall列表形式展示正則表達(dá)式匹配的結(jié)果

num=1 #定義變量控制循環(huán)

for img in get_image: #定義變量遍歷數(shù)組

image=load_page(img)#將圖片路徑傳入加載函數(shù)

with open('F:\photo\%s.jpg'%num,'wb') as fb: #以只讀方式打開(kāi)圖片并命名

fb.write(image) #寫(xiě)入內(nèi)容

print('正在下載第%s張圖片'%num)

num=num+1 #變量遞增

print("下載完成")

步驟四：函數(shù)調(diào)用

#調(diào)用函數(shù)

url='http://p.weather.com.cn/2019/10/3248439.shtml' #傳入url路徑

html=load_page(url)#加載頁(yè)面

get_image(html)#圖片下載

關(guān)鍵單詞釋義

如果第一次接觸爬蟲(chóng)代碼，相信有幾個(gè)單詞大家很陌生，為了方便記憶我把他們歸類到一起加深印象，你也可以拿出一張白紙?jiān)囍貞浿?/p>

1.爬蟲(chóng)協(xié)議庫(kù)ulrlib、urllib.request

2.正則匹配庫(kù)rb

3.發(fā)送請(qǐng)求方法request（）

4.打開(kāi)頁(yè)面方法urlopen（）

5.讀取數(shù)據(jù)方法read（）

6.正則表達(dá)式-所有圖片【\S】*.jpg

7.匹配模式定義compile（）

8.查找匹配findall（）

9.循環(huán)遍歷語(yǔ)句 for a in b

10.打開(kāi)文件并命名 with open（）... as fb

11.寫(xiě)到... write*()

12.輸出語(yǔ)句 print（）

到現(xiàn)在為止可以把我上面的代碼在pycharm中打開(kāi)嘗試著運(yùn)行起來(lái)吧！

最后，有2個(gè)報(bào)錯(cuò)信息匯總供參考：

1. module 'urllib' has no attribute 'requset'

定位到當(dāng)行語(yǔ)句，發(fā)現(xiàn)request 單詞拼寫(xiě)錯(cuò)誤。

2. 沒(méi)有報(bào)錯(cuò)，但是圖片沒(méi)有下載成功

重新檢查代碼，發(fā)現(xiàn)正則表達(dá)式寫(xiě)的有錯(cuò)誤，記住是大寫(xiě)的S修改完之后看效果。

我是誰(shuí)？

我是一名從事了多年軟件測(cè)試的老測(cè)試員，今年年初我花了一個(gè)月整理了一份最適合2020年學(xué)習(xí)的軟件測(cè)試學(xué)習(xí)干貨，可以送給每一位對(duì)軟件測(cè)試感興趣的小伙伴，想要獲取的可以關(guān)注我的頭條號(hào)+私信：【測(cè)試】，即可免費(fèi)獲取。

在線咨詢

上一篇：用html代碼編寫(xiě)的免費(fèi)軟件下載和安裝教程
下一篇：用HTML制作一個(gè)簡(jiǎn)單頁(yè)面（代碼閱讀練習(xí)）-零基礎(chǔ)自學(xué)網(wǎng)頁(yè)制作

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫(xiě)需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營(yíng)銷服務(wù)商