整合營銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          手把手教你利用Python爬蟲采集二次元美女壁紙

          權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。

          本文鏈接:

          https://blog.csdn.net/LOVEmy134611/article/details/118540051

          前言

          (又到了常見的無中生友環(huán)節(jié)了)我有一個(gè)朋友,最近沉迷二次元,想要與喜歡的二次元角色度過一生,就像11區(qū)與初音未來結(jié)婚的阿宅那樣。于是作為為朋友兩肋插刀的正義的化身,決定為其充滿魔幻現(xiàn)實(shí)的人生再添加一抹亮色,讓他深陷其中無法自拔,于是在二次元的宇宙里,幫他用Python獲取了二次元女友(們)。

          私信小編01即可獲取大量Python學(xué)習(xí)資源

          盡管二次元知識(shí)人類幻想出來的唯美世界,但其本質(zhì)上還是我們心中模糊的對(duì)夢(mèng)想生活的憧憬和對(duì)美好未來的期望,這卡哇伊的顏,愛了愛了,我給你講。


          程序說明

          通過爬取知名二次元網(wǎng)站——觸站,獲取高清動(dòng)漫圖片,并將獲取的webp格式的圖片轉(zhuǎn)化為更為常見的png格式圖片。

          二次元女友獲取程序

          使用requests庫請(qǐng)求網(wǎng)頁內(nèi)容,使用BeautifulSoup4解析網(wǎng)頁,最后使用PIL庫將webp格式的圖片轉(zhuǎn)化為更為常見的png格式圖片。

          觀察網(wǎng)頁結(jié)構(gòu)

          首先選擇想要獲取的圖片類型,這里已女孩子為例,當(dāng)然大家也可以選擇生活或者腳掌,甚至是男孩子。

          進(jìn)入女孩子標(biāo)簽頁面,觀察頁面鏈接,爬取多個(gè)頁面,查看第2頁鏈接為:

          https://www.huashi6.com/tags/161?p=2

          第3頁鏈接為:

          https://www.huashi6.com/tags/161?p=3

          可以看出,不同頁面網(wǎng)址僅改變了頁面數(shù)字,因此可以構(gòu)造如下模式,并使用循環(huán),爬取所有頁面:

          url_pattern = "https://www.huashi6.com/tags/161?p={}"
          for i in range(1, 20):
              url = url_pattern.format(i)

          接下來,在爬取網(wǎng)頁前,使用瀏覽器“開發(fā)者工具”,觀察網(wǎng)頁結(jié)構(gòu)。首先嘗試定位圖片元素:


          于是自然想到使用
          find_all語法獲取所有class=‘v-lazy-img v-lazy-image-loaded’的標(biāo)簽:

          img_url = soup.find_all('img', attr={'class': 'v-lazy-img v-lazy-image-loaded'})

          但是發(fā)現(xiàn)并未成功獲取,于是經(jīng)過進(jìn)一步探索發(fā)現(xiàn),其圖片信息是在script元素中動(dòng)態(tài)加載的:


          需要注意的是,在請(qǐng)求頁面時(shí),可以在構(gòu)造請(qǐng)求頭時(shí),添加
          'Cookie'鍵值,但是沒有此鍵值也能夠運(yùn)行。

          headers = {
              'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0',
              # 根據(jù)自己的情況修改Cookie值
              #'Cookie':''
          }
          url_pattern = "https://www.huashi6.com/tags/161"
          response = requests.get(url=url, headers=headers)

          頁面解析

          使用beautifulsoup解析頁面,獲取JS中所需數(shù)據(jù):

          results = soup.find_all('script')[1]

          為了能夠使用re解析獲取內(nèi)容,需要將內(nèi)容轉(zhuǎn)換為字符串:

          image_dirty = str(results)

          接下來構(gòu)造正則表達(dá)式獲取圖片地址:

          pattern = re.compile(item, re.I|re.M)

          然后查找所有的圖片地址:

          result_list = pattern.findall(image_dirty)

          為了方便獲取所需字段,構(gòu)造解析函數(shù)

          def analysis(item,results):
              pattern = re.compile(item, re.I|re.M)
              result_list = pattern.findall(results)
              return result_list

          打印獲取的圖片地址:

          urls  = analysis(r'"path":"(.*?)"', image_dirty)
          urls[0:1]

          發(fā)現(xiàn)一堆奇怪的字符:

          'images\u002Fresource\u002F2021\u002F06\u002F20\u002F906h89635p0.jpg',

          這是由于網(wǎng)頁編碼的原因造成的,由于一開始使用utf-8方式解碼網(wǎng)頁,并不能解碼Unicode

          response.encoding = 'utf-8'
          response.raise_for_status()
          soup = BeautifulSoup(response.text, 'html.parser')

          因此雖然可以通過以下方式獲取原始地址:

          url = 'images\u002Fresource\u002F2021\u002F05\u002F22\u002F90h013034p0.jpg'
          decodeunichars = url.encode('utf-8').decode('unicode-escape')

          但是我們可以通過response.encoding = 'unicode-escape'進(jìn)行更簡單的解碼,缺點(diǎn)是網(wǎng)頁的許多中文字符會(huì)變成亂碼,但是字不重要不是么?看圖!

          創(chuàng)建圖片保存路徑

          為了下載圖片,首先創(chuàng)建圖片保存路徑:

          # 創(chuàng)建圖片保存路徑
          if not os.path.exists(webp_file):
              os.makedirs(webp_file, exist_ok=True)
          if not os.path.exists(png_file):
              os.makedirs(png_file, exist_ok=True)

          圖片下載

          當(dāng)我們使用另存為選項(xiàng)時(shí),發(fā)現(xiàn)格式為webp,但是上述獲取的圖片地址為jpgpng,如果直接存儲(chǔ)為jpgpng格式,會(huì)導(dǎo)致格式錯(cuò)誤。

          因此需要重新構(gòu)建webp格式的文件名:

          name = img.split('/')[-1]
          name = name.split('.')[0]
          name_webp = name + '.webp'

          由于獲取的圖片地址并不完整,需要添加網(wǎng)站主頁來構(gòu)建圖片地址:

          from urllib.request import urljoin
          domain = 'https://img2.huashi6.com'
          img_url = urljoin(domain,img)

          接下來就是下載圖片了:

          r = requests.get(img_url,headers=headers)
          if r.status_code == 200:
            with open(name_webp, 'wb') as f:
              f.write(r.content)

          格式轉(zhuǎn)換

          最后,由于得到的圖片是webp格式的,如果希望得到更加常見的png格式,需要使用PIL庫進(jìn)行轉(zhuǎn)換:

          image_wepb = Image.open(name_webp)
          image_wepb.save(name_png)

          爬取結(jié)果展示

          完整程序

          import time
          import requests
          from bs4 import BeautifulSoup
          import os
          import re
          from urllib.request import urljoin
          from PIL import Image
          
          
          webp_file = 'girlfriends_webp'
          png_file = 'girlfriends_png'
          
          
          print(os.getcwd())
          
          
          # 創(chuàng)建圖片保存路徑
          if not os.path.exists(webp_file):
              os.makedirs(webp_file, exist_ok=True)
          if not os.path.exists(png_file):
              os.makedirs(png_file, exist_ok=True)
          
          
          headers = {
              'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0',
              #'Cookie':''
              'Connection': 'keep-alive'
          }
          url_pattern = "https://www.huashi6.com/tags/161?p={}"
          
          
          domain = 'https://img2.huashi6.com'
          
          
          # 圖片地址獲取函數(shù)
          def analysis(item,results):
              pattern = re.compile(item, re.I|re.M)
              result_list = pattern.findall(results)
              return result_list
              
          # 圖片格式轉(zhuǎn)換函數(shù)
          def change_webp2png(name_webp, name_png, img_url):
              try:
                  image_wepb = Image.open(name_webp)
                  image_wepb.save(name_png)
              except:
                  download_image(name_webp, name_png, img_url)
          
          
          # 圖片下載函數(shù)
          def download_image(name_webp, name_png, img_url):
              if not os.path.exists(name_png):
                  if os.path.exists(name_webp):
                      os.remove(name_webp)
                  print(img_url)
                  r = requests.get(img_url,headers=headers)
                  # print(r.content)
                  time.sleep(5)
                  if r.status_code == 200:
                      with open(name_webp, 'wb') as f:
                          f.write(r.content)
                  change_webp2png(name_webp, name_png, img_url)
          
          
          for i in range(1, 20):
              time.sleep(5)
              url = url_pattern.format(i)
              response = requests.get(url=url, headers=headers)
              # 解碼
              # response.encoding = 'utf-8'
              response.encoding = 'unicode-escape'
              response.raise_for_status()
              soup = BeautifulSoup(response.text, 'html.parser')
          
          
              results = soup.find_all('script')
          
          
              image_dirty = str(results[1])
          
          
              urls  = analysis(r'"path":"(.*?)"', image_dirty)[:20]
          
          
              for img in urls:
                  img_url = urljoin(domain,img)
          
          
                  # 獲取文件名
                  name = img.split('/')[-1]
                  name = name.split('.')[0]
                  name_webp = name + '.webp'
                  name_webp = os.path.join(webp_file, name_webp)
                  name_png = name + '.png'
                  name_png = os.path.join(png_file, name_png)
                  download_image(name_webp, name_png, img_url)

          球點(diǎn)贊

          function getMeta(varA, varB) {
           if (typeof varB !== 'undefined') {
           alert(varA + ' width ' + varB + ' height');
           } else {
           var img = new Image();
           img.src = varA;
           img.onload = function() {
           getMeta(this.width, this.height);
           }
           }}getMeta("http://snook.ca/files/mootools_83_snookca.png");

          明:SVG 雖然也是標(biāo)簽,但它不是 HTML5,標(biāo)題加了 HTML5 只是為了與 canvas 放到一起。

          一、為什么要學(xué) SVG ?

          SVG 意為可縮放矢量圖形(Scalable Vector Graphics),使用 XML 格式定義矢量圖形。其他的圖像格式都是基于像素的,但是 SVG 沒有單位的概念,它的20只是表示1的20倍,所以 SVG 繪制的圖形放大或縮小都不會(huì)失真。

          與其他圖像比較,SVG 的優(yōu)勢(shì)有以下幾點(diǎn):

          1. SVG 可以被多個(gè)工具讀取和修改。
          2. SVG 與其他格式圖片相比,尺寸更小,可壓縮性強(qiáng)。
          3. SVG 可任意伸縮。
          4. SVG 圖像可以隨意地高質(zhì)量打印。
          5. SVG 圖像可以添加文本和事件,還可搜索,適合做地圖。
          6. SVG 是純粹的 XML,不是 HTML5。
          7. SVG是W3C標(biāo)準(zhǔn)

          二、SVG 形狀元素

          2.1、svg 標(biāo)簽

          SVG 的代碼都放到 svg 標(biāo)簽?zāi)?,SVG 中的標(biāo)簽都是閉合標(biāo)簽,與html中標(biāo)簽用法一致。svg的屬性有:

          • 有width和height,指定了svg的大小。

          eg:畫一條直線,完整代碼如下:

          <!DOCTYPE html>
          <html lang="en">
          <head>
           <meta charset="UTF-8">
           <meta name="viewport" content="width=device-width, initial-scale=1.0">
           <title>Document</title>
          </head>
          <body style="height:600px;">
           <svg width="300" height="300">
            <line x1="0" y1="0" x2="100" y2="100" stroke="black" stroke-width="20"></line>    
           </svg> 
          </body>
          </html>

          上述 svg 設(shè)置的寬高沒有帶單位,此時(shí)默認(rèn)是像素值,如果需要添加單位時(shí),除了絕對(duì)單位,也可以設(shè)置相對(duì)單位。

          • viewBox 屬性

          使用語法:<svg viewBox=" x1,y1,width,height "></svg>

          四個(gè)參數(shù)分別是左上角的橫縱坐標(biāo)、視口的寬高。表示只看SVG的某一部分,由上述四個(gè)參數(shù)決定。

          使用 viewBox 之后,相當(dāng)于svg整體大小不變,只能看到 viewBox 設(shè)置部分,視覺上被放大。

          2.2、SVG 如何嵌入 HTML

          SVG 的代碼可以直接嵌入到 html 頁面中,也可以通過 html 的embed、object、iframe嵌入到html中。嵌入的時(shí)候嵌入的是 SVG 文件,SVG 文件必須使用 .svg 后綴。分別介紹各種方法如何使用?

          2.2.1、embed 嵌入:

          使用語法:<embed src="line.svg" type="image/svg+xml"></embed>

          src是SVG文件路徑,type 表示 embed 引入文件類型。

          優(yōu)點(diǎn):所有瀏覽器都支持,并允許使用腳本。

          缺點(diǎn):不推薦 html4 和 html 中使用,但 html5 支持。

          2.2.2、object 嵌入:

          使用語法:<object data="line.svg" type="image/svg+xml"></object>

          data 是 SVG 文件路徑,type 表示 object 引入文件類型。

          優(yōu)點(diǎn):所有瀏覽器都支持,支持 html、html4 和 html5。

          缺點(diǎn):不允許使用腳本。

          2.2.3、iframe 嵌入:

          使用語法:<iframe width="300" height="300" src="./line.svg" frameborder="0"></iframe>

          src是 SVG 文件路徑,width、height、frameborder 設(shè)置的大小和邊框。

          優(yōu)點(diǎn):所有瀏覽器都支持,并允許使用腳本。

          缺點(diǎn):不推薦 html4 和 html 中使用,但 html5 支持。

          2.2.4、html中嵌入:

          svg 標(biāo)簽直接插入 html 內(nèi)容內(nèi),與其他標(biāo)簽用法一致。

          2.2.5、連接到svg文件:

          使用 a 標(biāo)簽,直接鏈接到 SVG 文件。

          使用語法:<a href="line.svg">查看SVG</a>

          三、SVG形狀元素

          3.1、 - line

          使用語法:
          <svg width="300" height="300" >  
           <line x1="0" y1="0" x2="300" y2="300" stroke="black" stroke-width="20"></line>
          </svg>

          使用line標(biāo)簽創(chuàng)建線條,(x1,y1)是起點(diǎn),(x2,y2)是終點(diǎn),stroke繪制黑線,stroke-width是線寬。

          3.2、矩形 - rect

          //使用語法:
          <svg width="300" height="300" >
          <rect 
           width="100" height="100"  //大小設(shè)置
           x="50" y="50"  //可選 左上角位置,svg的左上角默認(rèn)(0,0)
           rx="20" ry="50" //可選 設(shè)置圓角
           stroke-width="3" stroke="red" fill="pink" //繪制樣式控制
          ></rect>
          </svg>

          上述參數(shù) width、height是必填參數(shù),x、y是可選參數(shù),如不設(shè)置的時(shí)候,默認(rèn)為(0,0),也就是svg的左上角開始繪制。rx、ry是可選參數(shù),不設(shè)置是矩形沒有圓角。fill定義填充顏色。

          3.3、圓形 - circle

          // 使用語法
          <svg width="300" height="300" >
           <circle 
            cx="100" cy="50" // 定義圓心 ,可選
            r="40" // 圓的半徑
            stroke="black" stroke-width="2" fill="red"/> //繪制黑框填充紅色
          </svg>

          上述(cx,xy)定義圓心的位置,是可選參數(shù),如果不設(shè)置默認(rèn)圓心是(0,0)。r是必需參數(shù),設(shè)置圓的半徑。

          3.4、橢圓 - ellipse

          橢圓與圓相似,不同之處在于橢圓有不同的x和y半徑,而圓兩個(gè)半徑是相同的。

          // 使用語法
          <svg width="300" height="300" >
           <ellipse 
            rx="20" ry="100" //設(shè)置橢圓的x、y方向的半徑
            fill="purple" // 橢圓填充色
            cx="150" cy="150" //設(shè)置橢圓的圓心 ,可選參數(shù)
           ></ellipse>
          </svg>

          上述橢圓的兩個(gè)rx、ry兩個(gè)方向半徑是必須參數(shù),如果rx=ry就表示是圓形,(cx,cy)是橢圓的圓心,是可選參數(shù),如果不設(shè)置,則默認(rèn)圓心為(0,0)。

          3.5、折線 - polyline

          // 使用語法
          <svg width="300" height="300" style="border:solid 1px red;">
            <!-- 繪制出一個(gè)默認(rèn)填充黑色的三角形 -->
           <polyline 
            points=" //點(diǎn)的集合
             0 ,0, // 第一個(gè)點(diǎn)坐標(biāo)
             100,100, // 第二個(gè)點(diǎn)坐標(biāo)
             100,200 // 第三個(gè)點(diǎn)坐標(biāo)
              " 
            stroke="green" 
           ></polyline>
          <!-- 繪制一個(gè)臺(tái)階式的一條折線 -->
           <polyline 
            points="0,0,50,0,50,50,100,50,100,100,150,100,150,150" 
            stroke="#4b27ff" fill="none"
           ></polyline>
          </svg>

          上述代碼執(zhí)行結(jié)果如圖所示:

          需要注意的是 points 中包含了多個(gè)點(diǎn)的坐標(biāo),但不是一個(gè)數(shù)組。

          3.6、多邊形 - polygon

          polygon 標(biāo)簽用來創(chuàng)建不少于3個(gè)邊的圖形,多邊形是閉合的,即所有線條連接起來。

          // 使用語法
          <svg width="300" height="300" style="border:solid 1px red;">
           <polygon 
            points="
              0,0,   //多邊形的第一點(diǎn)
             100,100,  //多邊形的第二點(diǎn)
              0,100  //多邊形的第三點(diǎn)
            " 
          	stroke="purple"
          	stroke-width="1"
          	fill="none"
           ></polygon>
          </svg>

          polygon繪制的時(shí)候與折線有些類似,但是polygon會(huì)自動(dòng)閉合,折線不會(huì)。

          3.7、路徑 - path

          path 是SVG基本形狀中最強(qiáng)大的一個(gè),不僅能創(chuàng)建其他基本形狀,還能創(chuàng)建更多其他形狀,如貝塞爾曲線、2次曲線等。

          點(diǎn)個(gè)關(guān)注,下篇更精彩!


          主站蜘蛛池模板: 国精产品999一区二区三区有限| 国产色情一区二区三区在线播放| 久久精品无码一区二区三区免费 | 日韩精品一区二区午夜成人版| 无码一区二区三区中文字幕| 亚洲AV日韩精品一区二区三区| 国产一区二区三区在线2021| 精品人妻AV一区二区三区| 欧美日韩精品一区二区在线观看| 在线观看国产一区亚洲bd| 中文字幕精品无码一区二区三区| 亚洲熟妇成人精品一区| 国产在线精品一区二区高清不卡 | 亲子乱av一区二区三区| 免费无码一区二区三区蜜桃大| 成人区精品一区二区不卡| 国产成人精品亚洲一区| 蜜臀AV在线播放一区二区三区| 视频一区二区三区在线观看| 中文字幕精品一区二区日本| 中文字幕精品一区二区三区视频| 精品国产一区二区麻豆| 亚洲国产激情在线一区| 国产精品熟女一区二区| 无码国产精品一区二区免费16 | 精品国产精品久久一区免费式| 91成人爽a毛片一区二区| 日本免费一区二区三区| 精品视频无码一区二区三区| 国产一区二区三区夜色| 波多野结衣高清一区二区三区 | 本免费AV无码专区一区| 又紧又大又爽精品一区二区| 日本免费一区尤物| 国产成人高清亚洲一区久久| 福利国产微拍广场一区视频在线 | 国产亚洲一区二区三区在线不卡| 91国在线啪精品一区| 久久se精品动漫一区二区三区| 国产一区二区三区久久| 中文字幕AV无码一区二区三区|