本文鏈接:
https://blog.csdn.net/LOVEmy134611/article/details/118540051
(又到了常見的無中生友環(huán)節(jié)了)我有一個(gè)朋友,最近沉迷二次元,想要與喜歡的二次元角色度過一生,就像11區(qū)與初音未來結(jié)婚的阿宅那樣。于是作為為朋友兩肋插刀的正義的化身,決定為其充滿魔幻現(xiàn)實(shí)的人生再添加一抹亮色,讓他深陷其中無法自拔,于是在二次元的宇宙里,幫他用Python獲取了二次元女友(們)。
私信小編01即可獲取大量Python學(xué)習(xí)資源
盡管二次元知識(shí)人類幻想出來的唯美世界,但其本質(zhì)上還是我們心中模糊的對(duì)夢(mèng)想生活的憧憬和對(duì)美好未來的期望,這卡哇伊的顏,愛了愛了,我給你講。
通過爬取知名二次元網(wǎng)站——觸站,獲取高清動(dòng)漫圖片,并將獲取的webp格式的圖片轉(zhuǎn)化為更為常見的png格式圖片。
使用requests庫請(qǐng)求網(wǎng)頁內(nèi)容,使用BeautifulSoup4解析網(wǎng)頁,最后使用PIL庫將webp格式的圖片轉(zhuǎn)化為更為常見的png格式圖片。
首先選擇想要獲取的圖片類型,這里已女孩子為例,當(dāng)然大家也可以選擇生活或者腳掌,甚至是男孩子。
進(jìn)入女孩子標(biāo)簽頁面,觀察頁面鏈接,爬取多個(gè)頁面,查看第2頁鏈接為:
https://www.huashi6.com/tags/161?p=2
第3頁鏈接為:
https://www.huashi6.com/tags/161?p=3
可以看出,不同頁面網(wǎng)址僅改變了頁面數(shù)字,因此可以構(gòu)造如下模式,并使用循環(huán),爬取所有頁面:
url_pattern = "https://www.huashi6.com/tags/161?p={}"
for i in range(1, 20):
url = url_pattern.format(i)
接下來,在爬取網(wǎng)頁前,使用瀏覽器“開發(fā)者工具”,觀察網(wǎng)頁結(jié)構(gòu)。首先嘗試定位圖片元素:
于是自然想到使用find_all語法獲取所有class=‘v-lazy-img v-lazy-image-loaded’的標(biāo)簽:
img_url = soup.find_all('img', attr={'class': 'v-lazy-img v-lazy-image-loaded'})
但是發(fā)現(xiàn)并未成功獲取,于是經(jīng)過進(jìn)一步探索發(fā)現(xiàn),其圖片信息是在script元素中動(dòng)態(tài)加載的:
需要注意的是,在請(qǐng)求頁面時(shí),可以在構(gòu)造請(qǐng)求頭時(shí),添加'Cookie'鍵值,但是沒有此鍵值也能夠運(yùn)行。
headers = {
'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0',
# 根據(jù)自己的情況修改Cookie值
#'Cookie':''
}
url_pattern = "https://www.huashi6.com/tags/161"
response = requests.get(url=url, headers=headers)
使用beautifulsoup解析頁面,獲取JS中所需數(shù)據(jù):
results = soup.find_all('script')[1]
為了能夠使用re解析獲取內(nèi)容,需要將內(nèi)容轉(zhuǎn)換為字符串:
image_dirty = str(results)
接下來構(gòu)造正則表達(dá)式獲取圖片地址:
pattern = re.compile(item, re.I|re.M)
然后查找所有的圖片地址:
result_list = pattern.findall(image_dirty)
為了方便獲取所需字段,構(gòu)造解析函數(shù)
def analysis(item,results):
pattern = re.compile(item, re.I|re.M)
result_list = pattern.findall(results)
return result_list
打印獲取的圖片地址:
urls = analysis(r'"path":"(.*?)"', image_dirty)
urls[0:1]
發(fā)現(xiàn)一堆奇怪的字符:
'images\u002Fresource\u002F2021\u002F06\u002F20\u002F906h89635p0.jpg',
這是由于網(wǎng)頁編碼的原因造成的,由于一開始使用utf-8方式解碼網(wǎng)頁,并不能解碼Unicode:
response.encoding = 'utf-8'
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
因此雖然可以通過以下方式獲取原始地址:
url = 'images\u002Fresource\u002F2021\u002F05\u002F22\u002F90h013034p0.jpg'
decodeunichars = url.encode('utf-8').decode('unicode-escape')
但是我們可以通過response.encoding = 'unicode-escape'進(jìn)行更簡單的解碼,缺點(diǎn)是網(wǎng)頁的許多中文字符會(huì)變成亂碼,但是字不重要不是么?看圖!
為了下載圖片,首先創(chuàng)建圖片保存路徑:
# 創(chuàng)建圖片保存路徑
if not os.path.exists(webp_file):
os.makedirs(webp_file, exist_ok=True)
if not os.path.exists(png_file):
os.makedirs(png_file, exist_ok=True)
當(dāng)我們使用另存為選項(xiàng)時(shí),發(fā)現(xiàn)格式為webp,但是上述獲取的圖片地址為jpg或png,如果直接存儲(chǔ)為jpg或png格式,會(huì)導(dǎo)致格式錯(cuò)誤。
因此需要重新構(gòu)建webp格式的文件名:
name = img.split('/')[-1]
name = name.split('.')[0]
name_webp = name + '.webp'
由于獲取的圖片地址并不完整,需要添加網(wǎng)站主頁來構(gòu)建圖片地址:
from urllib.request import urljoin
domain = 'https://img2.huashi6.com'
img_url = urljoin(domain,img)
接下來就是下載圖片了:
r = requests.get(img_url,headers=headers)
if r.status_code == 200:
with open(name_webp, 'wb') as f:
f.write(r.content)
最后,由于得到的圖片是webp格式的,如果希望得到更加常見的png格式,需要使用PIL庫進(jìn)行轉(zhuǎn)換:
image_wepb = Image.open(name_webp)
image_wepb.save(name_png)
import time
import requests
from bs4 import BeautifulSoup
import os
import re
from urllib.request import urljoin
from PIL import Image
webp_file = 'girlfriends_webp'
png_file = 'girlfriends_png'
print(os.getcwd())
# 創(chuàng)建圖片保存路徑
if not os.path.exists(webp_file):
os.makedirs(webp_file, exist_ok=True)
if not os.path.exists(png_file):
os.makedirs(png_file, exist_ok=True)
headers = {
'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0',
#'Cookie':''
'Connection': 'keep-alive'
}
url_pattern = "https://www.huashi6.com/tags/161?p={}"
domain = 'https://img2.huashi6.com'
# 圖片地址獲取函數(shù)
def analysis(item,results):
pattern = re.compile(item, re.I|re.M)
result_list = pattern.findall(results)
return result_list
# 圖片格式轉(zhuǎn)換函數(shù)
def change_webp2png(name_webp, name_png, img_url):
try:
image_wepb = Image.open(name_webp)
image_wepb.save(name_png)
except:
download_image(name_webp, name_png, img_url)
# 圖片下載函數(shù)
def download_image(name_webp, name_png, img_url):
if not os.path.exists(name_png):
if os.path.exists(name_webp):
os.remove(name_webp)
print(img_url)
r = requests.get(img_url,headers=headers)
# print(r.content)
time.sleep(5)
if r.status_code == 200:
with open(name_webp, 'wb') as f:
f.write(r.content)
change_webp2png(name_webp, name_png, img_url)
for i in range(1, 20):
time.sleep(5)
url = url_pattern.format(i)
response = requests.get(url=url, headers=headers)
# 解碼
# response.encoding = 'utf-8'
response.encoding = 'unicode-escape'
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
results = soup.find_all('script')
image_dirty = str(results[1])
urls = analysis(r'"path":"(.*?)"', image_dirty)[:20]
for img in urls:
img_url = urljoin(domain,img)
# 獲取文件名
name = img.split('/')[-1]
name = name.split('.')[0]
name_webp = name + '.webp'
name_webp = os.path.join(webp_file, name_webp)
name_png = name + '.png'
name_png = os.path.join(png_file, name_png)
download_image(name_webp, name_png, img_url)
球點(diǎn)贊
function getMeta(varA, varB) { if (typeof varB !== 'undefined') { alert(varA + ' width ' + varB + ' height'); } else { var img = new Image(); img.src = varA; img.onload = function() { getMeta(this.width, this.height); } }}getMeta("http://snook.ca/files/mootools_83_snookca.png");
明:SVG 雖然也是標(biāo)簽,但它不是 HTML5,標(biāo)題加了 HTML5 只是為了與 canvas 放到一起。
SVG 意為可縮放矢量圖形(Scalable Vector Graphics),使用 XML 格式定義矢量圖形。其他的圖像格式都是基于像素的,但是 SVG 沒有單位的概念,它的20只是表示1的20倍,所以 SVG 繪制的圖形放大或縮小都不會(huì)失真。
與其他圖像比較,SVG 的優(yōu)勢(shì)有以下幾點(diǎn):
2.1、svg 標(biāo)簽
SVG 的代碼都放到 svg 標(biāo)簽?zāi)?,SVG 中的標(biāo)簽都是閉合標(biāo)簽,與html中標(biāo)簽用法一致。svg的屬性有:
eg:畫一條直線,完整代碼如下:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Document</title>
</head>
<body style="height:600px;">
<svg width="300" height="300">
<line x1="0" y1="0" x2="100" y2="100" stroke="black" stroke-width="20"></line>
</svg>
</body>
</html>
上述 svg 設(shè)置的寬高沒有帶單位,此時(shí)默認(rèn)是像素值,如果需要添加單位時(shí),除了絕對(duì)單位,也可以設(shè)置相對(duì)單位。
使用語法:<svg viewBox=" x1,y1,width,height "></svg>
四個(gè)參數(shù)分別是左上角的橫縱坐標(biāo)、視口的寬高。表示只看SVG的某一部分,由上述四個(gè)參數(shù)決定。
使用 viewBox 之后,相當(dāng)于svg整體大小不變,只能看到 viewBox 設(shè)置部分,視覺上被放大。
2.2、SVG 如何嵌入 HTML
SVG 的代碼可以直接嵌入到 html 頁面中,也可以通過 html 的embed、object、iframe嵌入到html中。嵌入的時(shí)候嵌入的是 SVG 文件,SVG 文件必須使用 .svg 后綴。分別介紹各種方法如何使用?
2.2.1、embed 嵌入:
使用語法:<embed src="line.svg" type="image/svg+xml"></embed>
src是SVG文件路徑,type 表示 embed 引入文件類型。
優(yōu)點(diǎn):所有瀏覽器都支持,并允許使用腳本。
缺點(diǎn):不推薦 html4 和 html 中使用,但 html5 支持。
2.2.2、object 嵌入:
使用語法:<object data="line.svg" type="image/svg+xml"></object>
data 是 SVG 文件路徑,type 表示 object 引入文件類型。
優(yōu)點(diǎn):所有瀏覽器都支持,支持 html、html4 和 html5。
缺點(diǎn):不允許使用腳本。
2.2.3、iframe 嵌入:
使用語法:<iframe width="300" height="300" src="./line.svg" frameborder="0"></iframe>
src是 SVG 文件路徑,width、height、frameborder 設(shè)置的大小和邊框。
優(yōu)點(diǎn):所有瀏覽器都支持,并允許使用腳本。
缺點(diǎn):不推薦 html4 和 html 中使用,但 html5 支持。
2.2.4、html中嵌入:
svg 標(biāo)簽直接插入 html 內(nèi)容內(nèi),與其他標(biāo)簽用法一致。
2.2.5、連接到svg文件:
使用 a 標(biāo)簽,直接鏈接到 SVG 文件。
使用語法:<a href="line.svg">查看SVG</a>
3.1、線 - line
使用語法:
<svg width="300" height="300" >
<line x1="0" y1="0" x2="300" y2="300" stroke="black" stroke-width="20"></line>
</svg>
使用line標(biāo)簽創(chuàng)建線條,(x1,y1)是起點(diǎn),(x2,y2)是終點(diǎn),stroke繪制黑線,stroke-width是線寬。
3.2、矩形 - rect
//使用語法:
<svg width="300" height="300" >
<rect
width="100" height="100" //大小設(shè)置
x="50" y="50" //可選 左上角位置,svg的左上角默認(rèn)(0,0)
rx="20" ry="50" //可選 設(shè)置圓角
stroke-width="3" stroke="red" fill="pink" //繪制樣式控制
></rect>
</svg>
上述參數(shù) width、height是必填參數(shù),x、y是可選參數(shù),如不設(shè)置的時(shí)候,默認(rèn)為(0,0),也就是svg的左上角開始繪制。rx、ry是可選參數(shù),不設(shè)置是矩形沒有圓角。fill定義填充顏色。
3.3、圓形 - circle
// 使用語法
<svg width="300" height="300" >
<circle
cx="100" cy="50" // 定義圓心 ,可選
r="40" // 圓的半徑
stroke="black" stroke-width="2" fill="red"/> //繪制黑框填充紅色
</svg>
上述(cx,xy)定義圓心的位置,是可選參數(shù),如果不設(shè)置默認(rèn)圓心是(0,0)。r是必需參數(shù),設(shè)置圓的半徑。
3.4、橢圓 - ellipse
橢圓與圓相似,不同之處在于橢圓有不同的x和y半徑,而圓兩個(gè)半徑是相同的。
// 使用語法
<svg width="300" height="300" >
<ellipse
rx="20" ry="100" //設(shè)置橢圓的x、y方向的半徑
fill="purple" // 橢圓填充色
cx="150" cy="150" //設(shè)置橢圓的圓心 ,可選參數(shù)
></ellipse>
</svg>
上述橢圓的兩個(gè)rx、ry兩個(gè)方向半徑是必須參數(shù),如果rx=ry就表示是圓形,(cx,cy)是橢圓的圓心,是可選參數(shù),如果不設(shè)置,則默認(rèn)圓心為(0,0)。
3.5、折線 - polyline
// 使用語法
<svg width="300" height="300" style="border:solid 1px red;">
<!-- 繪制出一個(gè)默認(rèn)填充黑色的三角形 -->
<polyline
points=" //點(diǎn)的集合
0 ,0, // 第一個(gè)點(diǎn)坐標(biāo)
100,100, // 第二個(gè)點(diǎn)坐標(biāo)
100,200 // 第三個(gè)點(diǎn)坐標(biāo)
"
stroke="green"
></polyline>
<!-- 繪制一個(gè)臺(tái)階式的一條折線 -->
<polyline
points="0,0,50,0,50,50,100,50,100,100,150,100,150,150"
stroke="#4b27ff" fill="none"
></polyline>
</svg>
上述代碼執(zhí)行結(jié)果如圖所示:
需要注意的是 points 中包含了多個(gè)點(diǎn)的坐標(biāo),但不是一個(gè)數(shù)組。
3.6、多邊形 - polygon
polygon 標(biāo)簽用來創(chuàng)建不少于3個(gè)邊的圖形,多邊形是閉合的,即所有線條連接起來。
// 使用語法
<svg width="300" height="300" style="border:solid 1px red;">
<polygon
points="
0,0, //多邊形的第一點(diǎn)
100,100, //多邊形的第二點(diǎn)
0,100 //多邊形的第三點(diǎn)
"
stroke="purple"
stroke-width="1"
fill="none"
></polygon>
</svg>
polygon繪制的時(shí)候與折線有些類似,但是polygon會(huì)自動(dòng)閉合,折線不會(huì)。
3.7、路徑 - path
path 是SVG基本形狀中最強(qiáng)大的一個(gè),不僅能創(chuàng)建其他基本形狀,還能創(chuàng)建更多其他形狀,如貝塞爾曲線、2次曲線等。
點(diǎn)個(gè)關(guān)注,下篇更精彩!
*請(qǐng)認(rèn)真填寫需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。