tml+SpringBoot超大視頻上傳解決方案,html+SpringBoot超大視頻上傳思路,html+SpringBoot超大視頻上傳源碼,html+SpringBoot超大視頻上傳實例,html+SpringBoot超大視頻上傳實現方法,html+SpringBoot超大視頻分塊上傳,html+SpringBoot超大視頻分片上傳,html+SpringBoot超大視頻加密上傳,html+SpringBoot超大視頻切片上傳,html+SpringBoot超大視頻批量上傳,
隨著視頻網站和大數據應用的普及,特別是高清視頻和4K視頻應用的到來,超大文件上傳已經成為了日常的基礎應用需求。
SpringBoot實現HTTP大文件斷點續傳分片上傳,JAVA以HTTP方式實現大文件分片,分段,分塊,分割上傳。
需要支持斷點續傳,上傳一半關閉電腦后,明天能夠繼續上傳。或者關閉瀏覽器,或關閉網頁,或刷新網頁。
速度這塊的話,內網是希望跑滿的,百兆網絡的話12MB/S左右,千兆的話50MB/S左右。
需要支持文件夾上傳,斷點續傳,上傳保留層級結構。
網上搜到的SpringBoot的代碼不多,完整的不多,能用的也不多,基本上大部分的文章只是提供了少量的代碼,講一下思路,或者實現方案。
之前一般的做法都是使用HTML5來做的,大部都是傳文件的,傳文件夾的不多。網上能夠搜到的能用的不多。下來下的話,基本上都不能滿足用戶的 需求。或者用戶在用的時候總是會遇到這樣或那樣的問題,維護的話也很麻煩,用戶滿意度比較低。
對于大文件的處理,無論是用戶端還是服務端,如果一次性進行讀取發送、接收都是不可取,很容易導致內存問題。所以對于大文件上傳,采用切塊分段上傳
從上傳的效率來看,利用多線程并發上傳能夠達到最大效率。
文件上傳頁面的前端可以選擇使用一些比較好用的上傳組件,例如百度的開源組件WebUploader,澤優軟件的up6,這些組件基本能滿足文件上傳的一些日常所需功能,如異步上傳文件,文件夾,拖拽式上傳,黏貼上傳,上傳進度監控,文件縮略圖,甚至是大文件斷點續傳,大文件秒傳。
在web項目中上傳文件夾現在已經成為了一個主流的需求。在OA,或者企業ERP系統中都有類似的需求。上傳文件夾并且保留層級結構能夠對用戶行成很好的引導,用戶使用起來也更方便。能夠提供更高級的應用支撐。
版本:6.5.40
代碼:https://gitee.com/xproer/up6-jsp-springboot/tree/6.5.40/
nosql示例
nosql示例不需要進行任何配置,可以直接訪問測試。
SQL示例
1.創建數據庫
2.配置數據庫連接
3.自動下載maven依賴
4.啟動項目
啟動成功
6.訪問及測試
默認頁面接口定義:
在瀏覽器中訪問:
數據表中的數據
相關問題:
1.javax.servlet.http.HttpServlet錯誤
2.項目無法發布到tomcat
3.md5計算完畢后卡住
4.服務器找不到config.json文件
5.Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile
相關參考:
文件保存位置
源碼工程文檔:https://drive.weixin.qq.com/s?k=ACoAYgezAAw1dWofra
源碼報價單:https://drive.weixin.qq.com/s?k=ACoAYgezAAwoiul8gl
OEM版報價單:https://drive.weixin.qq.com/s?k=ACoAYgezAAwuzp4W0a
產品源代碼:https://drive.weixin.qq.com/s?k=ACoAYgezAAwbdKCskc
授權生成器:https://drive.weixin.qq.com/s?k=ACoAYgezAAwTIcFph1
HTML:htper text markup language超文本標記(標簽)語言
由各種標簽組成,用來制作網頁,告訴瀏覽器如何顯示頁面
w3c:world wide web consortium萬維網聯盟,制定web技術相關標準和規范的組織,HTML技術hi由w3c制定的標準
兩個版本:HTML4.0.1、HTML5.0-----通常H5
官網:http://www.W3shcool.com.cn
HTML文檔是以.html或.htm結尾
記事本notepad、sublime、Notepad++、Dreamweaver、VScode、Webstorm等
使用步驟:
使用技巧:
常見的瀏覽器:IE瀏覽器微軟、chrome谷歌瀏覽器、fifirefox火狐、safari蘋果
瀏覽器的作用是讀取html文件,并以網頁的形式來顯示
瀏覽器不會直接顯示html標簽,而是使用標簽來解釋網頁的內容
一個完整的html標簽的組成:
<標簽名 屬性名="屬性值">內容</標簽名>
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>標簽</title>
</head>
<body bgcolor="red" text="blue">
html從入門到精通!
</body>
</html>
12345678910
屬性值要用雙撇號括起來,一般用雙引號
根據標簽是否關閉,分為,關閉型和非關閉型
<html></html>
<head></head>
<title></title>
非關閉型:沒有結束標簽
<meta>
<br>
<h1>....<h6>
根據標簽是否獨占一行,分為塊級標簽和行級標簽
塊級標簽:顯示為塊狀,獨占一行
<h1>大家好</h1>
<hr>
行級標簽:在行內顯示,可與其他內容在同一行顯示
<span></span>
注釋在瀏覽器中不會顯示,是用來標注解釋html語句,但通過查看源代碼的方式可以看到
語法:
<--注釋內容-->
也稱為特殊字符,用于顯示一些特殊符號,如<>&空格等
語法:
<&實體字符的名稱>
在html文檔的第一行,使用<!DOCTYPE html>
聲明HTML文檔的類型用來告訴瀏覽器頁面的文檔嘞型,用來制定html版本的規范
目前基本上最常用的html5
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
</body>
</html>
12345678910
1.基本標簽
1.1 有序列表
ol:ordered listli:list item默認使用阿拉伯數字、從1開始標記,可以通過屬性進行修改
· type屬性:設置列表的符號標記、取值;數字1(默認)、字母(a或A)、羅馬數字(i或I) · start屬性:設置起始值,值必須是數字
1.2 無序列表
ul:unodered list
li:list item
默認情況下使用實心圓表作為符號標記,可以通過屬性進行修改
· type屬性:設置列表的符號標記、取值:disc實心圓(默認)、circle空心圓、square正方形、none不 顯示項目符號
1.3 定義列表
dl:definition list
dt:definition title
dd:definition description
1.4 水平線標簽
hr:horizontal
常用屬性:
· color:顏色
兩種方式:
顏色名稱:如red、green、blue、white、black、pink、orange等
16進制的RGB表示法:Red、Green、Blue用法:#RRGGBB 每種顏色的取值范值0-255,轉換為16 進制00-FF
如: #FF0000 紅色 #00FF00綠色 #0000FF藍色 #FFFFFF白色、#CCCCCC #FF7300桔色
· size:粗細,數值
· width寬度
兩種寫法:
? 像素:絕對值(固定值)
? 百分比:相對值,相對于水平線標簽所在父容器寬度的百分比
· align對齊
? 取值:center居中 left right
1.5圖像標簽
img:image
常見的圖片格式:.jpg .png .gif .bmp
常見的屬性:
· src:source指定圖片的路徑(來源),必選叁數
如果圖片與html源代碼在同一個文件夾中,可以直接在src中寫圖片名稱即可
習慣上,我們會將多個圖片與html代碼文檔分別放在同一個文件夾project中的不同目錄下,此時需要 在src中指定圖片的路徑為相對路徑
路徑的分類:
? · 相對路徑
? 表示: ./當前路徑
…/當前位置的上一級文件夾
? 提示:…/image
? · alt:當圖片無法顯示時顯示的提示信息
? · title:當鼠標放到圖片上時顯示的提示信息
? · width和 height:設置圖片的寬度和高度
默認圖片以原始尺寸顯示
? 如果只設置其中一個,則另一個會按比例縮放
? 如果同時設置寬和高,可能導致圖片變形
? 兩種寫法:
? 像素:絕對值(固定值)
? 百分比:相對值,相對于父容器的尺寸的百分比
2.其他標簽
為了更好語義化
3.頭部標簽
· meta定義網頁的摘要信息,如字符編碼,關鍵詞,描述,作者等
· title定義網頁的標題
· style定義內容css樣式
· link引用外部css樣式
· script定義或引用腳本
· base定義基礎路徑
默認以當前頁面文件所在的位置為相對路徑參照
4.標簽嵌套
一個標簽中嵌套另外一個標簽
標簽不能亂嵌套
瀏覽器渲染后顯示的頁面代碼與編碼時有所不同
chrome瀏覽器提供的開發工具:幫助開發人員查看和調試頁面的
如何打開:
· Elements:從瀏覽器的角度來看頁面,瀏覽器渲染頁面時內部的結構
· console:控制臺,顯示各種警告和錯誤信息
· network:查看網絡請求信息,瀏覽器向服務器請求了哪些資源,資源大小,
加載資源所消耗的時間
四、超鏈接
1.簡介
使用超鏈接可以從一個頁面跳轉到另外一個頁面,實現頁面之間導航
當鼠標移動到超鏈接文本或圖片時,鼠標箭頭會變成一只小手
超鏈接有三種類型:
普通鏈接/頁面間的鏈接,跳轉到另一個頁面 錨鏈接:鏈接到錨點(鏈接到同一個頁面的指定位置) 功能鏈接:實現特殊功能(發郵件,下載)
2.基本用法
使用 標簽來創建超鏈接
語法格式:
常用屬性:
href:鏈接地址或路徑,鏈接地址
world
鏈接文本或圖片
1 2 3 4 5 1 target:鏈接打開的位置,取值
路徑分類:
絕對路徑 以根開始的路徑
file:///D:/software/b.html https://www.baidu.com/img/bd_logo1.png
相對路徑 相對于當前頁面文件所在的路徑,不是以根開始的路徑 ./ 當前路徑 …/ 當前位置上一級目錄
3.錨鏈接
3.1簡介
點擊鏈接后跳轉到某一個頁面的指定位置(錨點anchor)
錨鏈接的分類:
頁面內的錨鏈接 頁面間的錨鏈接
3.2 頁面內的錨鏈接
步驟:
3.3 頁面間的錨鏈接
4.功能鏈接
5.URL
5.1 簡介
URL:Uniform Resource Locator 統一資源定位器,用來定位資源所在的位置,最常見的就是網址
5.2 組成
一個完整的URL由8個部分組成:
協議:prococol 如 http:超文本傳輸協議,用來訪問WEB網站Hyper text Transfer protocal https:更加安全的協議 SSL安全套接子層 ftp文件傳輸協議,用來訪問服務器上的文件,實現文件的上傳和下載File Transfer protocol file:文件協議,用來訪問本地文件 主機名hostname服務器地址或服務器Netbios名稱,如www.baidu.com ftp://10.255.254.254 端口:port位于主機名的后面,使用冒號進行分隔 不同的協議使用不同的端口,如http使用80端口,https使用的443端口,ftp使用20和21 如果使用的是默認端口,則端口可以省略 如果使用的不是默認端口,則必須指定端口http://59.49.32.213:7070/ 路徑:path目標文件所在的路徑結構,如:www.baidu.com/img/ 資源resource要訪問的目標文件,如bd_logo1.png 查詢字符串:query string 也稱為參數 在資源后面使用?開頭的一組名稱/值
鏈接文本
鏈接文本
https://www.baidu.com/img/bd_logo1.png?name=tom&age=2&sex=male https://www.w3school.com.cn/html/html_quotation_elements.asp file:///C:/Users/Administrator/Desktop/project/code/09.%E5%B8%B8%E7%94%A8%E6%A0%87%E7%A D%BE3.html http://www.sxgjpx.net/ ftp://10.255.254.253/
1
1
1 2 3
4 5
名稱和值之間以=分隔,多個之間用&分隔,如:name=tom&age=2&sex=male 錨點anchor,在資源后面使用#開頭的文本,如#6 身份認證authentication,指定身份信息,如:ftp://賬戶:密碼@ftp.bbshh010.com
五、表格
1.簡介
表格是一個規則的行列結構,每個表格是由若干行組成,每行由若干個單元格組成
table row column
2.基本結構
2.1 table標簽
用來定義表格
常用屬性:
border:表格邊框 默認為0 width/height:寬度/高度 bordercolor:邊框的顏色 align:對齊方式,取值:left(默認) center居中 right居右 bgcolor:背景顏色 background:背景圖片 cellspacing間距:單元格與單元格之間的距離 cellpadding邊距:單元格中的內容到邊界之間的距離
2.2 tr標簽
用來定義行:table row
常用屬性:
align:水平對齊 取值:left(默認) center right valign垂直對齊 取值:top center bottom bgcolor:背景顏色 background:背景圖片
2.3 td標簽
用來定義單元格,table data
常用屬性:align、valign、bgcolor、background
注意:表格必須是由行組成,行必須由單元格來組成,數據必須放到單元格中
3.合并單元格
合并單元格也稱為單元格的跨行跨列
兩個屬性:
rowspan 設置單元格所跨的行數 colspan 設置單元格所跨的列數
步驟:
六、表單
1.簡介
表單是一個包含若干個表單元素的區域,用于獲取瑣類型的用戶數據
表單元素是允許用戶在表單輸入信息的元素,如文本框、密碼框、單選按鈕、復選框、下拉列表、按鈕等
2.表單結構
2.1表單語法
1
2.2form標簽
用來定義表單,可以包含多個表單元素
常用屬性:
action:提交數據給誰處理,即處理數據的程序,默認為當前頁面 method:提交數據的方式或方法,取值:get(默認),post get和post的區別: get:以查詢字符串的形式提交,在地址欄中能看到,長度有限制,不安全 post以表單數據組的形式進行提交,在地址欄中看不到,長度無限制,安全 enctype(encode type)編碼類型:提交數據的編碼,取值:application/X-www-form-urlencoded(默 認)、multipart/form-data(文件上傳)
3.表單元素
大多數的表單元素都是使用 標簽來定義的,通過設置屬性type來定義不同的表單元素
1
3.1單行文本框
常用屬性:
·name名稱,很重要,如果沒有定義name屬性,則該表單元素的數據是無法提交的
·value初始值
·size顯示寬度
·maxlength:大字符數,默認是沒有限制
·readonly只讀:readonly=“readonly”,可簡寫readonly,即只寫屬性名
·disabled禁用:disabled=“disabled”, 可簡寫disabled完全禁用
表單元素被提交的兩個條件,1.有name屬性2.非disabled
3.2 單選按鈕
常用屬性:
·name名稱:多個radio的name屬性必須相同,才能實現互斥(單選)
·value值
·checked:是否被選中,兩種狀態,選中,未選中 checked=“checked” 簡寫 checked
3.3 復選框
常用屬性與單選按鈕radio類似
3.4 文件選擇器
常用屬性:
·name:名稱
·accept設置可選擇的文件類型,用來限制上傳的文件類型
使用MIME格式字符串對資源類型進行限制
常見的MIME類型:
·純文本:text/plain text/xml text/html
· 圖像:image/png image/jpeg image/gif
4.特殊表單元素
4.1下拉列表
select常用屬性:
·name名稱
·size行數,同時顯示多個選項
·multiple允許同時選擇多個
option常用屬性:
·value選項值
·selected設置默認選中項
optgroup常用屬性:
·label分組的標簽
4.2文本域
·name名稱
·rows行數
·cols列數
5、其他標簽
5.1 label標簽
為表單元素提供標簽,當選中label標簽中的文本內容時會自動將光標切換到與之相關聯的表單元素。
常用屬性:
·for必須將該屬性值設置為與相關聯的表單元素的Id屬性值相同。
注:幾乎所有HTML標簽都具有id屬性,且id值必須唯一。
5.2 button標簽
也表示按鈕,與input按鈕類似
語法:
1按鈕文字或圖像
常用屬性:
·type按鈕的類型,取值: submit(默認)、reset、button
5.3 fieldset和legend標簽
fieldset標簽,對表單元素進行分組
legend標簽,對分組添加標題
七、內嵌框架
1、簡介
使用iframe可以在一個頁面中引用另一個頁面,實現復用、靈活
2、基本用法
語法:
1
常用屬性:
· src:引用的頁面
· width/height寬度/高度 ,像素或百分比
· frameborder是否顯示邊框,取值:1(yes) 0(no)—默認
· scrolling是否顯示滾動條,取值:yes no auto
· name屬性 為框架定義名稱
3、在框架中打開鏈接
1
2
3鏈接的文本或圖像
八、HTML5簡介
1、發展
W3C于1992年12月發布了HTML4.0.1標準
W3C于2014年10月發布了HTML5標準
2、特點
· 取消了過時的標簽,如font、center等,它們僅具有展示外觀的功能
· 增加了一些更具有語義化的標簽,如header、footer、aside等
· 增加了一些新功能標簽,如canvas、audio、video
· 增加了一些表單控件,如email、date、time、url、search等
· 可以直接在瀏覽器中繪畫(canvas),無需flash
· 增加了本地存儲的支持
3、兼容性
http://caniuse.com
提供了各種瀏覽器版本對HTML5和CSS規范的支持度
九、HTML5新增內容
1、結構相關的標簽
用來進行頁面結構布局,本身無任何特殊樣式,需要使用CSS進行樣式設置
· article定義一個獨立的內容,完整的文章
· section定義文檔的章節、段落
· header文章的頭部、頁眉、標題
· footer文章的底部、頁腳、標注
· aside定義側邊欄
· figure圖片區域
· figcaption為圖片區域定義標題
· nav定義導航菜單
結構標簽只是表明各部分的角色,并無實際的外觀樣式,與普通div相同
2、語義相關的標簽
2.1 mark標簽
標注,用來突出顯示文本,默認添加黃色背景
2.2 time標簽
定義日期和時間,便于搜索引擎智能查找
2.3 details和 summary標簽
默認顯示summary中的內容,點擊后顯示details中的內容
注:并不是所有的瀏覽器都兼容,chrome、opera支持、Firefox、IE瀏覽器不支持
2.4 meter標簽
計數儀,表示度量
常用屬性:
· max定義大值,默認為1
· min定義小值,默認為0
· value定義當前值
· high定義限定為高的值
· low定義限定為低的值
· optimum定義佳值
規則:
當value大于high時為綠色
當value在low與high之間時為黃色
當value小于low時為紅色
當value小于low時為綠色
當value在low與high之間時為黃色
當value大于high時為紅色
2.5 progress標簽
進度條,表示運行中的進度
常用屬性:
· value定義當前值
· max定義完成的值
3.表單相關
3.1 新增表單元素
新增以下type類型:
· email接收郵箱
· url接收URL
· tel接收電話號碼,目前僅在移動設備上有效
· search搜索文框
· number/range接收數字/數字滑塊,包含min,max,step屬性
· date/month/week/time/datetime日期時間選擇器,兼容性不好
· color顏色拾取
作用:
· 具有格式校驗的功能
· 可以與移動設備的鍵盤相關聯
3.2新增表單屬性
form標簽的屬性:
· autocomplete是否啟動表單的自動完成功能, 取值:on(默認)、o?
· novalidate提交表單時不進行校驗,默認會進行表單校驗
3.3 新增表單元素的屬性
新增表單元素屬性:input/select/textarea等
· placeholder提示文字
· required是否必填
· autocomplete是否啟用該表單元素的自動完成功能
· autofocus設置初始焦點元素
· pattern使用正則表達式(RegExp后面會講解),進行數據校驗
· list使文本元素具有下拉列表的功能,需要配合datalist和option標簽一起使用
· form可以將表單元素寫在form標簽外面,然后通過該屬性關聯指定的表單
4、多媒體標簽
4.1audio標簽
在頁面中插入音頻,不同的瀏覽器對音頻格式的支持不一樣
audio常用屬性:
· src音頻文件的來源
· controls是否顯示控制面板,默認不顯示
· autoplay是否自動播放,默認不自動播放
· loop是否循環播放
· muted是否靜音
· preload是否預加載,取值:none不預加載、auto預加載(默認)、metadata只加載元數據
如果設置了autoplay屬性,則該屬性無效
可以結合source標簽使用,指定多個音頻文,瀏覽器會檢測并使用第一個可用的音頻文件
4.2 video標簽
在頁面中插入視頻,不同的瀏覽器對視頻格式的支持不一樣
用法與audio標簽基本相同,增加屬性:
· widht/height視頻播放器的寬度/高度
· poster在視頻加載前顯示的圖片
<html>
<body>
<tiele>HTML技術</tiele>
</body>
<body>
大家好,歡迎學習html技術!
</body>
</html>1234567
效果
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-h271e4v6-1593240920352)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例1.png)]
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>標簽</title>
</head>
<body text="blue">
標簽的組成
<br>
html從入門到精通!
<hr>
<h1>標簽的分類</h1>
<hr>
<h2>標簽的分類</h2>
<hr>
<h6>標簽的分類</h6>
<hr>
<span>哈哈</span>嘿嘿
</body>
</html>1234567891011121314151617181920212223
效果
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jx6zJE1P-1593240920354)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例2.png)]
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
圖書:<<HTML從入門到精通<<
<hr>
北京 上海 廣州
<hr>
在HTML中用<表示<小于號
<hr>
“HTML語言” 或 &qout;HTML語言&qout;
<hr>
版權所有? 2000-2020 高教培訓
<hr>
×關閉符號
</body>
</html>123456789101112131415161718192021222324
效果
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-nuFLl3hm-1593240920355)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例3.png)]
(剩下的下期出)
原文鏈接:https://blog.csdn.net/WanXuang/article/details/106982782?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160513384519724835852804%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=160513384519724835852804&biz_id=&utm_medium=distribute.pc_search_top_result.none-task-code-2~all~top_position~default-1-106982782-12.nonecase&utm_term=html
作者:WanXuang
出處:從CSDN
不缺好看的桌面呢?這邊來爬取網站超清圖片吧
本次爬蟲用到的網址是:
http://www.netbian.com/index.htm: 彼岸桌面.里面有很多的好看壁紙,而且都是可以下載高清無損的,還比較不錯,所以我就拿這個網站練練手。
作為一個初學者,剛開始的時候,無論的代碼的質量如何,總之代碼只要能夠被正確完整的運行那就很能夠讓自己開心的,如同我們的游戲一樣,能在短時間內得到正向的反饋,我們就會更有興趣去玩。
學習也是如此,只要我們能夠在短期內得到學習帶來的反饋,那么我們的對于學習的欲望也是強烈的。能夠完整的完整此次爬蟲程序的編寫,那便是一個最大的收貨,但其實我在此次過程中的收獲遠不止此。
好的代碼其實應該具有以下特性
就以充分的測試為例,經常寫代碼的就應該知道,盡管多數時候你的代碼沒有BUG,但那僅僅說明只是大多數情況下是穩定的,但是在某些條件下就會出錯(達到出錯條件,存在邏輯問題的時候等)。這是肯定的。至于什么原因,不同的代碼有不同的原因。如果代碼程序都是一次就能完善的,那么我們使用的軟件的軟件就不會經常更新了。其他其中的道理就不一 一道說了,久而自知。
好的代碼一般具有的5大特性
1.便于維護
2.可復用
3.可擴展
4.強靈活性
5.健壯性
經過我的代碼運行我發現時間復雜度比較大,因此這是我將要改進的地方,但也不止于此。也有很多利用得不合理的地方,至于存在的不足的地方就待我慢慢提升改進吧!
路過的大佬歡迎留下您寶貴的代碼修改意見,
完整代碼如下
import os
import bs4
import re
import time
import requests
from bs4 import BeautifulSoup
def getHTMLText(url, headers):
"""向目標服務器發起請求并返回響應"""
try:
r = requests.get(url=url, headers=headers)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "html.parser")
return soup
except:
return ""
def CreateFolder():
"""創建存儲數據文件夾"""
flag = True
while flag == 1:
file = input("請輸入保存數據文件夾的名稱:")
if not os.path.exists(file):
os.mkdir(file)
flag = False
else:
print('該文件已存在,請重新輸入')
flag = True
# os.path.abspath(file) 獲取文件夾的絕對路徑
path = os.path.abspath(file) + "\\"
return path
def fillUnivList(ulist, soup):
"""獲取每一張圖片的原圖頁面"""
# [0]使得獲得的ul是 <class 'bs4.BeautifulSoup'> 類型
div = soup.find_all('div', 'list')[0]
for a in div('a'):
if isinstance(a, bs4.element.Tag):
hr = a.attrs['href']
href = re.findall(r'/desk/[1-9]\d{4}.htm', hr)
if bool(href) == True:
ulist.append(href[0])
return ulist
def DownloadPicture(left_url,list,path):
for right in list:
url = left_url + right
r = requests.get(url=url, timeout=10)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text,"html.parser")
tag = soup.find_all("p")
# 獲取img標簽的alt屬性,給保存圖片命名
name = tag[0].a.img.attrs['alt']
img_name = name + ".jpg"
# 獲取圖片的信息
img_src = tag[0].a.img.attrs['src']
try:
img_data = requests.get(url=img_src)
except:
continue
img_path = path + img_name
with open(img_path,'wb') as fp:
fp.write(img_data.content)
print(img_name, " ******下載完成!")
def PageNumurl(urls):
num = int(input("請輸入爬取所到的頁碼數:"))
for i in range(2,num+1):
u = "http://www.netbian.com/index_" + str(i) + ".htm"
urls.append(u)
return urls
if __name__ == "__main__":
uinfo = []
left_url = "http://www.netbian.com"
urls = ["http://www.netbian.com/index.htm"]
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
}
start = time.time()
# 1.創建保存數據的文件夾
path = CreateFolder()
# 2. 確定要爬取的頁面數并返回每一頁的鏈接
PageNumurl(urls)
n = int(input("訪問的起始頁面:"))
for i in urls[n-1:]:
# 3.獲取每一個頁面的首頁數據文本
soup = getHTMLText(i, headers)
# 4.訪問原圖所在頁鏈接并返回圖片的鏈接
page_list = fillUnivList(uinfo, soup)
# 5.下載原圖
DownloadPicture(left_url, page_list, path)
print("全部下載完成!", "共" + str(len(os.listdir(path))) + "張圖片")
end = time.time()
print("共耗時" + str(end-start) + "秒")
運行
部分展示結果如下:
起學Python,一起寫代碼,加油!奧利給!!!
*請認真填寫需求信息,我們會在24小時內與您取得聯系。