整合營銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          python各類爬蟲案例,爬到你手軟!(附代碼)

          編整理了一些爬蟲的案例,代碼都整理出來了~

          先來看看有哪些項(xiàng)目呢:

          • python爬蟲小工具(文件下載助手)
          • 爬蟲實(shí)戰(zhàn)(筆趣看小說下載)
          • 爬蟲實(shí)戰(zhàn)(VIP視頻下載)
          • 爬蟲實(shí)戰(zhàn)(百度文庫文章下載)
          • 爬蟲實(shí)戰(zhàn)(《帥啊》網(wǎng)帥哥圖片下載)
          • 爬蟲實(shí)戰(zhàn)(構(gòu)建代理IP池)
          • 爬蟲實(shí)戰(zhàn)(《火影忍者》漫畫下載)
          • 爬蟲實(shí)戰(zhàn)(財(cái)務(wù)報(bào)表下載小助手)
          • 爬蟲實(shí)戰(zhàn)(抖音App視頻下載)
          • 爬蟲實(shí)戰(zhàn)(GEETEST驗(yàn)證碼破解)
          • 爬蟲實(shí)戰(zhàn)(12306搶票小助手)
          • 爬蟲實(shí)戰(zhàn)(百萬英雄答題輔助系統(tǒng))
          • 爬蟲實(shí)戰(zhàn)(網(wǎng)易云音樂批量下載)
          • 爬蟲實(shí)戰(zhàn)(B站視頻和彈幕批量下載)
          • 爬蟲實(shí)戰(zhàn)(京東商品曬單圖下載)
          • 爬蟲實(shí)戰(zhàn)(正方教務(wù)管理系統(tǒng)爬蟲)

          怎么樣?是不是迫不及待的想自己動(dòng)手試試了呢?

          爬蟲小工具

          文件下載小助手

          一個(gè)可以用于下載圖片、視頻、文件的小工具,有下載進(jìn)度顯示功能。稍加修改即可添加到自己的爬蟲中。

          代碼展示:

          爬蟲實(shí)戰(zhàn)

          《筆趣看》盜版小說網(wǎng)站,爬取小說工具

          第三方依賴庫安裝:

           pip3 install beautifulsoup4
          

          使用方法:

           python biqukan.py
          

          代碼展示:

          愛奇藝等主流視頻網(wǎng)站的VIP視頻破解助手(暫只支持PC和手機(jī)在線觀看VIP視頻!)

          運(yùn)行源碼需要搭建Python3環(huán)境,并安裝相應(yīng)第三方依賴庫:

           pip3 install -r requirements.txt
          

          使用方法:

           python movie_downloader.py
          

          運(yùn)行環(huán)境:

           Windows, Python3
           
           Linux, Python3
           
           Mac, Python3
          

          代碼展示:

          百度文庫word文章爬取

          代碼不完善,沒有進(jìn)行打包,不具通用性,純屬娛樂,以后有時(shí)間會(huì)完善。

          代碼展示:

          爬取《帥啊》網(wǎng),帥哥圖片

          運(yùn)行平臺(tái): Windows

          Python版本: Python3.x

          IDE: Sublime text3

          為了也能夠?qū)W習(xí)到新知識(shí),本次爬蟲教程使用requests第三方庫,這個(gè)庫可不是Python3內(nèi)置的urllib.request庫,而是一個(gè)強(qiáng)大的基于urllib3的第三方庫。

          代碼展示:

          構(gòu)建代理IP池

          代碼展示:

          使用Scrapy爬取《火影忍者》漫畫

          代碼可以爬取整個(gè)《火影忍者》漫畫所有章節(jié)的內(nèi)容,保存到本地。更改地址,可以爬取其他漫畫。保存地址可以在代碼中修改。

          代碼展示:

          《王者榮耀》推薦出裝查詢小助手

          網(wǎng)頁爬取已經(jīng)會(huì)了,想過爬取手機(jī)APP里的內(nèi)容嗎?

          代碼展示:

          財(cái)務(wù)報(bào)表下載小助手

          爬取的數(shù)據(jù)存入數(shù)據(jù)庫會(huì)嗎?《跟股神巴菲特學(xué)習(xí)炒股之財(cái)務(wù)報(bào)表入庫(MySQL)》也許能給你一些思路。

          代碼展示:

          抖音App視頻下載

          抖音App的視頻下載,就是普通的App爬取。

          代碼展示:

          GEETEST驗(yàn)證碼破解

          爬蟲最大的敵人之一是什么?沒錯(cuò),驗(yàn)證碼!Geetest作為提供驗(yàn)證碼服務(wù)的行家,市場(chǎng)占有率還是蠻高的。遇到Geetest提供的滑動(dòng)驗(yàn)證碼怎么破?授人予魚不如授人予漁,接下來就為大家呈現(xiàn)本教程的精彩內(nèi)容。

          代碼展示:

          用Python搶火車票簡單代碼

          可以自己慢慢豐富,蠻簡單,有爬蟲基礎(chǔ)很好操作。

          代碼展示:

          baiwan:百萬英雄輔助答題

          看了網(wǎng)上很多的教程都是通過OCR識(shí)別的,這種方法的優(yōu)點(diǎn)在于通用性強(qiáng)。不同的答題活動(dòng)都可以參加,但是缺點(diǎn)也明顯,速度有限,并且如果通過調(diào)用第三方OCR,有次數(shù)限制。但是使用本教程提到的數(shù)據(jù)接口。我們能很容易的獲取數(shù)據(jù),速度快,但是接口是變化的,需要及時(shí)更新。

          代碼展示:

          功能介紹:

          服務(wù)器端,使用Python(baiwan.py)通過抓包獲得的接口獲取答題數(shù)據(jù),解析之后通過百度知道搜索接口匹配答案,將最終匹配的結(jié)果寫入文件(file.txt)。

          Node.js(app.js)每隔1s讀取一次file.txt文件,并將讀取結(jié)果通過socket.io推送給客戶端(index.html)。

          親測(cè)答題延時(shí)在3s左右。

          聲明:沒做過后端和前端,花了一天時(shí)間,現(xiàn)學(xué)現(xiàn)賣弄好的,javascript也是現(xiàn)看現(xiàn)用,百度的程序,調(diào)試調(diào)試而已。可能有很多用法比較low的地方,用法不對(duì),請(qǐng)勿見怪,有大牛感興趣,可以自行完善。

          Netease:根據(jù)歌單下載網(wǎng)易云音樂

          功能介紹:

          根據(jù)music_list.txt文件里的歌單的信息下載網(wǎng)易云音樂,將自己喜歡的音樂進(jìn)行批量下載。

          代碼展示:

          bilibili:B站視頻和彈幕批量下載

          下載B站視頻和彈幕,將xml原生彈幕轉(zhuǎn)換為ass彈幕文件,支持plotplayer等播放器的彈幕播放。

          代碼展示:

          使用說明:

           python bilibili.py -d 貓 -k 貓 -p 10
           三個(gè)參數(shù):
           -d	保存視頻的文件夾名
           -k	B站搜索的關(guān)鍵字
           -p	下載搜索結(jié)果前多少頁
          

          京東商品曬單圖下載

          使用說明:

           python jd.py -k 芒果
           三個(gè)參數(shù):
           -d	保存圖片的路徑,默認(rèn)為fd.py文件所在文件夾
           -k	搜索關(guān)鍵詞
           -n 	下載商品的曬單圖個(gè)數(shù),即n個(gè)商店的曬單圖
          

          代碼展示:

          對(duì)正方教務(wù)管理系統(tǒng)個(gè)人課表,學(xué)生成績,績點(diǎn)等簡單爬取

          依賴環(huán)境

          • python 3.6

          python庫

          • http請(qǐng)求:requests,urllib
          • 數(shù)據(jù)提取:re,lxml,bs4
          • 存儲(chǔ)相關(guān):os,sys
          • 驗(yàn)證碼處理:PIL

          下載安裝

          在終端輸入如下命令:

          git clone git@github.com:Jack-Cherish/python-spider.git
          

          使用方法

          安裝依賴包

          pip install -r requirements.txt
          

          運(yùn)行

          在當(dāng)前目錄下輸入:

          cd zhengfang_system_spider
          python spider.py
          

          運(yùn)行爬蟲,按提示輸入學(xué)校教務(wù)網(wǎng),學(xué)號(hào),密碼,輸入驗(yàn)證碼

          稍等幾秒鐘,當(dāng)前ZhengFang_System_Spider文件夾下就會(huì)生成zhengfang.txt

          個(gè)人課表,成績績點(diǎn)均已保存到該文本文件中

          代碼展示:

          詳細(xì)代碼私信小編“芝麻開門”即可免費(fèi)獲取~

          下是一些常用的HTML網(wǎng)頁源代碼示例,這些示例可用作HTML文檔的基礎(chǔ):

          1、創(chuàng)建一個(gè)簡單的HTML文檔結(jié)構(gòu):

          <!DOCTYPE html>

          <html lang="en">

          <head>

          <meta charset="UTF-8">

          <meta name="viewport"content="width=device-width,initial-scale=1.0">

          <title>My Web Page</title>

          </head>

          <body>

          <h1>Hello,World!</h1>

          <p>This is a simple HTML webpage.</p>

          </body>

          </html>

          2、插入圖片:

          <img src="image.jpg"alt="Description of the image">

          3、創(chuàng)建超鏈接:

          <a href="https://www.example.com">Visit Example.com</a>

          4、創(chuàng)建無序列表:

          <ul>

          <li>Item 1</li>

          <li>Item 2</li>

          <li>Item 3</li>

          </ul>

          5、創(chuàng)建有序列表:

          <ol>

          <li>First item</li>

          <li>Second item</li>

          <li>Third item</li>

          </ol>

          6、創(chuàng)建表格:

          <table>

          <tr>

          <th>Header 1</th>

          <th>Header 2</th>

          </tr>

          <tr>

          <td>Row 1,Cell 1</td>

          <td>Row 1,Cell 2</td>

          </tr>

          <tr>

          <td>Row 2,Cell 1</td>

          <td>Row 2,Cell 2</td>

          </tr>

          </table>

          7、插入段落:

          <p>This is a paragraph of text.</p>

          8、插入換行符:

          <p>This is some text.<br>This is on a new line.</p>

          9、創(chuàng)建一個(gè)文本輸入框:

          <input type="text"name="username"placeholder="Enter your username">

          10、插入按鈕:

          <button type="button">Click me</button>

          這些示例代碼只是HTML的基礎(chǔ),HTML具有更豐富的功能和標(biāo)記選項(xiàng),可以根據(jù)需要進(jìn)行擴(kuò)展和定制。請(qǐng)根據(jù)您的具體需求,使用這些示例作為起點(diǎn),構(gòu)建您自己的網(wǎng)頁。

          【名揚(yáng)銀河企業(yè)網(wǎng)站系統(tǒng)】

          【免費(fèi)】提供企業(yè)【網(wǎng)站源碼】,簡單易用,無須擁有代碼基礎(chǔ)。

          歡迎留言或私信我們咨詢。

          以上內(nèi)容由【名揚(yáng)銀河】企業(yè)網(wǎng)站系統(tǒng)原創(chuàng)發(fā)布,轉(zhuǎn)載請(qǐng)注明出處。

          眾號(hào)【傳智播客博學(xué)谷】回復(fù)關(guān)鍵詞:前端 PS Java(100G) Python(80G) 大數(shù)據(jù) 區(qū)塊鏈 測(cè)試 PPT JS(40g+300教程) HTML 簡歷 領(lǐng)取相關(guān)學(xué)習(xí)資料!

          一、HTML

          1、<image>標(biāo)簽上title屬性與alt屬性的區(qū)別是什么?

          alt屬性是為了給那些不能看到你文檔中圖像的瀏覽者提供文字說明的。且長度必須少于100個(gè)英文字符或者用戶必須保證替換文字盡可能的短。

          這包括那些使用本來就不支持圖像顯示或者圖像顯示被關(guān)閉的瀏覽器的用戶,視覺障礙的用戶和使用屏幕閱讀器的用戶等。

          title屬性為設(shè)置該屬性的元素提供建議性的信息。使用title屬性提供非本質(zhì)的額外信息。參考《alt和title屬性的區(qū)別及應(yīng)用》

          2、分別寫出以下幾個(gè)HTML標(biāo)簽:文字加粗、下標(biāo)、居中、字體

          加粗:<b>、<strong>

          下標(biāo):<sub>

          居中:<center>

          字體:<font>、<basefont>、參考《HTML標(biāo)簽列表》

          3、請(qǐng)寫出至少5個(gè)html5新增的標(biāo)簽,并說明其語義和應(yīng)用場(chǎng)景

          section:定義文檔中的一個(gè)章節(jié)

          nav:定義只包含導(dǎo)航鏈接的章節(jié)

          header:定義頁面或章節(jié)的頭部。它經(jīng)常包含 logo、頁面標(biāo)題和導(dǎo)航性的目錄。

          footer:定義頁面或章節(jié)的尾部。它經(jīng)常包含版權(quán)信息、法律信息鏈接和反饋建議用的地址。

          aside:定義和頁面內(nèi)容關(guān)聯(lián)度較低的內(nèi)容——如果被刪除,剩下的內(nèi)容仍然很合理。

          參考《HTML5 標(biāo)簽列表》

          4、請(qǐng)說說你對(duì)標(biāo)簽語義化的理解?

          a. 去掉或者丟失樣式的時(shí)候能夠讓頁面呈現(xiàn)出清晰的結(jié)構(gòu)

          b. 有利于SEO:和搜索引擎建立良好溝通,有助于爬蟲抓取更多的有效信息:爬蟲依賴于標(biāo)簽來確定上下文和各個(gè)關(guān)鍵字的權(quán)重;

          c. 方便其他設(shè)備解析(如屏幕閱讀器、盲人閱讀器、移動(dòng)設(shè)備)以意義的方式來渲染網(wǎng)頁;

          d. 便于團(tuán)隊(duì)開發(fā)和維護(hù),語義化更具可讀性,遵循W3C標(biāo)準(zhǔn)的團(tuán)隊(duì)都遵循這個(gè)標(biāo)準(zhǔn),可以減少差異化。

          5、Doctype作用? 嚴(yán)格模式與混雜模式如何區(qū)分?它們有何意義?

          聲明位于文檔中的最前面,處于 標(biāo)簽之前。告知瀏覽器以何種模式來渲染文檔。

          嚴(yán)格模式的排版和 JS 運(yùn)作模式是,以該瀏覽器支持的最高標(biāo)準(zhǔn)運(yùn)行。

          在混雜模式中,頁面以寬松的向后兼容的方式顯示。模擬老式瀏覽器的行為以防止站點(diǎn)無法工作。

          DOCTYPE不存在或格式不正確會(huì)導(dǎo)致文檔以混雜模式呈現(xiàn)。

          6、你知道多少種Doctype文檔類型?

          標(biāo)簽可聲明三種 DTD 類型,分別表示嚴(yán)格版本、過渡版本以及基于框架的 HTML 文檔。

          HTML 4.01 規(guī)定了三種文檔類型:Strict、Transitional 以及 Frameset。

          XHTML 1.0 規(guī)定了三種 XML 文檔類型:Strict、Transitional 以及 Frameset。

          Standards (標(biāo)準(zhǔn))模式(也就是嚴(yán)格呈現(xiàn)模式)用于呈現(xiàn)遵循最新標(biāo)準(zhǔn)的網(wǎng)頁,

          Quirks(包容)模式(也就是松散呈現(xiàn)模式或者兼容模式)用于呈現(xiàn)為傳統(tǒng)瀏覽器而設(shè)計(jì)的網(wǎng)頁。

          7、HTML與XHTML——二者有什么區(qū)別

          a. XHTML 元素必須被正確地嵌套。

          b. XHTML 元素必須被關(guān)閉。

          c. 標(biāo)簽名必須用小寫字母。

          d. XHTML 文檔必須擁有根元素。

          參考《XHTML 與 HTML 之間的差異》

          8、html5有哪些新特性、移除了那些元素?

          a. HTML5 現(xiàn)在已經(jīng)不是 SGML 的子集,主要是關(guān)于圖像,位置,存儲(chǔ),多任務(wù)等功能的增加。

          b. 拖拽釋放(Drag and drop) API

          c. 語義化更好的內(nèi)容標(biāo)簽(header,nav,footer,aside,article,section)

          d. 音頻、視頻API(audio,video)

          e. 畫布(Canvas) API

          f. 地理(Geolocation) API

          g. 本地離線存儲(chǔ) localStorage 長期存儲(chǔ)數(shù)據(jù),瀏覽器關(guān)閉后數(shù)據(jù)不丟失

          h. sessionStorage 的數(shù)據(jù)在頁面會(huì)話結(jié)束時(shí)會(huì)被清除

          i. 表單控件,calendar、date、time、email、url、search

          j. 新的技術(shù)webworker, websocket等

          移除的元素:

          a. 純表現(xiàn)的元素:basefont,big,center, s,strike,tt,u;

          b. 對(duì)可用性產(chǎn)生負(fù)面影響的元素:frame,frameset,noframes;

          9、iframe的優(yōu)缺點(diǎn)?

          優(yōu)點(diǎn):

          a. 解決加載緩慢的第三方內(nèi)容如圖標(biāo)和廣告等的加載問題

          b. iframe無刷新文件上傳

          c. iframe跨域通信

          缺點(diǎn):

          a. iframe會(huì)阻塞主頁面的Onload事件

          b. 無法被一些搜索引擎索引到

          c. 頁面會(huì)增加服務(wù)器的http請(qǐng)求

          d. 會(huì)產(chǎn)生很多頁面,不容易管理。

          參考《iframe的一些記錄》

          10、Quirks模式是什么?它和Standards模式有什么區(qū)別?

          在寫程序時(shí)我們也會(huì)經(jīng)常遇到這樣的問題,如何保證原來的接口不變,又提供更強(qiáng)大的功能,尤其是新功能不兼容舊功能時(shí)。IE6以前的頁面大家都不會(huì)去寫DTD,所以IE6就假定 如果寫了DTD,就意味著這個(gè)頁面將采用對(duì)CSS支持更好的布局,而如果沒有,則采用兼容之前的布局方式。這就是Quirks模式(怪癖模式,詭異模式,怪異模式)。

          區(qū)別:總體會(huì)有布局、樣式解析和腳本執(zhí)行三個(gè)方面的區(qū)別。

          a. 盒模型:在W3C標(biāo)準(zhǔn)中,如果設(shè)置一個(gè)元素的寬度和高度,指的是元素內(nèi)容的寬度和高度,而在Quirks 模式下,IE的寬度和高度還包含了padding和border。

          b. 設(shè)置行內(nèi)元素的高寬:在Standards模式下,給等行內(nèi)元素設(shè)置wdith和height都不會(huì)生效,而在quirks模式下,則會(huì)生效。

          c. 設(shè)置百分比的高度:在standards模式下,一個(gè)元素的高度是由其包含的內(nèi)容來決定的,如果父元素沒有設(shè)置百分比的高度,子元素設(shè)置一個(gè)百分比的高度是無效的用

          d. 設(shè)置水平居中:使用margin:0 auto在standards模式下可以使元素水平居中,但在quirks模式下卻會(huì)失效。

          11、請(qǐng)闡述table的缺點(diǎn)

          a. 太深的嵌套,比如table>tr>td>h3,會(huì)導(dǎo)致搜索引擎讀取困難,而且,最直接的損失就是大大增加了冗余代碼量。

          b. 靈活性差,比如要將tr設(shè)置border等屬性,是不行的,得通過td

          c. 代碼臃腫,當(dāng)在table中套用table的時(shí)候,閱讀代碼會(huì)顯得異常混亂

          d. 混亂的colspan與rowspan,用來布局時(shí),頻繁使用他們會(huì)造成整個(gè)文檔順序混亂。

          e. 不夠語義

          參考《為什么說table表格布局不好?》

          12、簡述一下src與href的區(qū)別

          src用于替換當(dāng)前元素;href用于在當(dāng)前文檔和引用資源之間確立聯(lián)系。

          src是source的縮寫,指向外部資源的位置,指向的內(nèi)容將會(huì)嵌入到文檔中當(dāng)前標(biāo)簽所在位置

          href是Hypertext Reference的縮寫,指向網(wǎng)絡(luò)資源所在位置,建立和當(dāng)前元素(錨點(diǎn))或當(dāng)前文檔(鏈接)之間的鏈接

          公眾號(hào)【傳智播客博學(xué)谷】回復(fù)關(guān)鍵詞:前端 PS Java Python 大數(shù)據(jù) 區(qū)塊鏈 測(cè)試 PPT JS HTML 簡歷 領(lǐng)取相關(guān)學(xué)習(xí)資料!


          主站蜘蛛池模板: 国产传媒一区二区三区呀| 日本韩国一区二区三区| 无码人妻AV免费一区二区三区| 国产爆乳无码一区二区麻豆 | 日韩有码一区二区| 亚洲AV乱码一区二区三区林ゆな| 亚洲国产精品综合一区在线 | 色欲综合一区二区三区| 国产萌白酱在线一区二区| 国产成人无码AV一区二区| 成人精品视频一区二区| 国产精品无码一区二区三区电影| 女同一区二区在线观看| 国产一区二区免费| 国产精品区AV一区二区| 国产精品无码一区二区在线观 | 福利国产微拍广场一区视频在线 | 亚洲一区在线观看视频| 韩日午夜在线资源一区二区 | 国产一区二区三区高清视频| 亚洲欧洲专线一区| 91精品一区二区三区在线观看| 一区二区三区四区视频在线| 亚洲AV日韩综合一区| 亚洲国产精品综合一区在线| 久久99国产精品一区二区| 中文字幕乱码一区二区免费| 无码av不卡一区二区三区| 美女AV一区二区三区| 国产一区二区女内射| 中文字幕久久亚洲一区| 国产成人久久精品麻豆一区| 精品国产一区二区三区AV性色| 激情啪啪精品一区二区| 国产成人AV区一区二区三| 精品国产一区二区三区免费看| 国产福利在线观看一区二区| 国产精品熟女视频一区二区| 无码av免费毛片一区二区| 女同一区二区在线观看| 制服丝袜一区在线|