編整理了一些爬蟲的案例,代碼都整理出來了~
先來看看有哪些項(xiàng)目呢:
怎么樣?是不是迫不及待的想自己動(dòng)手試試了呢?
文件下載小助手
一個(gè)可以用于下載圖片、視頻、文件的小工具,有下載進(jìn)度顯示功能。稍加修改即可添加到自己的爬蟲中。
代碼展示:
《筆趣看》盜版小說網(wǎng)站,爬取小說工具
第三方依賴庫安裝:
pip3 install beautifulsoup4
使用方法:
python biqukan.py
代碼展示:
愛奇藝等主流視頻網(wǎng)站的VIP視頻破解助手(暫只支持PC和手機(jī)在線觀看VIP視頻!)
運(yùn)行源碼需要搭建Python3環(huán)境,并安裝相應(yīng)第三方依賴庫:
pip3 install -r requirements.txt
使用方法:
python movie_downloader.py
運(yùn)行環(huán)境:
Windows, Python3 Linux, Python3 Mac, Python3
代碼展示:
百度文庫word文章爬取
代碼不完善,沒有進(jìn)行打包,不具通用性,純屬娛樂,以后有時(shí)間會(huì)完善。
代碼展示:
爬取《帥啊》網(wǎng),帥哥圖片
運(yùn)行平臺(tái): Windows
Python版本: Python3.x
IDE: Sublime text3
為了也能夠?qū)W習(xí)到新知識(shí),本次爬蟲教程使用requests第三方庫,這個(gè)庫可不是Python3內(nèi)置的urllib.request庫,而是一個(gè)強(qiáng)大的基于urllib3的第三方庫。
代碼展示:
構(gòu)建代理IP池
代碼展示:
使用Scrapy爬取《火影忍者》漫畫
代碼可以爬取整個(gè)《火影忍者》漫畫所有章節(jié)的內(nèi)容,保存到本地。更改地址,可以爬取其他漫畫。保存地址可以在代碼中修改。
代碼展示:
《王者榮耀》推薦出裝查詢小助手
網(wǎng)頁爬取已經(jīng)會(huì)了,想過爬取手機(jī)APP里的內(nèi)容嗎?
代碼展示:
財(cái)務(wù)報(bào)表下載小助手
爬取的數(shù)據(jù)存入數(shù)據(jù)庫會(huì)嗎?《跟股神巴菲特學(xué)習(xí)炒股之財(cái)務(wù)報(bào)表入庫(MySQL)》也許能給你一些思路。
代碼展示:
抖音App視頻下載
抖音App的視頻下載,就是普通的App爬取。
代碼展示:
GEETEST驗(yàn)證碼破解
爬蟲最大的敵人之一是什么?沒錯(cuò),驗(yàn)證碼!Geetest作為提供驗(yàn)證碼服務(wù)的行家,市場(chǎng)占有率還是蠻高的。遇到Geetest提供的滑動(dòng)驗(yàn)證碼怎么破?授人予魚不如授人予漁,接下來就為大家呈現(xiàn)本教程的精彩內(nèi)容。
代碼展示:
用Python搶火車票簡單代碼
可以自己慢慢豐富,蠻簡單,有爬蟲基礎(chǔ)很好操作。
代碼展示:
baiwan:百萬英雄輔助答題
看了網(wǎng)上很多的教程都是通過OCR識(shí)別的,這種方法的優(yōu)點(diǎn)在于通用性強(qiáng)。不同的答題活動(dòng)都可以參加,但是缺點(diǎn)也明顯,速度有限,并且如果通過調(diào)用第三方OCR,有次數(shù)限制。但是使用本教程提到的數(shù)據(jù)接口。我們能很容易的獲取數(shù)據(jù),速度快,但是接口是變化的,需要及時(shí)更新。
代碼展示:
功能介紹:
服務(wù)器端,使用Python(baiwan.py)通過抓包獲得的接口獲取答題數(shù)據(jù),解析之后通過百度知道搜索接口匹配答案,將最終匹配的結(jié)果寫入文件(file.txt)。
Node.js(app.js)每隔1s讀取一次file.txt文件,并將讀取結(jié)果通過socket.io推送給客戶端(index.html)。
親測(cè)答題延時(shí)在3s左右。
聲明:沒做過后端和前端,花了一天時(shí)間,現(xiàn)學(xué)現(xiàn)賣弄好的,javascript也是現(xiàn)看現(xiàn)用,百度的程序,調(diào)試調(diào)試而已。可能有很多用法比較low的地方,用法不對(duì),請(qǐng)勿見怪,有大牛感興趣,可以自行完善。
Netease:根據(jù)歌單下載網(wǎng)易云音樂
功能介紹:
根據(jù)music_list.txt文件里的歌單的信息下載網(wǎng)易云音樂,將自己喜歡的音樂進(jìn)行批量下載。
代碼展示:
bilibili:B站視頻和彈幕批量下載
下載B站視頻和彈幕,將xml原生彈幕轉(zhuǎn)換為ass彈幕文件,支持plotplayer等播放器的彈幕播放。
代碼展示:
使用說明:
python bilibili.py -d 貓 -k 貓 -p 10 三個(gè)參數(shù): -d 保存視頻的文件夾名 -k B站搜索的關(guān)鍵字 -p 下載搜索結(jié)果前多少頁
京東商品曬單圖下載
使用說明:
python jd.py -k 芒果 三個(gè)參數(shù): -d 保存圖片的路徑,默認(rèn)為fd.py文件所在文件夾 -k 搜索關(guān)鍵詞 -n 下載商品的曬單圖個(gè)數(shù),即n個(gè)商店的曬單圖
代碼展示:
對(duì)正方教務(wù)管理系統(tǒng)個(gè)人課表,學(xué)生成績,績點(diǎn)等簡單爬取
依賴環(huán)境
python庫
下載安裝
在終端輸入如下命令:
git clone git@github.com:Jack-Cherish/python-spider.git
使用方法
安裝依賴包
pip install -r requirements.txt
運(yùn)行
在當(dāng)前目錄下輸入:
cd zhengfang_system_spider python spider.py
運(yùn)行爬蟲,按提示輸入學(xué)校教務(wù)網(wǎng),學(xué)號(hào),密碼,輸入驗(yàn)證碼
稍等幾秒鐘,當(dāng)前ZhengFang_System_Spider文件夾下就會(huì)生成zhengfang.txt
個(gè)人課表,成績績點(diǎn)均已保存到該文本文件中
代碼展示:
詳細(xì)代碼私信小編“芝麻開門”即可免費(fèi)獲取~
下是一些常用的HTML網(wǎng)頁源代碼示例,這些示例可用作HTML文檔的基礎(chǔ):
1、創(chuàng)建一個(gè)簡單的HTML文檔結(jié)構(gòu):
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport"content="width=device-width,initial-scale=1.0">
<title>My Web Page</title>
</head>
<body>
<h1>Hello,World!</h1>
<p>This is a simple HTML webpage.</p>
</body>
</html>
2、插入圖片:
<img src="image.jpg"alt="Description of the image">
3、創(chuàng)建超鏈接:
<a href="https://www.example.com">Visit Example.com</a>
4、創(chuàng)建無序列表:
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
5、創(chuàng)建有序列表:
<ol>
<li>First item</li>
<li>Second item</li>
<li>Third item</li>
</ol>
6、創(chuàng)建表格:
<table>
<tr>
<th>Header 1</th>
<th>Header 2</th>
</tr>
<tr>
<td>Row 1,Cell 1</td>
<td>Row 1,Cell 2</td>
</tr>
<tr>
<td>Row 2,Cell 1</td>
<td>Row 2,Cell 2</td>
</tr>
</table>
7、插入段落:
<p>This is a paragraph of text.</p>
8、插入換行符:
<p>This is some text.<br>This is on a new line.</p>
9、創(chuàng)建一個(gè)文本輸入框:
<input type="text"name="username"placeholder="Enter your username">
10、插入按鈕:
<button type="button">Click me</button>
這些示例代碼只是HTML的基礎(chǔ),HTML具有更豐富的功能和標(biāo)記選項(xiàng),可以根據(jù)需要進(jìn)行擴(kuò)展和定制。請(qǐng)根據(jù)您的具體需求,使用這些示例作為起點(diǎn),構(gòu)建您自己的網(wǎng)頁。
【名揚(yáng)銀河企業(yè)網(wǎng)站系統(tǒng)】
【免費(fèi)】提供企業(yè)【網(wǎng)站源碼】,簡單易用,無須擁有代碼基礎(chǔ)。
歡迎留言或私信我們咨詢。
以上內(nèi)容由【名揚(yáng)銀河】企業(yè)網(wǎng)站系統(tǒng)原創(chuàng)發(fā)布,轉(zhuǎn)載請(qǐng)注明出處。
眾號(hào)【傳智播客博學(xué)谷】回復(fù)關(guān)鍵詞:前端 PS Java(100G) Python(80G) 大數(shù)據(jù) 區(qū)塊鏈 測(cè)試 PPT JS(40g+300教程) HTML 簡歷 領(lǐng)取相關(guān)學(xué)習(xí)資料!
一、HTML
1、<image>標(biāo)簽上title屬性與alt屬性的區(qū)別是什么?
alt屬性是為了給那些不能看到你文檔中圖像的瀏覽者提供文字說明的。且長度必須少于100個(gè)英文字符或者用戶必須保證替換文字盡可能的短。
這包括那些使用本來就不支持圖像顯示或者圖像顯示被關(guān)閉的瀏覽器的用戶,視覺障礙的用戶和使用屏幕閱讀器的用戶等。
title屬性為設(shè)置該屬性的元素提供建議性的信息。使用title屬性提供非本質(zhì)的額外信息。參考《alt和title屬性的區(qū)別及應(yīng)用》
2、分別寫出以下幾個(gè)HTML標(biāo)簽:文字加粗、下標(biāo)、居中、字體
加粗:<b>、<strong>
下標(biāo):<sub>
居中:<center>
字體:<font>、<basefont>、參考《HTML標(biāo)簽列表》
3、請(qǐng)寫出至少5個(gè)html5新增的標(biāo)簽,并說明其語義和應(yīng)用場(chǎng)景
section:定義文檔中的一個(gè)章節(jié)
nav:定義只包含導(dǎo)航鏈接的章節(jié)
header:定義頁面或章節(jié)的頭部。它經(jīng)常包含 logo、頁面標(biāo)題和導(dǎo)航性的目錄。
footer:定義頁面或章節(jié)的尾部。它經(jīng)常包含版權(quán)信息、法律信息鏈接和反饋建議用的地址。
aside:定義和頁面內(nèi)容關(guān)聯(lián)度較低的內(nèi)容——如果被刪除,剩下的內(nèi)容仍然很合理。
參考《HTML5 標(biāo)簽列表》
4、請(qǐng)說說你對(duì)標(biāo)簽語義化的理解?
a. 去掉或者丟失樣式的時(shí)候能夠讓頁面呈現(xiàn)出清晰的結(jié)構(gòu)
b. 有利于SEO:和搜索引擎建立良好溝通,有助于爬蟲抓取更多的有效信息:爬蟲依賴于標(biāo)簽來確定上下文和各個(gè)關(guān)鍵字的權(quán)重;
c. 方便其他設(shè)備解析(如屏幕閱讀器、盲人閱讀器、移動(dòng)設(shè)備)以意義的方式來渲染網(wǎng)頁;
d. 便于團(tuán)隊(duì)開發(fā)和維護(hù),語義化更具可讀性,遵循W3C標(biāo)準(zhǔn)的團(tuán)隊(duì)都遵循這個(gè)標(biāo)準(zhǔn),可以減少差異化。
5、Doctype作用? 嚴(yán)格模式與混雜模式如何區(qū)分?它們有何意義?
聲明位于文檔中的最前面,處于 標(biāo)簽之前。告知瀏覽器以何種模式來渲染文檔。
嚴(yán)格模式的排版和 JS 運(yùn)作模式是,以該瀏覽器支持的最高標(biāo)準(zhǔn)運(yùn)行。
在混雜模式中,頁面以寬松的向后兼容的方式顯示。模擬老式瀏覽器的行為以防止站點(diǎn)無法工作。
DOCTYPE不存在或格式不正確會(huì)導(dǎo)致文檔以混雜模式呈現(xiàn)。
6、你知道多少種Doctype文檔類型?
標(biāo)簽可聲明三種 DTD 類型,分別表示嚴(yán)格版本、過渡版本以及基于框架的 HTML 文檔。
HTML 4.01 規(guī)定了三種文檔類型:Strict、Transitional 以及 Frameset。
XHTML 1.0 規(guī)定了三種 XML 文檔類型:Strict、Transitional 以及 Frameset。
Standards (標(biāo)準(zhǔn))模式(也就是嚴(yán)格呈現(xiàn)模式)用于呈現(xiàn)遵循最新標(biāo)準(zhǔn)的網(wǎng)頁,
Quirks(包容)模式(也就是松散呈現(xiàn)模式或者兼容模式)用于呈現(xiàn)為傳統(tǒng)瀏覽器而設(shè)計(jì)的網(wǎng)頁。
7、HTML與XHTML——二者有什么區(qū)別
a. XHTML 元素必須被正確地嵌套。
b. XHTML 元素必須被關(guān)閉。
c. 標(biāo)簽名必須用小寫字母。
d. XHTML 文檔必須擁有根元素。
參考《XHTML 與 HTML 之間的差異》
8、html5有哪些新特性、移除了那些元素?
a. HTML5 現(xiàn)在已經(jīng)不是 SGML 的子集,主要是關(guān)于圖像,位置,存儲(chǔ),多任務(wù)等功能的增加。
b. 拖拽釋放(Drag and drop) API
c. 語義化更好的內(nèi)容標(biāo)簽(header,nav,footer,aside,article,section)
d. 音頻、視頻API(audio,video)
e. 畫布(Canvas) API
f. 地理(Geolocation) API
g. 本地離線存儲(chǔ) localStorage 長期存儲(chǔ)數(shù)據(jù),瀏覽器關(guān)閉后數(shù)據(jù)不丟失
h. sessionStorage 的數(shù)據(jù)在頁面會(huì)話結(jié)束時(shí)會(huì)被清除
i. 表單控件,calendar、date、time、email、url、search
j. 新的技術(shù)webworker, websocket等
移除的元素:
a. 純表現(xiàn)的元素:basefont,big,center, s,strike,tt,u;
b. 對(duì)可用性產(chǎn)生負(fù)面影響的元素:frame,frameset,noframes;
9、iframe的優(yōu)缺點(diǎn)?
優(yōu)點(diǎn):
a. 解決加載緩慢的第三方內(nèi)容如圖標(biāo)和廣告等的加載問題
b. iframe無刷新文件上傳
c. iframe跨域通信
缺點(diǎn):
a. iframe會(huì)阻塞主頁面的Onload事件
b. 無法被一些搜索引擎索引到
c. 頁面會(huì)增加服務(wù)器的http請(qǐng)求
d. 會(huì)產(chǎn)生很多頁面,不容易管理。
參考《iframe的一些記錄》
10、Quirks模式是什么?它和Standards模式有什么區(qū)別?
在寫程序時(shí)我們也會(huì)經(jīng)常遇到這樣的問題,如何保證原來的接口不變,又提供更強(qiáng)大的功能,尤其是新功能不兼容舊功能時(shí)。IE6以前的頁面大家都不會(huì)去寫DTD,所以IE6就假定 如果寫了DTD,就意味著這個(gè)頁面將采用對(duì)CSS支持更好的布局,而如果沒有,則采用兼容之前的布局方式。這就是Quirks模式(怪癖模式,詭異模式,怪異模式)。
區(qū)別:總體會(huì)有布局、樣式解析和腳本執(zhí)行三個(gè)方面的區(qū)別。
a. 盒模型:在W3C標(biāo)準(zhǔn)中,如果設(shè)置一個(gè)元素的寬度和高度,指的是元素內(nèi)容的寬度和高度,而在Quirks 模式下,IE的寬度和高度還包含了padding和border。
b. 設(shè)置行內(nèi)元素的高寬:在Standards模式下,給等行內(nèi)元素設(shè)置wdith和height都不會(huì)生效,而在quirks模式下,則會(huì)生效。
c. 設(shè)置百分比的高度:在standards模式下,一個(gè)元素的高度是由其包含的內(nèi)容來決定的,如果父元素沒有設(shè)置百分比的高度,子元素設(shè)置一個(gè)百分比的高度是無效的用
d. 設(shè)置水平居中:使用margin:0 auto在standards模式下可以使元素水平居中,但在quirks模式下卻會(huì)失效。
11、請(qǐng)闡述table的缺點(diǎn)
a. 太深的嵌套,比如table>tr>td>h3,會(huì)導(dǎo)致搜索引擎讀取困難,而且,最直接的損失就是大大增加了冗余代碼量。
b. 靈活性差,比如要將tr設(shè)置border等屬性,是不行的,得通過td
c. 代碼臃腫,當(dāng)在table中套用table的時(shí)候,閱讀代碼會(huì)顯得異常混亂
d. 混亂的colspan與rowspan,用來布局時(shí),頻繁使用他們會(huì)造成整個(gè)文檔順序混亂。
e. 不夠語義
參考《為什么說table表格布局不好?》
12、簡述一下src與href的區(qū)別
src用于替換當(dāng)前元素;href用于在當(dāng)前文檔和引用資源之間確立聯(lián)系。
src是source的縮寫,指向外部資源的位置,指向的內(nèi)容將會(huì)嵌入到文檔中當(dāng)前標(biāo)簽所在位置
href是Hypertext Reference的縮寫,指向網(wǎng)絡(luò)資源所在位置,建立和當(dāng)前元素(錨點(diǎn))或當(dāng)前文檔(鏈接)之間的鏈接
公眾號(hào)【傳智播客博學(xué)谷】回復(fù)關(guān)鍵詞:前端 PS Java Python 大數(shù)據(jù) 區(qū)塊鏈 測(cè)試 PPT JS HTML 簡歷 領(lǐng)取相關(guān)學(xué)習(xí)資料!
*請(qǐng)認(rèn)真填寫需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。