編整理了一些爬蟲的案例,代碼都整理出來了~
先來看看有哪些項目呢:
怎么樣?是不是迫不及待的想自己動手試試了呢?
文件下載小助手
一個可以用于下載圖片、視頻、文件的小工具,有下載進度顯示功能。稍加修改即可添加到自己的爬蟲中。
代碼展示:
《筆趣看》盜版小說網站,爬取小說工具
第三方依賴庫安裝:
pip3 install beautifulsoup4
使用方法:
python biqukan.py
代碼展示:
愛奇藝等主流視頻網站的VIP視頻破解助手(暫只支持PC和手機在線觀看VIP視頻!)
運行源碼需要搭建Python3環境,并安裝相應第三方依賴庫:
pip3 install -r requirements.txt
使用方法:
python movie_downloader.py
運行環境:
Windows, Python3 Linux, Python3 Mac, Python3
代碼展示:
百度文庫word文章爬取
代碼不完善,沒有進行打包,不具通用性,純屬娛樂,以后有時間會完善。
代碼展示:
爬取《帥啊》網,帥哥圖片
運行平臺: Windows
Python版本: Python3.x
IDE: Sublime text3
為了也能夠學習到新知識,本次爬蟲教程使用requests第三方庫,這個庫可不是Python3內置的urllib.request庫,而是一個強大的基于urllib3的第三方庫。
代碼展示:
構建代理IP池
代碼展示:
使用Scrapy爬取《火影忍者》漫畫
代碼可以爬取整個《火影忍者》漫畫所有章節的內容,保存到本地。更改地址,可以爬取其他漫畫。保存地址可以在代碼中修改。
代碼展示:
《王者榮耀》推薦出裝查詢小助手
網頁爬取已經會了,想過爬取手機APP里的內容嗎?
代碼展示:
財務報表下載小助手
爬取的數據存入數據庫會嗎?《跟股神巴菲特學習炒股之財務報表入庫(MySQL)》也許能給你一些思路。
代碼展示:
抖音App視頻下載
抖音App的視頻下載,就是普通的App爬取。
代碼展示:
GEETEST驗證碼破解
爬蟲最大的敵人之一是什么?沒錯,驗證碼!Geetest作為提供驗證碼服務的行家,市場占有率還是蠻高的。遇到Geetest提供的滑動驗證碼怎么破?授人予魚不如授人予漁,接下來就為大家呈現本教程的精彩內容。
代碼展示:
用Python搶火車票簡單代碼
可以自己慢慢豐富,蠻簡單,有爬蟲基礎很好操作。
代碼展示:
baiwan:百萬英雄輔助答題
看了網上很多的教程都是通過OCR識別的,這種方法的優點在于通用性強。不同的答題活動都可以參加,但是缺點也明顯,速度有限,并且如果通過調用第三方OCR,有次數限制。但是使用本教程提到的數據接口。我們能很容易的獲取數據,速度快,但是接口是變化的,需要及時更新。
代碼展示:
功能介紹:
服務器端,使用Python(baiwan.py)通過抓包獲得的接口獲取答題數據,解析之后通過百度知道搜索接口匹配答案,將最終匹配的結果寫入文件(file.txt)。
Node.js(app.js)每隔1s讀取一次file.txt文件,并將讀取結果通過socket.io推送給客戶端(index.html)。
親測答題延時在3s左右。
聲明:沒做過后端和前端,花了一天時間,現學現賣弄好的,javascript也是現看現用,百度的程序,調試調試而已。可能有很多用法比較low的地方,用法不對,請勿見怪,有大牛感興趣,可以自行完善。
Netease:根據歌單下載網易云音樂
功能介紹:
根據music_list.txt文件里的歌單的信息下載網易云音樂,將自己喜歡的音樂進行批量下載。
代碼展示:
bilibili:B站視頻和彈幕批量下載
下載B站視頻和彈幕,將xml原生彈幕轉換為ass彈幕文件,支持plotplayer等播放器的彈幕播放。
代碼展示:
使用說明:
python bilibili.py -d 貓 -k 貓 -p 10 三個參數: -d 保存視頻的文件夾名 -k B站搜索的關鍵字 -p 下載搜索結果前多少頁
京東商品曬單圖下載
使用說明:
python jd.py -k 芒果 三個參數: -d 保存圖片的路徑,默認為fd.py文件所在文件夾 -k 搜索關鍵詞 -n 下載商品的曬單圖個數,即n個商店的曬單圖
代碼展示:
對正方教務管理系統個人課表,學生成績,績點等簡單爬取
依賴環境
python庫
下載安裝
在終端輸入如下命令:
git clone git@github.com:Jack-Cherish/python-spider.git
使用方法
安裝依賴包
pip install -r requirements.txt
運行
在當前目錄下輸入:
cd zhengfang_system_spider python spider.py
運行爬蟲,按提示輸入學校教務網,學號,密碼,輸入驗證碼
稍等幾秒鐘,當前ZhengFang_System_Spider文件夾下就會生成zhengfang.txt
個人課表,成績績點均已保存到該文本文件中
代碼展示:
詳細代碼私信小編“芝麻開門”即可免費獲取~
下是一些常用的HTML網頁源代碼示例,這些示例可用作HTML文檔的基礎:
1、創建一個簡單的HTML文檔結構:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport"content="width=device-width,initial-scale=1.0">
<title>My Web Page</title>
</head>
<body>
<h1>Hello,World!</h1>
<p>This is a simple HTML webpage.</p>
</body>
</html>
2、插入圖片:
<img src="image.jpg"alt="Description of the image">
3、創建超鏈接:
<a href="https://www.example.com">Visit Example.com</a>
4、創建無序列表:
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
5、創建有序列表:
<ol>
<li>First item</li>
<li>Second item</li>
<li>Third item</li>
</ol>
6、創建表格:
<table>
<tr>
<th>Header 1</th>
<th>Header 2</th>
</tr>
<tr>
<td>Row 1,Cell 1</td>
<td>Row 1,Cell 2</td>
</tr>
<tr>
<td>Row 2,Cell 1</td>
<td>Row 2,Cell 2</td>
</tr>
</table>
7、插入段落:
<p>This is a paragraph of text.</p>
8、插入換行符:
<p>This is some text.<br>This is on a new line.</p>
9、創建一個文本輸入框:
<input type="text"name="username"placeholder="Enter your username">
10、插入按鈕:
<button type="button">Click me</button>
這些示例代碼只是HTML的基礎,HTML具有更豐富的功能和標記選項,可以根據需要進行擴展和定制。請根據您的具體需求,使用這些示例作為起點,構建您自己的網頁。
【名揚銀河企業網站系統】
【免費】提供企業【網站源碼】,簡單易用,無須擁有代碼基礎。
歡迎留言或私信我們咨詢。
以上內容由【名揚銀河】企業網站系統原創發布,轉載請注明出處。
眾號【傳智播客博學谷】回復關鍵詞:前端 PS Java(100G) Python(80G) 大數據 區塊鏈 測試 PPT JS(40g+300教程) HTML 簡歷 領取相關學習資料!
一、HTML
1、<image>標簽上title屬性與alt屬性的區別是什么?
alt屬性是為了給那些不能看到你文檔中圖像的瀏覽者提供文字說明的。且長度必須少于100個英文字符或者用戶必須保證替換文字盡可能的短。
這包括那些使用本來就不支持圖像顯示或者圖像顯示被關閉的瀏覽器的用戶,視覺障礙的用戶和使用屏幕閱讀器的用戶等。
title屬性為設置該屬性的元素提供建議性的信息。使用title屬性提供非本質的額外信息。參考《alt和title屬性的區別及應用》
2、分別寫出以下幾個HTML標簽:文字加粗、下標、居中、字體
加粗:<b>、<strong>
下標:<sub>
居中:<center>
字體:<font>、<basefont>、參考《HTML標簽列表》
3、請寫出至少5個html5新增的標簽,并說明其語義和應用場景
section:定義文檔中的一個章節
nav:定義只包含導航鏈接的章節
header:定義頁面或章節的頭部。它經常包含 logo、頁面標題和導航性的目錄。
footer:定義頁面或章節的尾部。它經常包含版權信息、法律信息鏈接和反饋建議用的地址。
aside:定義和頁面內容關聯度較低的內容——如果被刪除,剩下的內容仍然很合理。
參考《HTML5 標簽列表》
4、請說說你對標簽語義化的理解?
a. 去掉或者丟失樣式的時候能夠讓頁面呈現出清晰的結構
b. 有利于SEO:和搜索引擎建立良好溝通,有助于爬蟲抓取更多的有效信息:爬蟲依賴于標簽來確定上下文和各個關鍵字的權重;
c. 方便其他設備解析(如屏幕閱讀器、盲人閱讀器、移動設備)以意義的方式來渲染網頁;
d. 便于團隊開發和維護,語義化更具可讀性,遵循W3C標準的團隊都遵循這個標準,可以減少差異化。
5、Doctype作用? 嚴格模式與混雜模式如何區分?它們有何意義?
聲明位于文檔中的最前面,處于 標簽之前。告知瀏覽器以何種模式來渲染文檔。
嚴格模式的排版和 JS 運作模式是,以該瀏覽器支持的最高標準運行。
在混雜模式中,頁面以寬松的向后兼容的方式顯示。模擬老式瀏覽器的行為以防止站點無法工作。
DOCTYPE不存在或格式不正確會導致文檔以混雜模式呈現。
6、你知道多少種Doctype文檔類型?
標簽可聲明三種 DTD 類型,分別表示嚴格版本、過渡版本以及基于框架的 HTML 文檔。
HTML 4.01 規定了三種文檔類型:Strict、Transitional 以及 Frameset。
XHTML 1.0 規定了三種 XML 文檔類型:Strict、Transitional 以及 Frameset。
Standards (標準)模式(也就是嚴格呈現模式)用于呈現遵循最新標準的網頁,
Quirks(包容)模式(也就是松散呈現模式或者兼容模式)用于呈現為傳統瀏覽器而設計的網頁。
7、HTML與XHTML——二者有什么區別
a. XHTML 元素必須被正確地嵌套。
b. XHTML 元素必須被關閉。
c. 標簽名必須用小寫字母。
d. XHTML 文檔必須擁有根元素。
參考《XHTML 與 HTML 之間的差異》
8、html5有哪些新特性、移除了那些元素?
a. HTML5 現在已經不是 SGML 的子集,主要是關于圖像,位置,存儲,多任務等功能的增加。
b. 拖拽釋放(Drag and drop) API
c. 語義化更好的內容標簽(header,nav,footer,aside,article,section)
d. 音頻、視頻API(audio,video)
e. 畫布(Canvas) API
f. 地理(Geolocation) API
g. 本地離線存儲 localStorage 長期存儲數據,瀏覽器關閉后數據不丟失
h. sessionStorage 的數據在頁面會話結束時會被清除
i. 表單控件,calendar、date、time、email、url、search
j. 新的技術webworker, websocket等
移除的元素:
a. 純表現的元素:basefont,big,center, s,strike,tt,u;
b. 對可用性產生負面影響的元素:frame,frameset,noframes;
9、iframe的優缺點?
優點:
a. 解決加載緩慢的第三方內容如圖標和廣告等的加載問題
b. iframe無刷新文件上傳
c. iframe跨域通信
缺點:
a. iframe會阻塞主頁面的Onload事件
b. 無法被一些搜索引擎索引到
c. 頁面會增加服務器的http請求
d. 會產生很多頁面,不容易管理。
參考《iframe的一些記錄》
10、Quirks模式是什么?它和Standards模式有什么區別?
在寫程序時我們也會經常遇到這樣的問題,如何保證原來的接口不變,又提供更強大的功能,尤其是新功能不兼容舊功能時。IE6以前的頁面大家都不會去寫DTD,所以IE6就假定 如果寫了DTD,就意味著這個頁面將采用對CSS支持更好的布局,而如果沒有,則采用兼容之前的布局方式。這就是Quirks模式(怪癖模式,詭異模式,怪異模式)。
區別:總體會有布局、樣式解析和腳本執行三個方面的區別。
a. 盒模型:在W3C標準中,如果設置一個元素的寬度和高度,指的是元素內容的寬度和高度,而在Quirks 模式下,IE的寬度和高度還包含了padding和border。
b. 設置行內元素的高寬:在Standards模式下,給等行內元素設置wdith和height都不會生效,而在quirks模式下,則會生效。
c. 設置百分比的高度:在standards模式下,一個元素的高度是由其包含的內容來決定的,如果父元素沒有設置百分比的高度,子元素設置一個百分比的高度是無效的用
d. 設置水平居中:使用margin:0 auto在standards模式下可以使元素水平居中,但在quirks模式下卻會失效。
11、請闡述table的缺點
a. 太深的嵌套,比如table>tr>td>h3,會導致搜索引擎讀取困難,而且,最直接的損失就是大大增加了冗余代碼量。
b. 靈活性差,比如要將tr設置border等屬性,是不行的,得通過td
c. 代碼臃腫,當在table中套用table的時候,閱讀代碼會顯得異常混亂
d. 混亂的colspan與rowspan,用來布局時,頻繁使用他們會造成整個文檔順序混亂。
e. 不夠語義
參考《為什么說table表格布局不好?》
12、簡述一下src與href的區別
src用于替換當前元素;href用于在當前文檔和引用資源之間確立聯系。
src是source的縮寫,指向外部資源的位置,指向的內容將會嵌入到文檔中當前標簽所在位置
href是Hypertext Reference的縮寫,指向網絡資源所在位置,建立和當前元素(錨點)或當前文檔(鏈接)之間的鏈接
公眾號【傳智播客博學谷】回復關鍵詞:前端 PS Java Python 大數據 區塊鏈 測試 PPT JS HTML 簡歷 領取相關學習資料!
*請認真填寫需求信息,我們會在24小時內與您取得聯系。