Beautiful Soup 是一個可以從 HTML 或 XML 文件中提取數據的 Python 庫,它提供了一些簡單的操作方式來幫助你處理文檔導航,查找,修改文檔等繁瑣的工作。因為使用簡單,所以 Beautiful Soup 會幫你節(jié)省不少的工作時間。
你可以使用如下命令安裝 Beautiful Soup。二選一即可。
$ easy_install beautifulsoup4
$ pip install beautifulsoup4
Beautiful Soup 不僅支持 Python 標準庫中的 HTML 解析器,還支持很多第三方的解析器,比如 lxml,html5lib 等。初始化 Beautiful Soup 對象時如果不指定解析器,那么 Beautiful Soup 將會選擇最合適的解析器(前提是你的機器安裝了該解析器)來解析文檔,當然你也可以手動指定解析器。這里推薦大家使用 lxml 解析器,功能強大,方便快捷,而且該解析器是唯一支持 XML 的解析器。
你可以使用如下命令來安裝 lxml 解析器。二選一即可。
$ easy_install lxml
$ pip install lxml
Beautiful Soup 使用來起來非常簡單,你只需要傳入一個文件操作符或者一段文本即可得到一個構建完成的文檔對象,有了該對象之后,就可以對該文檔做一些我們想做的操作了。而傳入的文本大都是通過爬蟲爬取過來的,所以 Beautiful Soup 和 requests 庫結合使用體驗更佳。
# demo 1
from bs4 import BeautifulSoup
# soup=BeautifulSoup(open("index.html"))
soup=BeautifulSoup("<html><head><title>index</title></head><body>content</body></html>", "lxml") # 指定解析器
print(soup.head)
# 輸出結果
<head><title>index</title></head>
Beautiful Soup 將復雜的 HTML 文檔轉換成一個復雜的樹形結構,每個節(jié)點都是 Python 對象,所有對象可以歸納為 4 種: Tag,NavigableString,BeautifulSoup,Comment。
Tag 就是 HTML 的一個標簽,比如 div,p 標簽等,也是我們用的最多的一個對象。
NavigableString 指標簽內部的文字,直譯就是可遍歷的字符串。
BeautifulSoup 指一個文檔的全部內容,可以當成一個 Tag 來處理。
Comment 是一個特殊的 NavigableString,其輸出內容不包括注視內容。
為了故事的順利發(fā)展,我們先定義一串 HTML 文本,下文的所有例子都是基于這段文本的。
html_doc="""
<html><head><title>index</title></head>
<body>
<p class="title"><b>首頁</b></p>
<p class="main">我常用的網站
<a href="https://www.google.com" class="website" id="google">Google</a>
<a href="https://www.baidu.com" class="website" id="baidu">Baidu</a>
<a href="https://cn.bing.com" class="website" id="bing">Bing</a>
</p>
<div><!--這是注釋內容--></div>
<p class="content1">...</p>
<p class="content2">...</p>
</body>
"""
Tag 有兩個很重要的屬性,name 和 attributes。期中 name 就是標簽的名字,attributes 是標簽屬性。標簽的名字和屬性是可以被修改的,注意,這種修改會直接改變 BeautifulSoup 對象。
# demo 2
soup=BeautifulSoup(html_doc, "lxml");
p_tag=soup.p
print(p_tag.name)
print(p_tag["class"])
print(p_tag.attrs)
p_tag.name="myTag" # attrs 同樣可被修改,操作同字典
print(p_tag)
#輸出結果
p
['title']
{'class': ['title']}
<myTag class="title"><b>首頁</b></myTag>
由以上例子我么可以看出,可以直接通過點屬性的方法來獲取 Tag,但是這種方法只能獲取第一個標簽。同時我們可以多次調用點屬性這個方法,來獲取更深層次的標簽。
# demo 3
soup=BeautifulSoup(html_doc, "lxml");
print(soup.p.b)
#輸出結果
<b>首頁</b>
如果想獲得所有的某個名字的標簽,則可以使用 find_all(tag_name) 函數。
# demo 4
soup=BeautifulSoup(html_doc, "lxml");
a_tags=soup.find_all("a")
print(a_tags)
#輸出結果
[<a class="website" href="https://www.google.com" id="google">Google</a>, <a class="website" href="https://www.baidu.com" id="baidu">Baidu</a>, <a class="website" href="https://cn.bing.com" id="bing">Bing</a>]
我們可以使用 .contents 將 tag 以列表方式輸出,即將 tag 的子節(jié)點格式化為列表,這很有用,意味著可以通過下標進行訪問指定節(jié)點。同時我們還可以通過 .children 生成器對節(jié)點的子節(jié)點進行遍歷。
# demo 5
soup=BeautifulSoup(html_doc, "lxml");
head_tag=soup.head
print(head_tag)
print(head_tag.contents)
for child in head_tag.children:
print("child is : ", child)
#輸出結果
<head><title>index</title></head>
[<title>index</title>]
child is : <title>index</title>
.children 只可以獲取 tag 的直接節(jié)點,而獲取不到子孫節(jié)點,.descendants 可以滿足你。
# demo 6
soup=BeautifulSoup(html_doc, "lxml");
head_tag=soup.head
for child in head_tag.descendants:
print("child is : ", child)
# 輸出結果
child is : <title>index</title>
child is : index
通過 .parent 屬性獲取標簽的父親節(jié)點。 title 的父標簽是 head,html 的父標簽是 BeautifulSoup 對象,而 BeautifulSoup 對象的父標簽是 None。
# demo 7
soup=BeautifulSoup(html_doc, "lxml");
title_tag=soup.title
print(title_tag.parent)
print(type(soup.html.parent))
print(soup.parent)
# 輸出結果
<head><title>index</title></head>
<class 'bs4.BeautifulSoup'>
None
同時,我們可以通過 parents 得到指定標簽的所有父親標簽。
# demo 8
soup=BeautifulSoup(html_doc, "lxml");
a_tag=soup.a
for parent in a_tag.parents:
print(parent.name)
# 輸出結果
p
body
html
[document]
通過 .next_sibling 和 .previous_sibling 來獲取下一個標簽和上一個標簽。
# demo 9
soup=BeautifulSoup(html_doc, "lxml");
div_tag=soup.div
print(div_tag.next_sibling)
print(div_tag.next_sibling.next_sibling)
# 輸出結果
<p class="content1">...</p>
你可能會納悶,調用了兩次 next_sibling 怎么只有一個輸出呢,這方法是不是有 bug 啊。事實上是 div 的第一個 next_sibling 是div 和 p 之間的換行符。這個規(guī)則對于 previous_sibling 同樣適用。
另外,我們可以通過 .next_siblings 和 .previous_siblings 屬性可以對當前節(jié)點的兄弟節(jié)點迭代輸出。在該例子中,我們在每次輸出前加了前綴,這樣就可以更直觀的看到 dib 的第一個 previous_sibling 是換行符了。
# demo 10
soup=BeautifulSoup(html_doc, "lxml");
div_tag=soup.div
for pre_tag in div_tag.previous_siblings:
print("pre_tag is : ", pre_tag)
# 輸出結果
pre_tag is :
pre_tag is : <p class="main">我常用的網站
<a class="website" href="https://www.google.com" id="google">Google</a>
<a class="website" href="https://www.baidu.com" id="baidu">Baidu</a>
<a class="website" href="https://cn.bing.com" id="bing">Bing</a>
</p>
pre_tag is :
pre_tag is : <p class="title"><b>首頁</b></p>
pre_tag is :
通過 .next_element 和 .previous_element 獲取指定標簽的前一個或者后一個被解析的對象,注意這個和兄弟節(jié)點是有所不同的,兄弟節(jié)點是指有相同父親節(jié)點的子節(jié)點,而這個前一個或者后一個是按照文檔的解析順序來計算的。
比如在我們的文本 html_doc 中,head 的兄弟節(jié)點是 body(不考慮換行符),因為他們具有共同的父節(jié)點 html,但是 head 的下一個節(jié)點是 title。即soup.head.next_sibling=title soup.head.next_element=title
# demo 11
soup=BeautifulSoup(html_doc, "lxml");
head_tag=soup.head
print(head_tag.next_element)
title_tag=soup.title
print(title_tag.next_element)
# 輸出結果
<title>index</title>
index
同時這里還需要注意的是 title 下一個解析的標簽不是 body,而是 title 標簽內的內容,因為 html 的解析順序是打開 title 標簽,然后解析內容,最后關閉 title 標簽。
另外,我們同樣可以通過 .next_elements 和 .previous_elements 來迭代文檔樹。由遺下例子我們可以看出,換行符同樣會占用解析順序,與迭代兄弟節(jié)點效果一致。
# demo 12
soup=BeautifulSoup(html_doc, "lxml");
div_tag=soup.div
for next_element in div_tag.next_elements:
print("next_element is : ", next_element)
# 輸出結果
next_element is : 這是注釋內容
next_element is :
next_element is : <p class="content1">...</p>
next_element is : ...
next_element is :
next_element is : <p class="content2">...</p>
next_element is : ...
next_element is :
next_element is :
本章節(jié)介紹了 Beautiful Soup 的使用場景以及操作文檔樹節(jié)點的基本操作,看似很多東西其實是有規(guī)律可循的,比如函數的命名,兄弟節(jié)點或者下一個節(jié)點的迭代函數都是獲取單個節(jié)點函數的復數形式。
同時由于 HTML 或者 XML 這種循環(huán)嵌套的復雜文檔結構,致使操作起來甚是麻煩,掌握了本文對節(jié)點的基本操作,將有助于提高你寫爬蟲程序的效率。
本文主要記錄常用的html標簽使用說明,用起來的時候偶爾查查。
標簽 | 英文全拼 | 作用 | 特點 |
?<html></html>?? | html | 網頁的根標簽 | 所有的標簽都要寫在這一對根標簽里面 |
??<head></head>?? | head | 網頁的頭標簽 | 包括完檔的屬性和信息 |
??<body></body>?? | body | 網頁的主題 | 包含文檔的所有內容 |
??<div></div>?? | division | 定義一個區(qū)域 | 瀏覽器通常會在??<div>??前后放置一個換行符 |
??<!-- 注釋 -->?? | - | 注釋 | 單標簽 |
??<br>或<br/>?? | break | 換行 | 單標簽,不會在其前后創(chuàng)建空白行 |
??<hr>或<hr/>?? | horizontal rule | 添加水平線 | 單標簽 |
??<img src="">?? | image | 添加圖片 | 單標簽 |
??<embed src="">?? | embed | 嵌入外部應用 | 單標簽 |
??<meta>?? | meta | 提供有關頁面的元信息 | 單標簽,??<meta>???標簽通常位于??<head>??區(qū)域內 |
??<link>?? | link | 定義文檔與外部資源的關系 | 單標簽,??<link>???標簽只能存在于??<head>??區(qū)域內,不過它可出現(xiàn)任何次數。 |
??<p></p>?? | paragraph | 定義段落 | 自動在其前后創(chuàng)建空白行 |
??<h1> to <h6>?? | Header 1 to Header 6 | 定義標題 | h1在一個頁面里只能出現(xiàn)一次 |
??<strong></strong>?? | strong | 文本加粗 | 加粗標記該文本 |
??<b></b>?? | bold | 文本加粗 | 加粗顯示文本,不推薦使用 |
??<em></em>?? | emphasize | 文本傾斜 | 傾斜標記文本 |
??<i></i>?? | italic | 文本傾斜 | 傾斜顯示文本,不推薦使用 |
??<del></del>?? | delete | 文本添加刪除線 | - |
??<s></s>?? | strike | 文本添加刪除線 | 不推薦使用 |
??<ins></ins>?? | insert | 文本添加下劃線 | - |
??<u></u>?? | underline | 文本添加下劃線 | 不推薦使用 |
??<a href="">填寫內容</a>?? | anchor | 添加超鏈接 | 最好使用CSS來改變鏈接的樣式 |
??<ul></ul>?? | unordered list | 定義無序列表 | 通常與??<li>??標簽一起使用 |
??<ol></ol>?? | ordered list | 定義有序列表 | 通常與??<li>??標簽一起使用 |
??<li></li>?? | list item | 創(chuàng)建列表項 | 可與各種列表定義標簽一起使用 |
??<dl></dl>?? | definition list | 定義描述列表 | 通常與??<dt>???和??<dd>??一起使用 |
??<dt></dt>?? | definition term | 定義條目 | 定義描述列表的項目 |
??<dd></dd>?? | definition description | 定義描述 | 對描述列表中的項目進行描述 |
??<table></table>?? | table | 定義HTML表格 | 盡可能通過樣式改變表格外觀 |
??<tr></tr>?? | table row | 定義表格的行 | 一個??<tr>???標簽包含一個或多個??<th>???或??<td>??標簽 |
??<th></th>?? | table headline | 定義表格每一列的標題 | 該標簽的文本通常呈現(xiàn)為粗體且居中 |
??<td></td>?? | table data | 定義表格中的單元格數據 | 該標簽的文本呈現(xiàn)為普通且左對齊 |
??<caption>表格標題</caption>?? | caption | 定義整個表格的標題 | ??<caption>???標簽必須直接放在??<table>??標簽后 |
??<input type="">?? | input | 定義輸入控件 | 輸入字段可通過多種方式改變,取決于type屬性 |
??select?? | select | 定義下拉列表 | ??<select>???中的??<option>??標簽定義了列表中的可用選項 |
??<option></option>?? | option | 定義下拉列表中的可用項 | ??<option>??標簽不可自由定義寬高 |
??<optgroup></optgroup>?? | options group | 定義選項組 | ??<optgroup>??標簽用于把相關的選項組合在一起 |
??<textarea></textarea>?? | textarea | 定義多行的文本輸入控件 | 文本的默認字體是等寬字體 |
??<form></form>?? | form | 定義表單 | ??<form>??可以包含多個元素 |
??<fieldset></fieldset>?? | field set | 定義圍繞表單中元素的邊框 | ??<legend>???為??<fieldset>??定義標題 |
??<legend></legend>?? | legend | 為??<fieldset>??定義標題 | ??<legend>??通過css設定樣式 |
??<progress></progress>?? | progress | 定義運行中的任務進度 | ??<progress>???是HTML5中的新標簽,??<progress>??標簽不適合用來表示度量衡 |
??<meter></meter>?? | meter | 度量衡 | ??<meter>???是HTML5的新標簽,??<meter>??標簽不適合用來表示進度條 |
??<audio></audio>?? | audio | 添加音頻 | ??<audio>??標簽是HTML5的新標簽 |
??<video></video>?? | video | 添加視頻 | ??<video>??標簽是HTML5的新標簽 |
??<source>?? | source | 定義媒介資源 | ??<source>??標簽是HTML5中的新標簽 |
普通用法
錨點鏈接
錨點鏈接通過點擊超鏈接,自動跳轉到我們設置錨點的位置,類似于word的目錄導航。建立錨點的元素必須要有id或name屬性,最好兩個都有。這里只跳轉本頁面元素,其他頁面跳轉自行搜索。
具體做法如下:
示例如下。為了顯示效果,通過使用lorem自動生成隨機文本(具體使用方法搜索,一般直接輸入就行),lorem*50表示重復lorem15次。
<a href="#id2">a</a>
<p id="id1">
(lorem*15)
</p>
(lorem*15)
<p id="id2">
(lorem*15)
</p>
超鏈接全局設置
在頁面head中寫入代碼可以設置超鏈接的全局跳轉設置
<head>
<!-- 讓頁面所有的超鏈接新頁面打開 -->
<base target="_blank">
</head>
charset編碼
name
網頁自動跳轉
無序列表
無序列表使用粗體圓點進行標記。簡單示例如下。
<ul>
<li>1</li>
<li>2</li>
<li>3</li>
...
</ul>
有序列表
有序列表使用數字進行標記,我們可以通過整數值start指定列表編號的起始值。簡單示例如下。
<ol start="2">
<li>a</li>
<li>b</li>
<li>c</li>
...
</ol>
描述列表
通過描述列表自定義列表,列表項內部可以使用段落、換行符、圖片、鏈接以及其他列表等等。簡單示例如下。
<dl>
<dt>A</dt> <!-- 小標題 -->
<dd>A1</dd> <!-- 解釋標題 -->
<dd>A2</dd> <!-- 解釋標題 -->
<dt>B</dt> <!-- 小標題 -->
<dd>B1</dd> <!-- 解釋標題 -->
<dd>B2</dd> <!-- 解釋標題 -->
</dl>
基礎表格
簡單示例如下。
<table width="300px" height="100px" border="2" cellspacing="5px" cellpadding="0">
<caption>表格標題</caption> <!-- 定義表格標題 -->
<tr>
<!-- 定義表格的行 -->
<td>A1</td> <!-- 定義表格該行第一列中的數據 -->
<td>B1</td>
<td>C1</td>
</tr>
<tr>
<!-- 定義表格的行 -->
<th>A</th> <!-- 定義表格每一列的標題 -->
<th>B</th>
<th>C</th>
</tr>
<tr>
<td>A2</td>
<td>B2</td>
<td>C2</td>
</tr>
</table>
單元格合并
簡單示例如下。
<table border="2" cellspacing="1px" width="400px" height="100px">
<caption><strong>表格標題</strong></caption> <!-- 定義表格標題 -->
<tr height="100">
<!-- 定義表格的行 -->
<td colspan="2">A1</td> <!-- 定義該行可以橫跨兩列 -->
<td>B1</td>
</tr>
<tr height="100">
<td>A2</td>
<td>B2</td>
<td rowspan="2">C</td> <!-- 定義該行可以橫跨兩行 -->
</tr>
<tr height="100">
<td>A3</td>
<td>B3</td>
</tr>
</table>
對于??<input>??不同的type屬性值,輸入字段擁有很多種形式。輸入字段可以是文本字段、復選框、掩碼后的文本控件、單選按鈕、按鈕等等。
文本輸入框
簡單示例如下。
<input type="text" name="username" maxlength="6" readonly="readonly" disabled="disabled" value="用戶名">
密碼輸入框
簡單示例如下。
<input type="password" name="pwd" maxlength="6" readonly="readonly" disabled="disabled" value="密碼">
單選框
示例一,兩個單選框都可以被選中
<div>
<input type="radio" name="man" checked="checked">男
</div>
<div>
<input type="radio" name="woman">女
</div>
示例二,兩個單選框只能有一個被選中
<div>
<input type="radio" name="gender" checked="checked">男
</div>
<div>
<input type="radio" name="gender">女
</div>
下拉列表
??<select>??
??<optgroup>??
??<option>??
示例一,單選下拉列表
<select>
<option value="a">a</option>
<option value="b">b</option>
<option value="c" selected='selected'>c</option> <!-- 默認選中 -->
</select>
示例二,帶組合的單選下拉列表
<select>
<optgroup label="A">
<option value="a1">a1</option>
<option value="a2" selected='selected'>a2</option>
</optgroup>
<optgroup label="B">
<option value="b1">b1</option>
<option value="b2">b2</option>
</optgroup>
</select>
示例三,帶組合的多選下拉列表
<select multiple=”multiple”>
<optgroup label="A">
<option value="a1">a1</option>
<option value="a2" selected='selected'>a2</option>
</optgroup>
<optgroup label="B">
<option value="b1" selected='selected'>b1</option>
<option value="b2">b2</option>
</optgroup>
</select>
多選框
簡單示例如下。
<input type="checkbox" checked="checked">A
<input type="checkbox">B
文本框
簡單示例如下。
<textarea cols="5" rows="2" placeholder="text"></textarea>
文本上傳控件
簡單示例如下。
<input type="file" accept="image/gif, image/jpeg"/>
其他類型按鈕
<input type="submit">文件提交按鈕
<input type="button" value="">普通按鈕
<input type="image" src="">圖片按鈕
<input type="reset">重置按鈕
<input type="url">網址控件
<input type="date">日期控件
<input type="time">時間控件
<!--email提供了郵箱的完整驗證,必須包含@和后綴,如果不滿足驗證,會阻止表單提交-->
<input type="email">郵件控件
<input type="number" step="3">數字控件
<input type="range" step="100">滑塊控件
<input type="color">顏色控件
表單
示例一,普通表單
<form>
First name: <input type="text" name="fname"><br>
Last name: <input type="text" name="lname"><br>
<input type="submit" value="提交">
</form>
示例二,帶分組信息表單
<form>
<fieldset>
<legend>Personalia:</legend>
First name: <input type="text" name="fname"><br>
Last name: <input type="text" name="lname"><br>
<input type="submit" value="提交">
</fieldset>
First nameA: <input type="text" name="fname"><br>
Last nameB: <input type="text" name="lname"><br>
</form>
??<progress>???與??<meter>??主要區(qū)別和用法見??HTML5 progress和meter控件??
??<progress>??
簡單示例如下。
<progress value="60" max="100"></progress>
??<meter>??
簡單示例如下
<meter min="0" low="40" high="90" max="100" value="91"></meter>
<meter min="0" low="40" high="90" max="100" value="90"></meter>
??<audio>??
簡單示例如下
<audio src="demo.mp3" controls autoplay></audio>
??<video>??
簡單示例如下
<video src="demo.mp4" controls autoplay height="500px" poster="0.jpg"></video>
??<source>??
簡單示例如下
<video controls>
<source src="demo.mp3" type="audio/mp3">
<source src="demo.mp4" type="video/mp4">
您的瀏覽器不支持video元素。
</video>
??HTML特殊字符編碼對照表??
一篇文章講解“模型-輸出替換”,本篇文章講解“模板-內置標簽之循環(huán)標簽”。
foreach標簽的用法和PHP語法非常接近,用于循環(huán)輸出數組或者對象的屬性,用法如下:
1)基本使用——數據源通過模板變量賦值
①新建Index控制器,并新建index方法,在方法中獲取數據并賦值到模板中
②在index.html模板中用foreach循環(huán)輸出數據
預覽:
2)使用函數或者方法獲取數據源
①使用方法獲取數據源
在index.html模板中使用函數或方法獲取數據源,為了區(qū)分,換一個表查詢,但注意此表要創(chuàng)建模型
預覽:
②使用函數獲取數據源
在公共函數文件common.php文件中,新建getData函數,返回數據。
在index.html模板中使用函數獲取數據源,并循環(huán)輸出:
預覽:
volist標簽通常用于查詢數據集或者二維數組的結果輸出。
1)基本使用
①在Index控制器中,新建voshow方法,在方法中對模板進行賦值
②在index.html模板中進行volist循環(huán)展示
預覽:
2)函數設定數據集
可以直接使用函數設定數據集,而不需要在控制器中給模板變量賦值傳入數據集變量,如:
在index.html模板中使用函數設定數據集:
訪問Index控制器的voshow方法,預覽:
3)輸出部分數據——屬性offset和length
支持輸出查詢結果中的部分數據,例如輸出其中的第5~15條記錄。
在index.html模板中使用屬性offset與length輸出部分數據
數據庫中數據的ID不是連續(xù)的。預覽:
注意:
1. offset為偏移量,從第幾條數據開始;length輸出的數據條數,兩者功能類似于SQL語句中的limit。
4)輸出偶數記錄——屬性mod
在index.html中,輸出偶數記錄:
預覽:
mod屬性還用于控制一定記錄的換行,例如:
在index.html模板中使用mod屬性控制換行。
預覽:
注意:
1. mod屬性為取模,即取余數,在volist中mod是行數(下標)除以mod取余數,行數從0開始。
5)數據源為空輸出提示——empty
①在Index控制器中新建emshow方法,為index.html模板分配空數據
②在index.html模板中,使用empty屬性,輸出為空提示
預覽:
empty屬性還支持變量輸出:
①在Index控制器的emshow方法中賦值給模板變量
②在index.html模板中輸出
預覽:
6)輸出循環(huán)變量——key
在index.html模板中輸出循環(huán)變量:
訪問voshow方法,預覽:
注意:
1. 如果沒有指定key屬性的話,默認使用循環(huán)變量i。
2. 循環(huán)變量值從1開始。
如果要輸出數組的索引,可以直接使用key變量,和循環(huán)變量不同的是,這個key是由數據本身決定,而不是循環(huán)控制的。
在index.html模板中,輸出數組索引key:
預覽:
①在Index控制器中,新建forshow方法:
②在index.html模板中循環(huán)
解析后的代碼為:
預覽:
③測試for循環(huán)的其他屬性
預覽:
關注卓象程序員,定期發(fā)布技術文章
下一篇講解“模板-內置標簽之比較標簽”
*請認真填寫需求信息,我們會在24小時內與您取得聯(lián)系。