python開發—教你如何使用lxml.etree

是一個關于使用lxml.etree進行XML處理的教程。它簡要概述了ElementTree API的主要概念，以及一些簡單的增強功能，使您作為程序員的生活更輕松。

有關API的完整參考，請參閱生成的API文檔。

內容

本文章主要介紹的是元素將屬性作為dict和元素包含文本

元素將屬性作為dict

XML元素支持屬性。您可以直接在Element工廠中創建它們：

>>> root=etree 。元素（“root” ， 有趣=“完全” ）
>>> etree 。tostring （root ）
b'<root interesting=“完全”/>'

屬性只是無序的名稱 - 值對，因此處理它們的一種非常方便的方法是通過Elements的類字典界面：

>>> 打印（根。獲得（“有趣” ））
完全
>>> 打印（根。獲得（“你好” ））
無
>>> 根。集（“你好” ， “忽忽” ）
>>> 打印（根。獲得（“你好” ））
忽忽
>>> etree 。tostring （root ）
b'<root interesting=“完全”hello=“Huhu”/>'
>>> 排序（根。鍵（））
[ '你好'， '有趣']
>>> 為 名稱， 值 中的 排序（根。項目（））：
... 打印（' ％S=％R ' ％ （名稱， 值））
你好='忽忽' 
有趣='完全'

對于您想要進行項目查找或有其他理由獲取“真正的”類字典對象的情況，例如傳遞它，您可以使用attrib屬性：

>>> attributes=root 。ATTRIB
>>> 打印（屬性[ “有趣” ]）
完全
>>> 打印（屬性，獲得（“無此類屬性” ））
無
>>> 屬性[ “你好” ]=“Guten變量” 
>>> 打印（屬性[ “你好” ]）
Guten標簽
>>> 打印（根。獲得（“你好” ））
Guten標簽

請注意，attrib是一個由Element本身支持的類似dict的對象。這意味著元素的任何更改都會反映在屬性中，反之亦然。這也意味著，XML樹在內存中保持活著，只要ATTRIB其要素之一是在使用中。要獲取不依賴于XML樹的屬性的獨立快照，請將其復制到dict中：

>>> d=字典（根。ATTRIB ）
>>> 排序（d 。項目（））
[（ '你好'， 'Guten標簽'），（ '有趣'， '完全'）]
>>> root=etree 。元素（“root” ）
>>> root 。text=“TEXT”
>>> 打印（根。文本）
TEXT
>>> etree 。tostring （root ）
b'<root> TEXT </ root>'

在許多XML文檔（以數據為中心的文檔）中，這是唯一可以找到文本的地方。它由樹層次結構最底部的葉標記封裝。

但是，如果XML用于標記文本文檔（如（X）HTML），則文本也可以出現在樹的中間的不同

歡迎大家加入小編的技術交流全

元素之間：

< HTML > < 體>你好< BR />世界</ 身體> </ HTML >

這里，<br/>標簽被文本包圍。這通常被稱為 文檔樣式或混合內容 XML。Elements通過它們的tail屬性來支持它。它包含直接跟在元素后面的文本，直到XML樹中的下一個元素：

>>> html=etree 。元素（“html” ）
>>> body=etree 。SubElement （html ， “body” ）
>>> body 。text=“TEXT”
>>> etree 。tostring （html ）
b'<html> <body> TEXT </ body> </ html>'
>>> br=etree 。子元素（正文， “br” ）
>>> etree 。tostring （html ）
b'<html> <body> TEXT <br/> </ body> </ html>'
>>> br 。tail=“TAIL” 
>>> etree 。tostring （html ）
b'<html> <body> TEXT <br/> TAIL </ body> </ html>'

兩個屬性.text和.tail足以表示XML文檔中的任何文本內容。這樣，除了Element類之外，ElementTree API不需要任何特殊的文本節點，這些節點往往會相當頻繁（正如您可能從經典DOMAPI中獲知）。

但是，有些情況下尾部文本也會妨礙。例如，當您從樹中序列化元素時，您并不總是希望在結果中使用尾部文本（盡管您仍然需要其子項的尾部文本）。為此， tostring（）函數接受關鍵字參數with_tail：

>>> etree 。tostring （br ）
b'<br/> TAIL' 
>>> etree 。tostring （br ， with_tail=False ） ＃lxml.etree only！
B '<BR/>'

如果你想讀的只有文字，即沒有任何中間變量，你必須遞歸串聯所有文字和尾部以正確的順序屬性。同樣，tostring（）函數來拯救，這次使用method關鍵字：

>>> etree 。tostring （html ， method=“text” ）
b'TEXTTAIL'

如果大家沒有找到一個好的技術交流群或者需要關于python的資料的如1.爬蟲庫--requests，bs4，lxml，scrapy，pyspider2.python開發---Django，Tornado，flask框架3.linux，shell腳本4.selenium自動化測試5.自動化運維Zabbix6.數據庫 MySql，NoSql，redis正則表達式re，網絡編程，面向對象，lambda，IO并發編程，GUI圖形

可以加入小編的群418775537

是一個關于使用lxml.etree進行XML處理的教程。它簡要概述了ElementTree API的主要概念，以及一些簡單的增強功能，使您作為程序員的生活更輕松。

關注小編后續次序更新

本文章主要介紹的是，ElementTree類
從字符串和文件中解析
fromstring（）函數
XML（）函數
parse（）函數
解析器對象
增量解析

ElementTree類

一個ElementTree的主要文檔包裹一個樹根節點。它提供了兩種序列化和一般文檔處理方法。

>>> root=etree 。XML （''' \ 
... <？xml version=“1.0”？> 
... <！DOCTYPE root SYSTEM“test”[<！ENTITY tasty“parsnips”>]> 
... <root> 
... <a>＆tasty; </a> 
... </ root> 
... '''' ）
>>> tree=etree 。ElementTree的（根）
>>> 打印（樹。DOCINFO 。xml_version ）
1.0 
>>> 打印（樹。DOCINFO 。DOCTYPE ）
<！DOCTYPE根SYSTEM “測試”>
>>> 樹。docinfo 。public_id=' - // W3C // DTD XHTML 1.0 Transitional // EN' 
>>> 樹。docinfo 。system_url='文件：//local.dtd' 
>>> 打印（樹。DOCINFO 。DOCTYPE ）
<DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0過渡// EN”“文件：//local.dtd “>

一個ElementTree的也是你得到什么，當你調用解析（）函數來解析文件或類似文件的對象（見下面的分析部）。

其中一個重要區別是ElementTree類序列化為完整文檔，而不是單個元素。這包括頂級處理說明和注釋，以及文檔中的DOCTYPE和其他DTD內容：

>>> 打印（etree 。的toString （樹）） ＃LXML 1.3.4和后
<！DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0過渡// EN” “文件：//local.dtd”[ 
< ！ENTITY美味的“parsnips”> 
]> 
<root> 
 <a> parsnips </a> 
</ root>

在原始的xml.etree.ElementTree實現中，在lxml中最高為1.3.3，輸出看起來與僅序列化根元素時的輸出相同：

>>> 打印（etree 。的toString （樹。getroot （）））
<根> 
 <A>防風草</A> 
</根>

此序列化行為在lxml 1.3.4中已更改。之前，樹被序列化而沒有DTD內容，這使得lxml在輸入 - 輸出周期中丟失了DTD信息。

從字符串和文件中解析

lxml.etree支持以多種方式從所有重要來源解析XML，即字符串，文件，URL（http / ftp）和類文件對象。主要的解析函數是fromstring（）和 parse（），它們都以source作為第一個參數調用。默認情況下，它們使用標準解析器，但您始終可以將不同的解析器作為第二個參數傳遞。

fromstring（）函數

該fromstring（）函數解析字符串的最簡單的方法：

>>> some_xml_data=“<root> data </ root>”
>>> root=etree 。fromstring （some_xml_data ）
>>> 打印（根。標簽）
根
>>> etree 。tostring （root ）
b'<root> data </ root>'

XML（）函數

的XML（）函數的行為類似于fromstring（）函數，但常用于XML文本寫右到源：

>>> root=etree 。XML （“<根>數據</根>” ）
>>> 打印（根。標簽）
根
>>> etree 。tostring （root ）
b'<root> data </ root>'

HTML文字還有一個相應的函數HTML（）。

>>> root=etree 。HTML （“<p>數據</ p>” ）
>>> etree 。tostring （root ）
b'<html> <body> <p> data </ p> </ body> </ html>'

parse（）函數

的解析（）函數是用來從文件和類文件對象進行解析。

作為此類文件對象的示例，以下代碼使用 BytesIO類從字符串而不是外部文件中讀取。該類來自Python 2.6及更高版本中的io模塊。在較舊的Python版本中，您必須使用StringIO模塊中的StringIO類。但是，在現實生活中，你顯然會避免這樣做，并使用上面的字符串解析函數。

>>> from io import BytesIO 
>>> some_file_or_file_like_object=BytesIO （b “<root> data </ root>” ）
>>> tree=etree 。解析（some_file_or_file_like_object ）
>>> etree 。tostring （tree ）
b'<root> data </ root>'

請注意，parse（）返回ElementTree對象，而不是Element對象，因為字符串解析器函數：

>>> root=tree 。getroot （）
>>> 打印（根。標簽）
根
>>> etree 。tostring （root ）
b'<root> data </ root>'

這種差異背后的原因是parse（）從文件返回一個完整的文檔，而字符串解析函數通常用于解析XML片段。

的解析（）函數支持任何以下來源：

打開文件對象（確保以二進制模式打開）
一個類文件對象，它有一個.read（byte_count）方法，在每次調用時返回一個字節字符串
文件名字符串
HTTP或FTP URL字符串

請注意，傳遞文件名或URL通常比傳遞打開的文件或類文件對象更快。但是，libxml2中的HTTP / FTP客戶端非常簡單，因此HTTP身份驗證等需要專用的URL請求庫，例如urllib2或requests。這些庫通常為結果提供類似文件的對象，您可以在響應流入時解析該結果。

解析器對象

默認情況下，lxml.etree使用具有默認設置的標準解析器。如果要配置解析器，可以創建新實例：

>>> parser=etree 。XMLParser （remove_blank_text=True ） 僅限＃lxml.etree！

這將創建一個解析器，在解析時刪除標記之間的空文本，這可以減少樹的大小，并避免懸空尾文本，如果您知道僅空白內容對您的數據沒有意義。一個例子：

>>> root=etree 。XML （“<root> <a/> <b> </ b> </ root>” ， 解析器）
>>> etree 。tostring （root ）
b'<root> <a/> <b> </ b> </ root>'

請注意，<b>標記內的空白內容未被刪除，因為葉元素的內容往往是數據內容（即使是空白）。您可以通過遍歷樹輕松地在其他步驟中刪除它：

>>> 為 元件 在 根。iter （“*” ）：
... if element 。文字 是 不 無 和 不 元素。文字。strip （）：
... 元素。text=無
>>> etree 。tostring （root ）
b'<root> <a/> <b /> </ root>'

請參閱幫助（etree.XMLParser）以了解可用的解析器選項。

增量解析

lxml.etree提供了兩種漸進式逐步解析方法。一種是通過類似文件的對象，它重復調用read（）方法。這最適用于數據來自urllib之類的源或任何其他類似文件的對象，可以根據請求提供數據。請注意，在這種情況下，解析器將阻塞并等待數據可用：

>>> class DataSource ：
... data=[ b “<roo” ， b “t> <” ， b “a /” ， b “> <” ， b “/ root>” ] 
... def read （self ， requested_size ）：
... 嘗試：
... 返回 自我。數據。pop （0 ）
... 除了 IndexError ：
... return b '
>>> tree=etree 。解析（DataSource （））
>>> etree 。tostring （tree ）
b'<root> <a/> </ root>'

第二種方式是通過feed（數據）和close（）方法給出的feed解析器接口：

>>> parser=etree 。XMLParser （）
>>> 解析器。feed （“<roo” ）
>>> 解析器。feed （“t> <” ）
>>> 解析器。feed （“a /” ）
>>> 解析器。feed （“> <” ）
>>> 解析器。feed （“/ root>” ）
>>> root=parser 。關閉（）
>>> etree 。tostring （root ）
b'<root> <a/> </ root>'

在這里，您可以隨時中斷解析過程，稍后再繼續調用feed（）方法。如果你想避免阻塞對解析器的調用，例如在Twisted等框架中，或者數據進入緩慢或塊狀，并且你想在等待下一個塊時做其他事情，這就派上用場了。

在調用close（）方法之后（或者當解析器引發異常時），您可以通過再次調用其feed（）方法來重用解析器：

>>> 解析器。feed （“<root />” ）
>>> root=parser 。close （）
>>> etree 。tostring （root ）
b'<root />'

ElementTree類

一個ElementTree的主要文檔包裹一個樹根節點。它提供了兩種序列化和一般文檔處理方法。

>>> root=etree 。XML （''' \ 
... <？xml version=“1.0”？> 
... <！DOCTYPE root SYSTEM“test”[<！ENTITY tasty“parsnips”>]> 
... <root> 
... <a>＆tasty; </a> 
... </ root> 
... '''' ）
>>> tree=etree 。ElementTree的（根）
>>> 打印（樹。DOCINFO 。xml_version ）
1.0 
>>> 打印（樹。DOCINFO 。DOCTYPE ）
<！DOCTYPE根SYSTEM “測試”>
>>> 樹。docinfo 。public_id=' - // W3C // DTD XHTML 1.0 Transitional // EN' 
>>> 樹。docinfo 。system_url='文件：//local.dtd' 
>>> 打印（樹。DOCINFO 。DOCTYPE ）
<DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0過渡// EN”“文件：//local.dtd “>

一個ElementTree的也是你得到什么，當你調用解析（）函數來解析文件或類似文件的對象（見下面的分析部）。

其中一個重要區別是ElementTree類序列化為完整文檔，而不是單個元素。這包括頂級處理說明和注釋，以及文檔中的DOCTYPE和其他DTD內容：

>>> 打印（etree 。的toString （樹）） ＃LXML 1.3.4和后
<！DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0過渡// EN” “文件：//local.dtd”[ 
< ！ENTITY美味的“parsnips”> 
]> 
<root> 
 <a> parsnips </a> 
</ root>

在原始的xml.etree.ElementTree實現中，在lxml中最高為1.3.3，輸出看起來與僅序列化根元素時的輸出相同：

>>> 打印（etree 。的toString （樹。getroot （）））
<根> 
 <A>防風草</A> 
</根>

此序列化行為在lxml 1.3.4中已更改。之前，樹被序列化而沒有DTD內容，這使得lxml在輸入 - 輸出周期中丟失了DTD信息。

歡迎大家加入小編的技術交流群

從字符串和文件中解析

fromstring（）函數

該fromstring（）函數解析字符串的最簡單的方法：

>>> some_xml_data=“<root> data </ root>”
>>> root=etree 。fromstring （some_xml_data ）
>>> 打印（根。標簽）
根
>>> etree 。tostring （root ）
b'<root> data </ root>'

XML（）函數

的XML（）函數的行為類似于fromstring（）函數，但常用于XML文本寫右到源：

>>> root=etree 。XML （“<根>數據</根>” ）
>>> 打印（根。標簽）
根
>>> etree 。tostring （root ）
b'<root> data </ root>'

HTML文字還有一個相應的函數HTML（）。

>>> root=etree 。HTML （“<p>數據</ p>” ）
>>> etree 。tostring （root ）
b'<html> <body> <p> data </ p> </ body> </ html>'

parse（）函數

的解析（）函數是用來從文件和類文件對象進行解析。

>>> from io import BytesIO 
>>> some_file_or_file_like_object=BytesIO （b “<root> data </ root>” ）
>>> tree=etree 。解析（some_file_or_file_like_object ）
>>> etree 。tostring （tree ）
b'<root> data </ root>'

請注意，parse（）返回ElementTree對象，而不是Element對象，因為字符串解析器函數：

>>> root=tree 。getroot （）
>>> 打印（根。標簽）
根
>>> etree 。tostring （root ）
b'<root> data </ root>'

這種差異背后的原因是parse（）從文件返回一個完整的文檔，而字符串解析函數通常用于解析XML片段。

的解析（）函數支持任何以下來源：

打開文件對象（確保以二進制模式打開）
一個類文件對象，它有一個.read（byte_count）方法，在每次調用時返回一個字節字符串
文件名字符串
HTTP或FTP URL字符串

解析器對象

默認情況下，lxml.etree使用具有默認設置的標準解析器。如果要配置解析器，可以創建新實例：

>>> parser=etree 。XMLParser （remove_blank_text=True ） 僅限＃lxml.etree！

>>> root=etree 。XML （“<root> <a/> <b> </ b> </ root>” ， 解析器）
>>> etree 。tostring （root ）
b'<root> <a/> <b> </ b> </ root>'

請注意，<b>標記內的空白內容未被刪除，因為葉元素的內容往往是數據內容（即使是空白）。您可以通過遍歷樹輕松地在其他步驟中刪除它：

>>> 為 元件 在 根。iter （“*” ）：
... if element 。文字 是 不 無 和 不 元素。文字。strip （）：
... 元素。text=無
>>> etree 。tostring （root ）
b'<root> <a/> <b /> </ root>'

請參閱幫助（etree.XMLParser）以了解可用的解析器選項。

增量解析

>>> class DataSource ：
... data=[ b “<roo” ， b “t> <” ， b “a /” ， b “> <” ， b “/ root>” ] 
... def read （self ， requested_size ）：
... 嘗試：
... 返回 自我。數據。pop （0 ）
... 除了 IndexError ：
... return b '
>>> tree=etree 。解析（DataSource （））
>>> etree 。tostring （tree ）
b'<root> <a/> </ root>'

第二種方式是通過feed（數據）和close（）方法給出的feed解析器接口：

>>> parser=etree 。XMLParser （）
>>> 解析器。feed （“<roo” ）
>>> 解析器。feed （“t> <” ）
>>> 解析器。feed （“a /” ）
>>> 解析器。feed （“> <” ）
>>> 解析器。feed （“/ root>” ）
>>> root=parser 。關閉（）
>>> etree 。tostring （root ）
b'<root> <a/> </ root>'

在調用close（）方法之后（或者當解析器引發異常時），您可以通過再次調用其feed（）方法來重用解析器：

>>> 解析器。feed （“<root />” ）
>>> root=parser 。close （）
>>> etree 。tostring （root ）
b'<root />'

可以加入小編的群418775537

equests庫

Requests :唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。

發送get請求

直接調用requests.get

import requests

response=requests.get('https://www.baidu.com')

response的屬性

import requests

params={'wd': 'python'}
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4090.0 Safari/537.36 Edg/83.0.467.0'}
# params: 接受一個字典或者字符串的查詢參數，字典類型自動轉換為url編碼，不需要urlencode()
response=requests.get('https://www.baidu.com', params=params, headers=headers)
# 查看響應內容，response.text返回的是Unicode格式的數據
print(response.text)
# 查看響應內容，response.content返回的是字節流數據
print(response.content.decode('utf-8'))
# 查看完整url地址
print(response.url)
# 查看響應頭部字符編碼
print(response.encoding)
# 查看響應碼
print(response.status_code)

response.text和response.content的區別

response.content:直接從網絡上面抓取的數據，沒有經過任何解碼，所以是bytes類型（硬盤上和網絡上傳輸的字符串都是bytes類型）
response.text:將response.content進行解碼的字符串，數據類型為str,解碼需要指定一個編碼方式，requests會根據自己的猜測來判斷編碼的方式，所以有時會猜測錯誤，就會導致解碼產生亂碼。這時候應該使用response.content.decode('utf-8')進行手動解碼

發送POST請求

直接調用requests.post，如果返回的是json數據，可以調用response.json()來將json字符串轉為字典或列表

下面是爬取拉勾網的一個示例，記得請求頭添加Cookie，才能成功爬取到

import requests

data={'first': 'true',
        'pn': '1',
        'kd': 'python'}
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/83.0.4090.0 Safari/537.36 Edg/83.0.467.0',
           'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
           'Cookie': 'user_trace_token=20200331183800-0c1f510a-ae9a-4f04-b70d-e17f9edec031; '
                     'LGUID=20200331183800-b8eca414-b7b2-479d-8100-71fff41d8087; _ga=GA1.2.17010052.1585651081; '
                     'index_location_city=%E5%85%A8%E5%9B%BD; lagou_utm_source=B; _gid=GA1.2.807051168.1585805257; '
                     'sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22171302b7caa67e-0dedc0121b2532-255e0c45'
                     '-2073600-171302b7cabb9c%22%2C%22%24device_id%22%3A%22171302b7caa67e-0dedc0121b2532-255e0c45'
                     '-2073600-171302b7cabb9c%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B'
                     '%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22'
                     '%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5'
                     '%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; '
                     'JSESSIONID=ABAAABAABFIAAAC7D7CECCAFCFFA1FCBF3CB10D8EA6A189; '
                     'WEBTJ-ID=20200403095906-1713dc35e58a75-0b564b9cba1732-23580c45-2073600-1713dc35e598e; PRE_UTM=; '
                     'PRE_HOST=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; '
                     'LGSID=20200403095905-8201da05-4bb8-4e93-97bf-724ea6f758af; '
                     'PRE_SITE=https%3A%2F%2Fwww.lagou.com; _gat=1; '
                     'Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585651082,1585879146; TG-TRACK-CODE=index_search; '
                     'X_HTTP_TOKEN=0b356dc3463713117419785851e40fa7a09468f3f0; '
                     'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585879149; '
                     'LGRID=20200403095908-4f1711b9-3e7e-4d54-a400-20c76b57f327; '
                     'SEARCH_ID=b875e8b91a764d63a2dc98d822ca1f85'}
response=requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false',
                         headers=headers,
                         data=data)
print(response.json())

使用代理ip

這里在基礎中已經講到過，使用requests只需要兩行代碼，非常方便

import requests

proxy={'http': '59.44.78.30:54069'}
response=requests.get('http://httpbin.org/ip', proxies=proxy)
print(response.text)

cookie

使用session在多次請求中共享cookie，可以發現相比使用urllib代碼變得特別簡潔

import requests

headers={'User-Agent': ''}
data={'email': '',
        'password': ''}
login_url='http://www.renren.com/PLogin.do'
profile_url='http://www.renren.com/880151247/profile'
session=requests.Session()
session.post(login_url, data=data, headers=headers)
response=session.get(profile_url)
with open('renren.html', 'w', encoding='utf-8') as f:
    f.write(response.text)

處理不信任的SSL證書

對于那些沒有被信任的SSL證書的網站，可以在requests.get和requests.post中設置參數verify=False來進行訪問

XPath語法和lxml模塊

XPath

xpath(XML Path Language)是一門在XML和HTML文檔中查找信息的語言，可用來在XML和HTML文檔中對元素和屬性進行訪問。

XPath開發工具

Chrome插件XPath Helper
Firefox插件Xpath Checker

XPath語法

XPath使用路徑表達式來選取XML文檔中的節點或者節點集，這些路徑表達式和我們在常規的電腦文件系統中的表示式非常類似。

表達式	描述	示例	結果
nodename	選取此節點的所有子節點	bookstore	選取bookstore下所有的子節點
/	如果在最前面，代表從根節點選取，否則選擇某節點下的某個節點	/bookstore	選取根元素下所有的bookstore節點
//	從全局節點中選擇節點，隨便在哪個位置	//book	從全局節點中找到所有的book節點
@	選取某個節點的屬性	//book[@price]	選擇所有擁有price屬性的book節點

謂語

謂語用來查找某個特定的節點或者包含某個指定節點的值的節點，被嵌在方括號中。

路徑表達式	描述
/bookstore/book[1]	選取bookstore下的第一個book元素
/booksotre/book[last()]	選取bookstore下的最后一個book元素
/bookstore/book[position()??]	選取bookstore下前面兩個book元素
//book[@price]	選擇所有擁有price屬性的book節點
//book[@price=10]	選取所有屬性price=10的book元素

通配符

通配符	描述	示例	結果
*	匹配任意節點	/bookstore/*	選取bookstore下的所有子元素
@*	匹配節點中的任何屬性	//book[@*]	選取所有帶有屬性的book元素

選取多個路徑

通過在路徑表達式中使用|運算符，可以選取若干個路徑

//bookstore/book | //book/title
# 選取多個book元素以及book元素下的title元素

運算符

運算符	描述	實例	返回值
\|	計算兩個節點集	//book \| //cd	返回所有擁有book和cd元素的節點集
+，-，*，div	加，減，乘，除	6+1， 6-1， 6 * 1， 6 div 1	7, 5, 6, 6
=, !=, <, <=, >, >=	-	-	返回false或true
or, and	或，與	-	返回false或true
mod	計算除法的余數	5 mod 2	1

注意事項

/和//的區別，/代表只獲取直接子節點，//代表獲取子孫節點。
contains:有時候某個屬性中包含了多個值，那么可以使用contains函數

//div[contains(@class, 'job_detail')]

3.謂詞中的下標從1開始。

lxml庫

lxml是一個HTML/XML的解析器，主要功能是如何解析和提取HTML/XML數據。

基本使用

1，解析html字符串：使用lxml.etree.HTML進行解析

from lxml import etree
htmlElement=etree.HTML(text)
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

2，解析html文件：使用lxml.etree.parse進行解析

htmlElement=etree.parse('tencent.xml')
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

這個函數默認使用XML解析器，所以如果碰到不規范的HTML代碼的時候就會解析錯誤，這時候要創建HTML解析器

parser=etree.HTMLParser(encoding='utf-8')
htmlElement=etree.parse('tencent.xml', parser=parser)
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

XPath和lxml結合使用

使用xpath語法，應該使用Element.xpath方法，xpath返回列表。
獲取標簽屬性
獲取文本使用xpath中的text()函數
如果想在某個標簽下，再執行xpath，獲取這個標簽下的子孫元素，那么應該在斜杠之前加點，代表在當前元素下獲取。

from lxml import etree

parser=etree.HTMLParser(encoding='utf-8')
html=etree.parse('tencent.html', parser=parser)

獲取所有tr標簽

trs=html.xpath('//tr')
for tr in trs:
    print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

獲取第2個tr標簽

tr=html.xpath('//tr[2]')[0]
print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

獲取所有class等于even的tr標簽

trs=html.xpath("//tr[@class='even']")
for tr in trs:
    print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

獲取所有a標簽的href屬性

aList=html.xpath('//a/@href')
for a in aList:
    print('http://hr.tencent.com/' + a)

獲取所有職位信息

在線咨詢

上一篇：價值1000萬的EOS賬戶，你要不要注冊一個？
下一篇：Safari現支持NFC、USB和Lightning

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

python開發—教你如何使用lxml.etree

ElementTree類

從字符串和文件中解析

ElementTree類

從字符串和文件中解析

equests庫

發送get請求

response的屬性

response.text和response.content的區別

發送POST請求

使用代理ip

cookie

處理不信任的SSL證書

XPath語法和lxml模塊

XPath

XPath開發工具

XPath語法

謂語

通配符

選取多個路徑

運算符

注意事項

lxml庫

基本使用

XPath和lxml結合使用

獲取所有tr標簽

獲取第2個tr標簽

獲取所有class等于even的tr標簽

獲取所有a標簽的href屬性

獲取所有職位信息

您的項目需求