整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          python開發—教你如何使用lxml.etree

          python開發—教你如何使用lxml.etree

          是一個關于使用lxml.etree進行XML處理的教程。它簡要概述了ElementTree API的主要概念,以及一些簡單的增強功能,使您作為程序員的生活更輕松。

          有關API的完整參考,請參閱生成的API文檔

          內容

          本文章主要介紹的是元素將屬性作為dict和元素包含文本

          元素將屬性作為dict

          XML元素支持屬性。您可以直接在Element工廠中創建它們:

          >>> root=etree 。元素(“root” , 有趣=“完全” )
          >>> etree 。tostring (root )
          b'<root interesting=“完全”/>'
          

          屬性只是無序的名稱 - 值對,因此處理它們的一種非常方便的方法是通過Elements的類字典界面:

          >>> 打印(根。獲得(“有趣” ))
          完全
          >>> 打印(根。獲得(“你好” ))
          無
          >>> 根。集(“你好” , “忽忽” )
          >>> 打印(根。獲得(“你好” ))
          忽忽
          >>> etree 。tostring (root )
          b'<root interesting=“完全”hello=“Huhu”/>'
          >>> 排序(根。鍵())
          [ '你好', '有趣']
          >>> 為 名稱, 值 中的 排序(根。項目()):
          ... 打印(' %S=%R ' % (名稱, 值))
          你好='忽忽' 
          有趣='完全'
          

          對于您想要進行項目查找或有其他理由獲取“真正的”類字典對象的情況,例如傳遞它,您可以使用attrib屬性:

          >>> attributes=root 。ATTRIB
          >>> 打印(屬性[ “有趣” ])
          完全
          >>> 打印(屬性,獲得(“無此類屬性” ))
          無
          >>> 屬性[ “你好” ]=“Guten變量” 
          >>> 打印(屬性[ “你好” ])
          Guten標簽
          >>> 打印(根。獲得(“你好” ))
          Guten標簽
          

          請注意,attrib是一個由Element本身支持的類似dict的對象。這意味著元素的任何更改都會反映在屬性中 ,反之亦然。這也意味著,XML樹在內存中保持活著,只要ATTRIB其要素之一是在使用中。要獲取不依賴于XML樹的屬性的獨立快照,請將其復制到dict中:

          >>> d=字典(根。ATTRIB )
          >>> 排序(d 。項目())
          [( '你好', 'Guten標簽'),( '有趣', '完全')]
          >>> root=etree 。元素(“root” )
          >>> root 。text=“TEXT”
          >>> 打印(根。文本)
          TEXT
          >>> etree 。tostring (root )
          b'<root> TEXT </ root>'
          

          在許多XML文檔(以數據為中心的文檔)中,這是唯一可以找到文本的地方。它由樹層次結構最底部的葉標記封裝。

          但是,如果XML用于標記文本文檔(如(X)HTML),則文本也可以出現在樹的中間的不同

          歡迎大家加入小編的技術交流全


          元素之間:

          < HTML > < 體>你好< BR />世界</ 身體> </ HTML >
          

          這里,<br/>標簽被文本包圍。這通常被稱為 文檔樣式混合內容 XML。Elements通過它們的tail屬性來支持它 。它包含直接跟在元素后面的文本,直到XML樹中的下一個元素:

          >>> html=etree 。元素(“html” )
          >>> body=etree 。SubElement (html , “body” )
          >>> body 。text=“TEXT”
          >>> etree 。tostring (html )
          b'<html> <body> TEXT </ body> </ html>'
          >>> br=etree 。子元素(正文, “br” )
          >>> etree 。tostring (html )
          b'<html> <body> TEXT <br/> </ body> </ html>'
          >>> br 。tail=“TAIL” 
          >>> etree 。tostring (html )
          b'<html> <body> TEXT <br/> TAIL </ body> </ html>'
          

          兩個屬性.text和.tail足以表示XML文檔中的任何文本內容。這樣,除了Element類之外,ElementTree API不需要任何特殊的文本節點,這些節點往往會相當頻繁(正如您可能從經典DOMAPI中獲知)。

          但是,有些情況下尾部文本也會妨礙。例如,當您從樹中序列化元素時,您并不總是希望在結果中使用尾部文本(盡管您仍然需要其子項的尾部文本)。為此, tostring()函數接受關鍵字參數with_tail:

          >>> etree 。tostring (br )
          b'<br/> TAIL' 
          >>> etree 。tostring (br , with_tail=False ) #lxml.etree only!
          B '<BR/>'
          

          如果你想讀的只有文字,即沒有任何中間變量,你必須遞歸串聯所有文字和尾部 以正確的順序屬性。同樣,tostring()函數來拯救,這次使用method關鍵字:

          >>> etree 。tostring (html , method=“text” )
          b'TEXTTAIL'
          

          如果大家沒有找到一個好的技術交流群或者需要關于python的資料的如1.爬蟲庫--requests,bs4,lxml,scrapy,pyspider2.python開發---Django,Tornado,flask框架3.linux,shell腳本4.selenium自動化測試5.自動化運維Zabbix6.數據庫 MySql,NoSql,redis正則表達式re,網絡編程,面向對象,lambda,IO并發編程,GUI圖形

          可以加入小編的群418775537

          是一個關于使用lxml.etree進行XML處理的教程。它簡要概述了ElementTree API的主要概念,以及一些簡單的增強功能,使您作為程序員的生活更輕松。

          關注小編后續次序更新

          • 本文章主要介紹的是,ElementTree類
          • 從字符串和文件中解析
          • fromstring()函數
          • XML()函數
          • parse()函數
          • 解析器對象
          • 增量解析


          ElementTree類

          一個ElementTree的主要文檔包裹一個樹根節點。它提供了兩種序列化和一般文檔處理方法。

          >>> root=etree 。XML (''' \ 
          ... <?xml version=“1.0”?> 
          ... <!DOCTYPE root SYSTEM“test”[<!ENTITY tasty“parsnips”>]> 
          ... <root> 
          ... <a>&tasty; </a> 
          ... </ root> 
          ... '''' )
          >>> tree=etree 。ElementTree的(根)
          >>> 打印(樹。DOCINFO 。xml_version )
          1.0 
          >>> 打印(樹。DOCINFO 。DOCTYPE )
          <!DOCTYPE根SYSTEM “測試”>
          >>> 樹。docinfo 。public_id=' - // W3C // DTD XHTML 1.0 Transitional // EN' 
          >>> 樹。docinfo 。system_url='文件://local.dtd' 
          >>> 打印(樹。DOCINFO 。DOCTYPE )
          <DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0過渡// EN”“文件://local.dtd “>
          

          一個ElementTree的也是你得到什么,當你調用 解析()函數來解析文件或類似文件的對象(見下面的分析部)。

          其中一個重要區別是ElementTree類序列化為完整文檔,而不是單個元素。這包括頂級處理說明和注釋,以及文檔中的DOCTYPE和其他DTD內容:

          >>> 打印(etree 。的toString (樹)) #LXML 1.3.4和后
          <!DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0過渡// EN” “文件://local.dtd”[ 
          < !ENTITY美味的“parsnips”> 
          ]> 
          <root> 
           <a> parsnips </a> 
          </ root>
          

          在原始的xml.etree.ElementTree實現中,在lxml中最高為1.3.3,輸出看起來與僅序列化根元素時的輸出相同:

          >>> 打印(etree 。的toString (樹。getroot ()))
          <根> 
           <A>防風草</A> 
          </根>
          

          此序列化行為在lxml 1.3.4中已更改。之前,樹被序列化而沒有DTD內容,這使得lxml在輸入 - 輸出周期中丟失了DTD信息。

          從字符串和文件中解析

          lxml.etree支持以多種方式從所有重要來源解析XML,即字符串,文件,URL(http / ftp)和類文件對象。主要的解析函數是fromstring()和 parse(),它們都以source作為第一個參數調用。默認情況下,它們使用標準解析器,但您始終可以將不同的解析器作為第二個參數傳遞。

          fromstring()函數

          該fromstring()函數解析字符串的最簡單的方法:

          >>> some_xml_data=“<root> data </ root>”
          >>> root=etree 。fromstring (some_xml_data )
          >>> 打印(根。標簽)
          根
          >>> etree 。tostring (root )
          b'<root> data </ root>'
          

          XML()函數

          的XML()函數的行為類似于fromstring()函數,但常用于XML文本寫右到源:

          >>> root=etree 。XML (“<根>數據</根>” )
          >>> 打印(根。標簽)
          根
          >>> etree 。tostring (root )
          b'<root> data </ root>'
          

          HTML文字還有一個相應的函數HTML()。

          >>> root=etree 。HTML (“<p>數據</ p>” )
          >>> etree 。tostring (root )
          b'<html> <body> <p> data </ p> </ body> </ html>'
          

          parse()函數

          的解析()函數是用來從文件和類文件對象進行解析。

          作為此類文件對象的示例,以下代碼使用 BytesIO類從字符串而不是外部文件中讀取。該類來自Python 2.6及更高版本中的io模塊。在較舊的Python版本中,您必須使用StringIO模塊中的StringIO類 。但是,在現實生活中,你顯然會避免這樣做,并使用上面的字符串解析函數。

          >>> from io import BytesIO 
          >>> some_file_or_file_like_object=BytesIO (b “<root> data </ root>” )
          >>> tree=etree 。解析(some_file_or_file_like_object )
          >>> etree 。tostring (tree )
          b'<root> data </ root>'
          

          請注意,parse()返回ElementTree對象,而不是Element對象,因為字符串解析器函數:

          >>> root=tree 。getroot ()
          >>> 打印(根。標簽)
          根
          >>> etree 。tostring (root )
          b'<root> data </ root>'
          

          這種差異背后的原因是parse()從文件返回一個完整的文檔,而字符串解析函數通常用于解析XML片段。

          的解析()函數支持任何以下來源:

          • 打開文件對象(確保以二進制模式打開)
          • 一個類文件對象,它有一個.read(byte_count)方法,在每次調用時返回一個字節字符串
          • 文件名字符串
          • HTTP或FTP URL字符串

          請注意,傳遞文件名或URL通常比傳遞打開的文件或類文件對象更快。但是,libxml2中的HTTP / FTP客戶端非常簡單,因此HTTP身份驗證等需要專用的URL請求庫,例如urllib2或requests。這些庫通常為結果提供類似文件的對象,您可以在響應流入時解析該結果。

          解析器對象

          默認情況下,lxml.etree使用具有默認設置的標準解析器。如果要配置解析器,可以創建新實例:

          >>> parser=etree 。XMLParser (remove_blank_text=True ) 僅限#lxml.etree!
          

          這將創建一個解析器,在解析時刪除標記之間的空文本,這可以減少樹的大小,并避免懸空尾文本,如果您知道僅空白內容對您的數據沒有意義。一個例子:

          >>> root=etree 。XML (“<root> <a/> <b> </ b> </ root>” , 解析器)
          >>> etree 。tostring (root )
          b'<root> <a/> <b> </ b> </ root>'
          

          請注意,<b>標記內的空白內容未被刪除,因為葉元素的內容往往是數據內容(即使是空白)。您可以通過遍歷樹輕松地在其他步驟中刪除它:

          >>> 為 元件 在 根。iter (“*” ):
          ... if element 。文字 是 不 無 和 不 元素。文字。strip ():
          ... 元素。text=無
          >>> etree 。tostring (root )
          b'<root> <a/> <b /> </ root>'
          

          請參閱幫助(etree.XMLParser)以了解可用的解析器選項。

          增量解析

          lxml.etree提供了兩種漸進式逐步解析方法。一種是通過類似文件的對象,它重復調用read()方法。這最適用于數據來自urllib之類的源或任何其他類似文件的對象,可以根據請求提供數據。請注意,在這種情況下,解析器將阻塞并等待數據可用:

          >>> class DataSource :
          ... data=[ b “<roo” , b “t> <” , b “a /” , b “> <” , b “/ root>” ] 
          ... def read (self , requested_size ):
          ... 嘗試:
          ... 返回 自我。數據。pop (0 )
          ... 除了 IndexError :
          ... return b '
          >>> tree=etree 。解析(DataSource ())
          >>> etree 。tostring (tree )
          b'<root> <a/> </ root>'
          

          第二種方式是通過feed(數據) 和close()方法給出的feed解析器接口:

          >>> parser=etree 。XMLParser ()
          >>> 解析器。feed (“<roo” )
          >>> 解析器。feed (“t> <” )
          >>> 解析器。feed (“a /” )
          >>> 解析器。feed (“> <” )
          >>> 解析器。feed (“/ root>” )
          >>> root=parser 。關閉()
          >>> etree 。tostring (root )
          b'<root> <a/> </ root>'
          

          在這里,您可以隨時中斷解析過程,稍后再繼續調用feed()方法。如果你想避免阻塞對解析器的調用,例如在Twisted等框架中,或者數據進入緩慢或塊狀,并且你想在等待下一個塊時做其他事情,這就派上用場了。

          在調用close()方法之后(或者當解析器引發異常時),您可以通過 再次調用其feed()方法來重用解析器:

          >>> 解析器。feed (“<root />” )
          >>> root=parser 。close ()
          >>> etree 。tostring (root )
          b'<root />'
          

          ElementTree類

          一個ElementTree的主要文檔包裹一個樹根節點。它提供了兩種序列化和一般文檔處理方法。

          >>> root=etree 。XML (''' \ 
          ... <?xml version=“1.0”?> 
          ... <!DOCTYPE root SYSTEM“test”[<!ENTITY tasty“parsnips”>]> 
          ... <root> 
          ... <a>&tasty; </a> 
          ... </ root> 
          ... '''' )
          >>> tree=etree 。ElementTree的(根)
          >>> 打印(樹。DOCINFO 。xml_version )
          1.0 
          >>> 打印(樹。DOCINFO 。DOCTYPE )
          <!DOCTYPE根SYSTEM “測試”>
          >>> 樹。docinfo 。public_id=' - // W3C // DTD XHTML 1.0 Transitional // EN' 
          >>> 樹。docinfo 。system_url='文件://local.dtd' 
          >>> 打印(樹。DOCINFO 。DOCTYPE )
          <DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0過渡// EN”“文件://local.dtd “>
          

          一個ElementTree的也是你得到什么,當你調用 解析()函數來解析文件或類似文件的對象(見下面的分析部)。

          其中一個重要區別是ElementTree類序列化為完整文檔,而不是單個元素。這包括頂級處理說明和注釋,以及文檔中的DOCTYPE和其他DTD內容:

          >>> 打印(etree 。的toString (樹)) #LXML 1.3.4和后
          <!DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0過渡// EN” “文件://local.dtd”[ 
          < !ENTITY美味的“parsnips”> 
          ]> 
          <root> 
           <a> parsnips </a> 
          </ root>
          

          在原始的xml.etree.ElementTree實現中,在lxml中最高為1.3.3,輸出看起來與僅序列化根元素時的輸出相同:

          >>> 打印(etree 。的toString (樹。getroot ()))
          <根> 
           <A>防風草</A> 
          </根>
          

          此序列化行為在lxml 1.3.4中已更改。之前,樹被序列化而沒有DTD內容,這使得lxml在輸入 - 輸出周期中丟失了DTD信息。

          歡迎大家加入小編的技術交流群

          從字符串和文件中解析

          lxml.etree支持以多種方式從所有重要來源解析XML,即字符串,文件,URL(http / ftp)和類文件對象。主要的解析函數是fromstring()和 parse(),它們都以source作為第一個參數調用。默認情況下,它們使用標準解析器,但您始終可以將不同的解析器作為第二個參數傳遞。

          fromstring()函數

          該fromstring()函數解析字符串的最簡單的方法:

          >>> some_xml_data=“<root> data </ root>”
          >>> root=etree 。fromstring (some_xml_data )
          >>> 打印(根。標簽)
          根
          >>> etree 。tostring (root )
          b'<root> data </ root>'
          

          XML()函數

          的XML()函數的行為類似于fromstring()函數,但常用于XML文本寫右到源:

          >>> root=etree 。XML (“<根>數據</根>” )
          >>> 打印(根。標簽)
          根
          >>> etree 。tostring (root )
          b'<root> data </ root>'
          

          HTML文字還有一個相應的函數HTML()。

          >>> root=etree 。HTML (“<p>數據</ p>” )
          >>> etree 。tostring (root )
          b'<html> <body> <p> data </ p> </ body> </ html>'
          

          parse()函數

          的解析()函數是用來從文件和類文件對象進行解析。

          作為此類文件對象的示例,以下代碼使用 BytesIO類從字符串而不是外部文件中讀取。該類來自Python 2.6及更高版本中的io模塊。在較舊的Python版本中,您必須使用StringIO模塊中的StringIO類 。但是,在現實生活中,你顯然會避免這樣做,并使用上面的字符串解析函數。

          >>> from io import BytesIO 
          >>> some_file_or_file_like_object=BytesIO (b “<root> data </ root>” )
          >>> tree=etree 。解析(some_file_or_file_like_object )
          >>> etree 。tostring (tree )
          b'<root> data </ root>'
          

          請注意,parse()返回ElementTree對象,而不是Element對象,因為字符串解析器函數:

          >>> root=tree 。getroot ()
          >>> 打印(根。標簽)
          根
          >>> etree 。tostring (root )
          b'<root> data </ root>'
          

          這種差異背后的原因是parse()從文件返回一個完整的文檔,而字符串解析函數通常用于解析XML片段。

          的解析()函數支持任何以下來源:

          • 打開文件對象(確保以二進制模式打開)
          • 一個類文件對象,它有一個.read(byte_count)方法,在每次調用時返回一個字節字符串
          • 文件名字符串
          • HTTP或FTP URL字符串

          請注意,傳遞文件名或URL通常比傳遞打開的文件或類文件對象更快。但是,libxml2中的HTTP / FTP客戶端非常簡單,因此HTTP身份驗證等需要專用的URL請求庫,例如urllib2或requests。這些庫通常為結果提供類似文件的對象,您可以在響應流入時解析該結果。

          解析器對象

          默認情況下,lxml.etree使用具有默認設置的標準解析器。如果要配置解析器,可以創建新實例:

          >>> parser=etree 。XMLParser (remove_blank_text=True ) 僅限#lxml.etree!
          

          這將創建一個解析器,在解析時刪除標記之間的空文本,這可以減少樹的大小,并避免懸空尾文本,如果您知道僅空白內容對您的數據沒有意義。一個例子:

          >>> root=etree 。XML (“<root> <a/> <b> </ b> </ root>” , 解析器)
          >>> etree 。tostring (root )
          b'<root> <a/> <b> </ b> </ root>'
          

          請注意,<b>標記內的空白內容未被刪除,因為葉元素的內容往往是數據內容(即使是空白)。您可以通過遍歷樹輕松地在其他步驟中刪除它:

          >>> 為 元件 在 根。iter (“*” ):
          ... if element 。文字 是 不 無 和 不 元素。文字。strip ():
          ... 元素。text=無
          >>> etree 。tostring (root )
          b'<root> <a/> <b /> </ root>'
          

          請參閱幫助(etree.XMLParser)以了解可用的解析器選項。

          增量解析

          lxml.etree提供了兩種漸進式逐步解析方法。一種是通過類似文件的對象,它重復調用read()方法。這最適用于數據來自urllib之類的源或任何其他類似文件的對象,可以根據請求提供數據。請注意,在這種情況下,解析器將阻塞并等待數據可用:

          >>> class DataSource :
          ... data=[ b “<roo” , b “t> <” , b “a /” , b “> <” , b “/ root>” ] 
          ... def read (self , requested_size ):
          ... 嘗試:
          ... 返回 自我。數據。pop (0 )
          ... 除了 IndexError :
          ... return b '
          >>> tree=etree 。解析(DataSource ())
          >>> etree 。tostring (tree )
          b'<root> <a/> </ root>'
          

          第二種方式是通過feed(數據) 和close()方法給出的feed解析器接口:

          >>> parser=etree 。XMLParser ()
          >>> 解析器。feed (“<roo” )
          >>> 解析器。feed (“t> <” )
          >>> 解析器。feed (“a /” )
          >>> 解析器。feed (“> <” )
          >>> 解析器。feed (“/ root>” )
          >>> root=parser 。關閉()
          >>> etree 。tostring (root )
          b'<root> <a/> </ root>'
          

          在這里,您可以隨時中斷解析過程,稍后再繼續調用feed()方法。如果你想避免阻塞對解析器的調用,例如在Twisted等框架中,或者數據進入緩慢或塊狀,并且你想在等待下一個塊時做其他事情,這就派上用場了。

          在調用close()方法之后(或者當解析器引發異常時),您可以通過 再次調用其feed()方法來重用解析器:

          >>> 解析器。feed (“<root />” )
          >>> root=parser 。close ()
          >>> etree 。tostring (root )
          b'<root />'
          

          如果大家沒有找到一個好的技術交流群或者需要關于python的資料的如1.爬蟲庫--requests,bs4,lxml,scrapy,pyspider2.python開發---Django,Tornado,flask框架3.linux,shell腳本4.selenium自動化測試5.自動化運維Zabbix6.數據庫 MySql,NoSql,redis正則表達式re,網絡編程,面向對象,lambda,IO并發編程,GUI圖形

          可以加入小編的群418775537

          equests庫

          Requests :唯一的一個非轉基因的 Python HTTP 庫,人類可以安全享用。

          發送get請求

          直接調用requests.get

          import requests
          
          response=requests.get('https://www.baidu.com')

          response的屬性

          import requests
          
          params={'wd': 'python'}
          headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4090.0 Safari/537.36 Edg/83.0.467.0'}
          # params: 接受一個字典或者字符串的查詢參數,字典類型自動轉換為url編碼,不需要urlencode()
          response=requests.get('https://www.baidu.com', params=params, headers=headers)
          # 查看響應內容,response.text返回的是Unicode格式的數據
          print(response.text)
          # 查看響應內容,response.content返回的是字節流數據
          print(response.content.decode('utf-8'))
          # 查看完整url地址
          print(response.url)
          # 查看響應頭部字符編碼
          print(response.encoding)
          # 查看響應碼
          print(response.status_code)

          response.text和response.content的區別

          • response.content:直接從網絡上面抓取的數據,沒有經過任何解碼,所以是bytes類型(硬盤上和網絡上傳輸的字符串都是bytes類型)
          • response.text:將response.content進行解碼的字符串,數據類型為str,解碼需要指定一個編碼方式,requests會根據自己的猜測來判斷編碼的方式,所以有時會猜測錯誤,就會導致解碼產生亂碼。這時候應該使用response.content.decode('utf-8')進行手動解碼

          發送POST請求

          直接調用requests.post,如果返回的是json數據,可以調用response.json()來將json字符串轉為字典或列表

          下面是爬取拉勾網的一個示例,記得請求頭添加Cookie,才能成功爬取到

          import requests
          
          data={'first': 'true',
                  'pn': '1',
                  'kd': 'python'}
          headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                                   'Chrome/83.0.4090.0 Safari/537.36 Edg/83.0.467.0',
                     'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
                     'Cookie': 'user_trace_token=20200331183800-0c1f510a-ae9a-4f04-b70d-e17f9edec031; '
                               'LGUID=20200331183800-b8eca414-b7b2-479d-8100-71fff41d8087; _ga=GA1.2.17010052.1585651081; '
                               'index_location_city=%E5%85%A8%E5%9B%BD; lagou_utm_source=B; _gid=GA1.2.807051168.1585805257; '
                               'sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22171302b7caa67e-0dedc0121b2532-255e0c45'
                               '-2073600-171302b7cabb9c%22%2C%22%24device_id%22%3A%22171302b7caa67e-0dedc0121b2532-255e0c45'
                               '-2073600-171302b7cabb9c%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B'
                               '%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22'
                               '%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5'
                               '%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; '
                               'JSESSIONID=ABAAABAABFIAAAC7D7CECCAFCFFA1FCBF3CB10D8EA6A189; '
                               'WEBTJ-ID=20200403095906-1713dc35e58a75-0b564b9cba1732-23580c45-2073600-1713dc35e598e; PRE_UTM=; '
                               'PRE_HOST=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; '
                               'LGSID=20200403095905-8201da05-4bb8-4e93-97bf-724ea6f758af; '
                               'PRE_SITE=https%3A%2F%2Fwww.lagou.com; _gat=1; '
                               'Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585651082,1585879146; TG-TRACK-CODE=index_search; '
                               'X_HTTP_TOKEN=0b356dc3463713117419785851e40fa7a09468f3f0; '
                               'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585879149; '
                               'LGRID=20200403095908-4f1711b9-3e7e-4d54-a400-20c76b57f327; '
                               'SEARCH_ID=b875e8b91a764d63a2dc98d822ca1f85'}
          response=requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false',
                                   headers=headers,
                                   data=data)
          print(response.json())
          

          使用代理ip

          這里在基礎中已經講到過,使用requests只需要兩行代碼,非常方便

          import requests
          
          proxy={'http': '59.44.78.30:54069'}
          response=requests.get('http://httpbin.org/ip', proxies=proxy)
          print(response.text)

          cookie

          使用session在多次請求中共享cookie,可以發現相比使用urllib代碼變得特別簡潔

          import requests
          
          headers={'User-Agent': ''}
          data={'email': '',
                  'password': ''}
          login_url='http://www.renren.com/PLogin.do'
          profile_url='http://www.renren.com/880151247/profile'
          session=requests.Session()
          session.post(login_url, data=data, headers=headers)
          response=session.get(profile_url)
          with open('renren.html', 'w', encoding='utf-8') as f:
              f.write(response.text)

          處理不信任的SSL證書

          對于那些沒有被信任的SSL證書的網站,可以在requests.getrequests.post中設置參數verify=False來進行訪問

          XPath語法和lxml模塊

          XPath

          xpath(XML Path Language)是一門在XMLHTML文檔中查找信息的語言,可用來在XMLHTML文檔中對元素和屬性進行訪問。

          XPath開發工具

          • Chrome插件XPath Helper
          • Firefox插件Xpath Checker

          XPath語法

          XPath使用路徑表達式來選取XML文檔中的節點或者節點集,這些路徑表達式和我們在常規的電腦文件系統中的表示式非常類似。

          表達式

          描述

          示例

          結果

          nodename

          選取此節點的所有子節點

          bookstore

          選取bookstore下所有的子節點

          /

          如果在最前面,代表從根節點選取,否則選擇某節點下的某個節點

          /bookstore

          選取根元素下所有的bookstore節點

          //

          從全局節點中選擇節點,隨便在哪個位置

          //book

          從全局節點中找到所有的book節點

          @

          選取某個節點的屬性

          //book[@price]

          選擇所有擁有price屬性的book節點

          謂語

          謂語用來查找某個特定的節點或者包含某個指定節點的值的節點,被嵌在方括號中。

          路徑表達式

          描述

          /bookstore/book[1]

          選取bookstore下的第一個book元素

          /booksotre/book[last()]

          選取bookstore下的最后一個book元素

          /bookstore/book[position()??]

          選取bookstore下前面兩個book元素

          //book[@price]

          選擇所有擁有price屬性的book節點

          //book[@price=10]

          選取所有屬性price=10的book元素

          通配符

          通配符

          描述

          示例

          結果

          *

          匹配任意節點

          /bookstore/*

          選取bookstore下的所有子元素

          @*

          匹配節點中的任何屬性

          //book[@*]

          選取所有帶有屬性的book元素

          選取多個路徑

          通過在路徑表達式中使用|運算符,可以選取若干個路徑

          //bookstore/book | //book/title
          # 選取多個book元素以及book元素下的title元素

          運算符

          運算符

          描述

          實例

          返回值

          |

          計算兩個節點集

          //book | //cd

          返回所有擁有book和cd元素的節點集

          +,-,*,div

          加,減,乘,除

          6+1, 6-1, 6 * 1, 6 div 1

          7, 5, 6, 6

          =, !=, <, <=, >, >=

          -

          -

          返回false或true

          or, and

          或,與

          -

          返回false或true

          mod

          計算除法的余數

          5 mod 2

          1

          注意事項

          1. ///的區別,/代表只獲取直接子節點,//代表獲取子孫節點。
          2. contains:有時候某個屬性中包含了多個值,那么可以使用contains函數
          //div[contains(@class, 'job_detail')]

          3.謂詞中的下標從1開始。

          lxml庫

          lxml是一個HTML/XML的解析器,主要功能是如何解析和提取HTML/XML數據。

          基本使用

          1,解析html字符串:使用lxml.etree.HTML進行解析

          from lxml import etree
          htmlElement=etree.HTML(text)
          print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

          2,解析html文件:使用lxml.etree.parse進行解析

          htmlElement=etree.parse('tencent.xml')
          print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

          這個函數默認使用XML解析器,所以如果碰到不規范的HTML代碼的時候就會解析錯誤,這時候要創建HTML解析器

          parser=etree.HTMLParser(encoding='utf-8')
          htmlElement=etree.parse('tencent.xml', parser=parser)
          print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

          XPath和lxml結合使用

          1. 使用xpath語法,應該使用Element.xpath方法,xpath返回列表。
          2. 獲取標簽屬性
          3. 獲取文本使用xpath中的text()函數
          4. 如果想在某個標簽下,再執行xpath,獲取這個標簽下的子孫元素,那么應該在斜杠之前加點,代表在當前元素下獲取。
          from lxml import etree
          
          parser=etree.HTMLParser(encoding='utf-8')
          html=etree.parse('tencent.html', parser=parser)

          獲取所有tr標簽

          trs=html.xpath('//tr')
          for tr in trs:
              print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

          獲取第2個tr標簽

          tr=html.xpath('//tr[2]')[0]
          print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

          獲取所有class等于even的tr標簽

          trs=html.xpath("//tr[@class='even']")
          for tr in trs:
              print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

          獲取所有a標簽的href屬性

          aList=html.xpath('//a/@href')
          for a in aList:
              print('http://hr.tencent.com/' + a)

          獲取所有職位信息


          主站蜘蛛池模板: 国产一区二区免费| 亚洲国产精品乱码一区二区| 91精品福利一区二区| 国产福利一区视频| 亚洲国产一区二区视频网站| 国产亚洲一区二区三区在线观看| 国产第一区二区三区在线观看| 亚洲AV无码一区二区二三区软件 | 国产亚洲综合一区二区三区| 91一区二区在线观看精品| 一区二区三区福利| 亚洲AV无码一区二区三区鸳鸯影院| 亚洲国产综合无码一区| 福利视频一区二区牛牛| 日韩精品无码一区二区中文字幕| 真实国产乱子伦精品一区二区三区| 国产精品一区二区在线观看| 亚洲美女视频一区二区三区| 国产精品日本一区二区在线播放| 波多野结衣一区二区三区aV高清| 成人国产精品一区二区网站| 女人和拘做受全程看视频日本综合a一区二区视频 | 精品一区二区三区无码免费视频 | 伊人久久一区二区三区无码| 色狠狠一区二区三区香蕉| 亚洲线精品一区二区三区影音先锋 | 麻豆高清免费国产一区| 亚洲国产韩国一区二区| 国产精品视频一区二区三区| 毛片一区二区三区无码| 成人免费一区二区无码视频| 精品国产一区二区三区www| 日韩人妻无码一区二区三区综合部| 成人国产一区二区三区| 国模精品一区二区三区| 一区二区在线观看视频| 污污内射在线观看一区二区少妇| 91精品国产一区| 精品无码国产一区二区三区麻豆| 精品人妻一区二区三区四区| 成人免费av一区二区三区|