優秀Java程序員應該知道的20個實用開源庫

注于Java領域優質技術號，歡迎關注

作者：銀河1號

一個優秀且經驗豐富的Java開發人員的特點之一是對API的廣泛了解，包括JDK和第三方庫。我花了很多時間學習API，特別是在閱讀Effective Java 3rd Edition之后，Joshua Bloch建議如何使用現有的API進行開發，而不是為常用的東西寫新的代碼。

在本文中，我將分享一些Java開發人員應該熟悉的最有用和最重要的庫和API。但是，我沒有包含框架，例如Spring和Hibernate，因為它們非常有名且具有特定功能。

總的來說，我在日常項目包含了有用的庫，包括Log4j日志庫，Jackson JSON解析庫，以及JUnit和Mockito等單元測試API。如果需要在項目中使用，則在項目的classpath包含這些JAR，也可以使用Maven進行依賴管理。

當你使用Maven進行依賴管理時，它會自動下載這些庫，包括它們所依賴的庫，稱為傳遞依賴。

例如，如果你下載Spring Framework，它還將下載Spring所依賴的所有其他JAR，例如Log4j。

你可能沒注意到，但有正確版本的JAR是一個令人頭疼的問題。如果是錯誤的JAR版本，那么你將遇到 ClassNotFoundException， NoClassDefFoundError或 UnsupportedClassVersionError。

這是我收集的一些有用的第三方庫，Java開發可以使用它們在應用中來完成許多有用的功能。要使用這些庫，Java開發人員應該熟悉它，這就是本文的重點。如果你覺得有用，你可以研究該庫并使用它。

1.日志庫

日志庫非常常見，因為在每個項目中都需要它們。它們是服務器端應用最重要的東西，因為日志只放在可以看到應用程序當前運行時情況的地方。盡管JDK附帶了自己的日志庫，但還有更好的替代方案，例如Log4j，SLF4j和LogBack。

Java開發人員應該熟悉日志庫的優缺點，并且知道為什么使用SLF4j比普通Log4j更好。

2. JSON解析庫

在當今的Web服務和物聯網領域，JSON已成為將信息從客戶端傳送到服務器的首選協議。他們已經替換XML成為在獨立平臺間傳輸信息的最佳方式。

遺憾的是，JDK沒有JSON庫。但是，有許多優秀的第三方庫允許你解析和創建JSON消息，如Jackson和Gson。

Java Web開發人員應該熟悉這些庫中的至少一個。如果你想了解有關Jackson和JSON的更多信息，我建議你看看 Udemy的課程JSON with the Java API。

3.單元測試庫

單元測試是將普通開發人員與優秀開發人員區分開來的最重要的事情。程序員經常有理由不寫單元測試，但逃避寫單元測試的最常見的借口是缺乏常用單元測試庫的經驗和知識，包括JUnit，Mockito和PowerMock。

我在2018年有一個目標就是提高我對單元測試和集成測試庫的了解，比如JUnit 5，Cucumber，Robot框架和一些其他的。

我還在Udemy注冊了 JUnit and Mockito Crash Course 。即使你了解JUnit和單元測試的基礎知識，可能也希望更新并進階自己的知識。

4.通用庫

Java開發人員可以使用幾個很好的通用第三方庫，比如Apache Commons和Google Guava。我總是在我的項目中包含這些庫，因為它們簡化了很多功能。

正如Joshua Bloch在Effective Java中所說的那樣，重復造輪子是沒有意義的。我們應該更偏向于使用久經考驗的庫而不是時不時自己來實現。

對Java開發人員來說，熟悉Google Guava和Apache Commons庫是件好事。

5. HTTP庫

我不喜歡JDK的一點是他們對HTTP支持的缺乏。雖然你可以使用java.net包中的類建立HTTP連接，但使用開源的第三方庫（如Apache HttpClient和HttpCore）并不容易或不能無縫結合。

雖然JDK 9帶來了HTTP 2.0的支持和更好的HTTP支持，但我強烈建議所有Java開發人員熟悉流行的HTTP客戶端庫，包括HttpClient和HttpCore。

你還可以查看此文章What's New in Java 9 - Modules and More以了解有關JDK 9對HTTP 2支持的更多信息。

6. XML解析庫

有許多XML解析庫，包括Xerces，JAXB，JAXP，Dom4j和Xstream。Xerces2是Apache Xerces下一高性能版本，完全兼容的XML解析器。這個新版本的Xerces引入了Xerces Native Interface（XNI），這是一個完整的框架，用于構建非常模塊化且易于編程的解析器組件和配置。

Apache Xerces2解析器是XNI的參考實現，但是其他解析器組件，配置和解析器可以使用Xerces Native Interface編寫。Dom4j是另一個適用于Java應用程序的靈活XML框架。如果你想了解有關Java中XML解析的更多信息，建議你查看Udemy 上的 Java Web Services and XML 在線課程。

7. Excel庫

信不信由你 - 所有現實世界的應用程序都必須以某種形式與Microsoft Office進行交互。許多應用程序需要提供在Excel中導出數據的功能，如果必須從Java應用程序執行相同操作，則需要Apache POI API。

這是一個非常豐富的庫，允許你從Java程序讀取和寫入XLS文件。你可以看到該鏈接（http://www.java67.com/2014/09/how-to-read-write-xlsx-file-in-java-apache-poi-example.html），以獲取在核心Java應用程序中讀取Excel文件的工作示例。

8.字節碼庫

如果你正在編寫生成代碼或與字節碼交互的框架，那么你需要一個字節碼庫。

它們允許你讀取和修改應用程序生成的字節碼。Java世界中一些流行的字節碼庫是javassist和Cglib Nodep。

Javassist（Java programming assistant）使Java字節碼操作變得非常簡單。它是一個用于在Java中編輯字節碼的類庫。ASM是另一個有用的字節碼編輯庫。如果你不熟悉字節碼，我建議你查看Introduction to Java Programmers以了解有關它的更多信息。

9.數據庫連接池庫

如果你正在從Java應用程序與數據庫交互但不使用數據庫連接池庫，那么你將丟失一些內容。

由于在運行時創建數據庫連接需要花費時間并使請求處理速度變慢，因此始終建議使用數據庫連接庫。一些流行的是Commons Pool和DBCP。

在Web應用程序中，它的Web服務器通常提供這些功能，但在核心Java應用程序中，你需要將這些連接池庫包含在類路徑中以使用數據庫連接池。

如果你想了解有關JDBC和Web應用程序中的連接池的更多信息，我建議你查看Udemy 中的JSP, Servlet, and JDBC for Beginners課程。

10.消息傳遞庫

與日志記錄和數據庫連接類似，消息傳遞也是許多現實世界Java應用程序的常見功能。

Java提供的JMS，Java Messaging Service不屬于JDK。對于此組件，你需要包含一個單獨的組件 jms.jar。

同樣，如果你正在使用第三方消息傳遞協議（如Tibco RV），則需要使用第三方JAR tibrv.jar 放在應用程序類路徑中。

11. PDF庫

與Microsoft Excel類似，PDF庫是另一種普遍存在的格式。如果你需要在應用程序中支持PDF功能，例如導出數據到PDF文件，則可以使用iText和Apache FOP庫。

兩者都提供有用的PDF相關功能，但iText更豐富，更好。請參閱此處以了解有關iText的更多信息。

12.日期和時間庫

在Java 8之前，JDK的數據和時間庫有很多缺陷，因為它們不是線程安全的，不可變的，并且容易出錯。許多Java開發人員依靠JodaTime來實現他們的日期和時間要求。

從JDK 8開始，沒有理由使用Joda，因為你在JDK 8的新日期和時間API中獲得了所有功能，但如果你使用的是較舊的Java版本，那么JodaTime是一個值得學習的庫。

如果你想了解有關新的日期和時間API的更多信息，我建議你查看Udemy上的What's new in Java 8課程。它提供了Java 8所有重要功能的精彩概述，包括日期和時間API。

13.Collection庫

盡管JDK擁有豐富的集合庫，但仍有一些第三方庫提供了更多選項，例如Apache Commons集合，Goldman Sachs集合，Google集合和Trove。

Trove庫特別有用，因為它為Java提供了高速的常規和原始集合。

FastUtil是另一個類似的API。它通過提供特定類型的映射，集合，列表和優先級隊列來擴展Java集合框架，較小的內存占用，快速訪問和插入; 它還提供大型（64位）數組，集和列表，以及用于二進制和文本文件快速實用的I / O類。

14.Email API

javax.mail和Apache Commons Email都提供了一個用于從Java發送電子郵件的API 。它建立在JavaMail API的基礎之上，旨在簡化它。

15. HTML解析庫

與JSON和XML類似，HMTL是我們許多人必須處理的另一種常見格式。值得慶幸的是，我們有JSoup，它極大地簡化了在Java應用程序中使用HTML的過程。

你不僅可以使用JSoup解析HTML，還可以創建HTML文檔

它提供了一個非常方便的API，用于提取和操作數據，使用DOM，CSS和類似jquery的方法。JSoup實現了WHATWG HTML5規范，并將HTML解析到同一個DOM，就像現代瀏覽器一樣。

16.Cryptographic庫

Apache Commons Codec軟件包包含各種格式的簡單編碼器和解碼器，如Base64和Hexadecimal。

除了這些廣泛使用的編碼器和解碼器之外，編解碼器包還維護一組語音編碼實用程序。

17.Embedded SQL Database庫

我真的很喜歡像H2這樣的內存數據庫，你可以將它嵌入你的Java應用程序中。它們非常適合測試SQL腳本和運行需要數據庫的單元測試。但是，H2并不是唯一的DB，你也可以選擇Apache Derby和HSQL。

18. JDBC問題排查庫

存在一些很好的JDBC擴展庫，可以使調試更容易，比如P6spy。

這是一個庫，可以無縫地攔截和記錄數據庫數據，而無需對應用程序進行代碼更改。你可以使用它們來記錄SQL查詢及其計時。

例如，如果你在代碼中使用PreparedStatment和CallableStatement，則這些庫可以記錄一次完全調用的參數和執行所花費的時間。

如果你想了解有關JDBC的更多信息，可以查看JDBC for Beginners。

19.序列化庫

Google Protocol Buffers是一種以高效可擴展的格式編碼結構化數據的方法。它是Java序列化的更豐富，更好的替代品。我強烈建議有經驗的Java開發人員學習Google Protobuf。你可以查看此文章以了解有關Google協議緩沖區的更多信息。

20.網絡庫

一些有用的網絡庫是Netty和Apache MINA。如果你正在編寫需要執行底層網絡任務的應用程序，請考慮使用這些庫。如果你想了解有關Java網絡編程的更多信息，請查看 Java Network Programming - TCP/IP Socket Programming。

這些就是對于每個Java開發人員都應該使用的一些有用的庫。Java的世界是浩瀚無窮的，你會發現數不勝數的庫用于做不同的事情。

如果你想用Java做任何事情，很可能你會找到一個如何實現的庫。與往常一樣，Google是你找到有用的Java庫的最好朋友，但你也可以查看Maven中央存儲庫，找到適合你手頭任務的一些有用的庫。

點擊英文原文鏈接

html轉為pdf的組件有很多，但是還沒有哪一款能達到這個效果，其只要原因是wkhtmltopdf使用webkit網頁渲染引擎開發的用來將 html轉成 pdf的工具，可以跟多種腳本語言進行集成來轉換文檔。但是就使用簡便性來說還是itext等組件占據優勢，如果你要轉換格式有比較高的要求，那么wkhtmltopdf絕對是不二之選！

下載路徑

官網地址 wkhtmltopdf.org/

github地址 github.com/wkhtmltopdf…

使用方法

windows直接使用：只要在windows命令行中輸入c:\wkhtmltopdf.exe my.oschina.net/papio/blog/… c:\blog.pdf 就可以把這篇文章轉成pdf，并保存到C盤根目錄。
java調用：java中調用wkhtmltopdf的命令Runtime.getRuntime().exec("c:\wkhtmltopdf.exe my.oschina.net/papio/blog/… c:\blog.pdf")就可以實現轉換。

java調用demo

public class HtmlToPdfInterceptor extends Thread { private InputStream is; public HtmlToPdfInterceptor(InputStream is){ this.is = is; } public void run(){ try{ InputStreamReader isr = new InputStreamReader(is, "utf-8"); BufferedReader br = new BufferedReader(isr); String line = null; while ((line = br.readLine()) != null) { System.out.println(line.toString()); //輸出內容 } }catch (IOException e){ e.printStackTrace(); } }}public class HtmlToPdf { //wkhtmltopdf在系統中的路徑 private static final String toPdfTool = "D:\wkhtmltopdf\bin\wkhtmltopdf.exe"; /** * html轉pdf * @param srcPath html路徑，可以是硬盤上的路徑，也可以是網絡路徑 * @param destPath pdf保存路徑 * @return 轉換成功返回true */ public static boolean convert(String srcPath, String destPath){ File file = new File(destPath); File parent = file.getParentFile(); //如果pdf保存路徑不存在，則創建路徑 if(!parent.exists()){ parent.mkdirs(); } StringBuilder cmd = new StringBuilder(); cmd.append(toPdfTool); cmd.append(" "); cmd.append(" --header-line");//頁眉下面的線 cmd.append(" --header-center 這里是頁眉這里是頁眉這里是頁眉這里是頁眉 ");//頁眉中間內容 //cmd.append(" --margin-top 30mm ");//設置頁面上邊距 (default 10mm) cmd.append(" --header-spacing 10 ");//(設置頁眉和內容的距離,默認0) cmd.append(srcPath); cmd.append(" "); cmd.append(destPath); boolean result = true; try{ Process proc = Runtime.getRuntime().exec(cmd.toString()); HtmlToPdfInterceptor error = new HtmlToPdfInterceptor(proc.getErrorStream()); HtmlToPdfInterceptor output = new HtmlToPdfInterceptor(proc.getInputStream()); error.start(); output.start(); proc.waitFor(); }catch(Exception e){ result = false; e.printStackTrace(); } return result; } public static void main(String[] args) { HtmlToPdf.convert("https://my.oschina.net/papio/blog/835645", "d:/wkhtmltopdf.pdf"); }}復制代碼

wkhtmltopdf 參數詳解

wkhtmltopdf [OPTIONS]... <input file> [More input files] <output file>常規選項 --allow <path> 允許加載從指定的文件夾中的文件或文件（可重復） --book* 設置一會打印一本書的時候，通常設置的選項 --collate 打印多份副本時整理 --cookie <name> <value> 設置一個額外的cookie（可重復） --cookie-jar <path> 讀取和寫入的Cookie，并在提供的cookie jar文件 --copies <number> 復印打印成pdf文件數（默認為1） --cover* <url> 使用HTML文件作為封面。它會帶頁眉和頁腳的TOC之前插入 --custom-header <name> <value> 設置一個附加的HTTP頭（可重復） --debug-javascript 顯示的javascript調試輸出 --default-header* 添加一個缺省的頭部，與頁面的左邊的名稱，頁面數到右邊，例如： --header-left '[webpage]' --header-right '[page]/[toPage]' --header-line --disable-external-links* 禁止生成鏈接到遠程網頁 --disable-internal-links* 禁止使用本地鏈接 --disable-javascript 禁止讓網頁執行JavaScript --disable-pdf-compression* 禁止在PDF對象使用無損壓縮 --disable-smart-shrinking* 禁止使用WebKit的智能戰略收縮，使像素/ DPI比沒有不變 --disallow-local-file-access 禁止允許轉換的本地文件讀取其他本地文件，除非explecitily允許用 --allow --dpi <dpi> 顯式更改DPI（這對基于X11的系統沒有任何影響） --enable-plugins 啟用已安裝的插件（如Flash --encoding <encoding> 設置默認的文字編碼 --extended-help 顯示更廣泛的幫助，詳細介紹了不常見的命令開關 --forms* 打開HTML表單字段轉換為PDF表單域 --grayscale PDF格式將在灰階產生 --help Display help --htmldoc 輸出程序HTML幫助 --ignore-load-errors 忽略claimes加載過程中已經遇到了一個錯誤頁面 --lowquality 產生低品質的PDF/ PS。有用縮小結果文檔的空間 --manpage 輸出程序手冊頁 --margin-bottom <unitreal> 設置頁面下邊距 (default 10mm) --margin-left <unitreal> 將左邊頁邊距 (default 10mm) --margin-right <unitreal> 設置頁面右邊距 (default 10mm) --margin-top <unitreal> 設置頁面上邊距 (default 10mm) --minimum-font-size <int> 最小字體大小 (default 5) --no-background 不打印背景 --orientation <orientation> 設置方向為橫向或縱向 --page-height <unitreal> 頁面高度 (default unit millimeter) --page-offset* <offset> 設置起始頁碼 (default 1) --page-size <size> 設置紙張大小: A4, Letter, etc. --page-width <unitreal> 頁面寬度 (default unit millimeter) --password <password> HTTP驗證密碼 --post <name> <value> Add an additional post field (repeatable) --post-file <name> <path> Post an aditional file (repeatable) --print-media-type* 使用的打印介質類型，而不是屏幕 --proxy <proxy> 使用代理 --quiet Be less verbose --read-args-from-stdin 讀取標準輸入的命令行參數 --readme 輸出程序自述 --redirect-delay <msec> 等待幾毫秒為JS-重定向(default 200) --replace* <name> <value> 替換名稱,值的頁眉和頁腳（可重復） --stop-slow-scripts 停止運行緩慢的JavaScripts --title <text> 生成的PDF文件的標題（第一個文檔的標題使用，如果沒有指定） --toc* 插入的內容的表中的文件的開頭 --use-xserver* 使用X服務器（一些插件和其他的東西沒有X11可能無法正常工作） --user-style-sheet <url> 指定用戶的樣式表，加載在每一頁中 --username <username> HTTP認證的用戶名 --version 輸出版本信息退出 --zoom <float> 使用這個縮放因子 (default 1) 頁眉和頁腳選項--header-center* <text> (設置在中心位置的頁眉內容) --header-font-name* <name> (default Arial) (設置頁眉的字體名稱)--header-font-size* <size> (設置頁眉的字體大小)--header-html* <url> (添加一個HTML頁眉,后面是網址)--header-left* <text> (左對齊的頁眉文本)--header-line* (顯示一條線在頁眉下)--header-right* <text> (右對齊頁眉文本)--header-spacing* <real> (設置頁眉和內容的距離,默認0)--footer-center* <text> (設置在中心位置的頁腳內容) --footer-font-name* <name> (設置頁腳的字體名稱) --footer-font-size* <size> (設置頁腳的字體大小default 11)--footer-html* <url> (添加一個HTML頁腳,后面是網址)--footer-left* <text> (左對齊的頁腳文本)--footer-line* 顯示一條線在頁腳內容上)--footer-right* <text> (右對齊頁腳文本)--footer-spacing* <real> (設置頁腳和內容的距離)./wkhtmltopdf --footer-right '[page]/[topage]' http://www.baidu.com baidu.pdf./wkhtmltopdf --header-center '報表' --header-line --margin-top 2cm --header-line http://192.168.212.139/oma/ oma.pdf表內容選項中 --toc-depth* <level> Set the depth of the toc (default 3) --toc-disable-back-links* Do not link from section header to toc --toc-disable-links* Do not link from toc to sections --toc-font-name* <name> Set the font used for the toc (default Arial) --toc-header-font-name* <name> The font of the toc header (if unset use --toc-font-name) --toc-header-font-size* <size> The font size of the toc header (default 15) --toc-header-text* <text> The header text of the toc (default Table Of Contents) --toc-l1-font-size* <size> Set the font size on level 1 of the toc (default 12) --toc-l1-indentation* <num> Set indentation on level 1 of the toc (default 0) --toc-l2-font-size* <size> Set the font size on level 2 of the toc (default 10) --toc-l2-indentation* <num> Set indentation on level 2 of the toc (default 20) --toc-l3-font-size* <size> Set the font size on level 3 of the toc (default 8) --toc-l3-indentation* <num> Set indentation on level 3 of the toc (default 40) --toc-l4-font-size* <size> Set the font size on level 4 of the toc (default 6) --toc-l4-indentation* <num> Set indentation on level 4 of the toc (default 60) --toc-l5-font-size* <size> Set the font size on level 5 of the toc (default 4) --toc-l5-indentation* <num> Set indentation on level 5 of the toc (default 80) --toc-l6-font-size* <size> Set the font size on level 6 of the toc (default 2) --toc-l6-indentation* <num> Set indentation on level 6 of the toc (default 100) --toc-l7-font-size* <size> Set the font size on level 7 of the toc (default 0) --toc-l7-indentation* <num> Set indentation on level 7 of the toc (default 120) --toc-no-dots* Do not use dots, in the toc輪廓選項 --dump-outline <file> 轉儲目錄到一個文件 --outline 顯示目錄(文章中h1,h2來定) --outline-depth <level> 設置目錄的深度（默認為4）頁腳和頁眉 * [page] 由當前正在打印的頁的數目代替 * [frompage] 由要打印的第一頁的數量取代 * [topage] 由最后一頁要打印的數量取代 * [webpage] 通過正在打印的頁面的URL替換 * [section] 由當前節的名稱替換 * [subsection] 由當前小節的名稱替換 * [date] 由當前日期系統的本地格式取代 * [time] 由當前時間，系統的本地格式取代
作者：曹元
鏈接：https://juejin.im/post/6856547881873047559
來源：掘金
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

一篇我們介紹了如何解析CSV和JSON數據：如何解析互聯網數據：CSV和JSON篇，今天我們將介紹如何解析HTML和XML數據。

今天的介紹能夠幫助你輕而易舉地從網頁中（比如下面的中航電子的2017年一季度交易數據）提取自己想要的數據：

準備

在Python中可以解析html和xml數據的軟件包很多，今天我們介紹的是lxml，先安裝：

$ pip install lxml

如果不熟悉pip的使用，可以參考另一篇文章：如何管理python軟件包。

解析HTML數據

首先，回顧一下HTML的一些基本概念：

標簽／tag：比如<html>, <h1>, <head>...一般成對出現，例如開始標簽<html>和結束標簽</html>
元素／element：開始標簽到結束標簽整段代碼，標簽對之間的即為內容(content)
屬性／attribute：標簽可擁有key=value形式的屬性，比如<div class="header">...</div>

簡單地理解，HTML網頁就是由一組元素構成的一個集合。另外，大多數HTML標簽是可以嵌套的，因此元素可以包含一系列子元素。有了這些概念做基礎，我們將能夠很容易理解軟件包lxml的使用。實際上，在lxml里面，每個HTML元素對應一個lxml.html.HtmlElement對象，該對象提供一組標準的方法取訪問包含在該元素內部的數據，比如屬性、內容和子元素等。

例子

考察下面的鏈接，它提供中航電子在2017年第一季度的交易數據，我們打算從里面提取一些數據：

>>> url = "http://quotes.money.163.com/trade/lsjysj_600372.html?year=2017&season=1"

先把該網頁爬取下來：

>>> import urllib2

>>> rsp = urllib2.urlopen(url).read()

>>> print rsp[0:15]

<!DOCTYPE html>

將字符串rsp轉換成HtmlElement對象：

>>> from lxml import html

>>> doc = html.document_fromstring(rsp)

>>> type(doc)

>>> doc.tag

'html'

所以其實doc就是一個html元素，它包含一些元素，比如head, body, link, div...

比如，如果你想提取該網頁里面所有的鏈接(links)：

>>> links = [ link for link in doc.iterlinks() ]

>>> len(links)

106

>>> links[0]

(<Element link at 0x1029179f0>, 'href', 'http://img1.cache.netease.com/f2e/finance/gegu/s.1064000.css', 0)

>>> links[0][2]

'http://img1.cache.netease.com/f2e/finance/gegu/s.1064000.css'

如果你想查看元素直接包含哪些子元素，可以調用getchildren()方法：

>>> doc.getchildren()

[<Element head at 0x10299a0a8>, <Element body at 0x10299a470>]

對嵌套很深的元素，如果熟悉xpath表達式，最直接的辦法是調用xpath(...)方法：

>>> [ td.text for td in doc.xpath('/html/body/div[2]/div[4]/table/tr[1]/td')]

['2017-03-31', '19.02', '19.50', '19.02', '19.30', '0.36', '1.90', '102,212', '19,747', '2.53', '0.58']

此外，還可以通過find, findall, find_class, get_element_by_id等方法查找目標元素，比如：

>>> [ td.text for td in doc.findall('./body/div[2]/div[4]/table/tr[1]/td')]

['2017-03-31', '19.02', '19.50', '19.02', '19.30', '0.36', '1.90', '102,212', '19,747', '2.53', '0.58']

如果元素有屬性，提取屬性值也很方便，比如：

>>> form = doc.forms[0]

>>> form.tag

'form'

>>> form.attrib

{'action': '/trade/lsjysj_600372.html', 'id': 'date'}

>>> form.keys()

['id', 'action']

>>> form.get('action')

'/trade/lsjysj_600372.html'

>>> form.items()

[('id', 'date'), ('action', '/trade/lsjysj_600372.html')]

'>>> form.form_values()

[('year', '2017'), ('season', '1')]

>>> form.method

'GET'

做為一個完整的例子，下面的腳本就是爬取中航電子在2017年第一季度的數據：

輸出效果：

(test) $ head -3 600372.csv

日期;開盤價;最高價;最低價;收盤價;漲跌額;漲跌幅(%);成交量(手);成交金額(萬元);振幅(%);換手率(%)

2017-03-31;19.02;19.50;19.02;19.30;0.36;1.90;102,212;19,747;2.53;0.58

解析xml數據

xml的格式和HTML類似，也是由標簽構成的，但是要比HTML文件簡單許多，看下面的xml文件片段處理：

>>> xmlstr="""\

... <target name="run" depends="jar">

... <java fork="true" classname="${main-class}">

... <classpath>

... <path refid="classpath"/>

... <path refid="application"/>

... </classpath>

... </java>

... </target>"""

>>> from lxml import etree

第一步是獲取根節點：

>>> root = etree.fromstring(xmlstr)

>>> root.tag

'target'

如果要提取節點屬性：

>>> root.items()

[('name', 'run'), ('depends', 'jar')]

>>> root.keys()

['name', 'depends'

>>> root.get("name")

'run'

>>> root.values()

['run', 'jar']

可以使用find, xpath等方法去獲取和查找子節點：

>>> java = root.find("./java")

>>> java.tag

'java'

>>> java.keys()

['fork', 'classname']

>>> [ path.get("refid") for path in root.xpath("http://path")]

['classpath', 'application']

lxml軟件的功能很強大，如果有興趣進一步了解，可以查看官方文檔：

http://lxml.de/index.html

今天就寫這么，歡迎大家留言、評論和關注。

在線咨詢

上一篇：html開發筆記20-合并單元格-列和行
下一篇：超優秀 H5可視化制作編輯器H5DS

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商