文將介紹通過(guò)Java編程來(lái)實(shí)現(xiàn)PDF文檔轉(zhuǎn)換的方法。包括:
PDF轉(zhuǎn)為Word
PDF轉(zhuǎn)為圖片
PDF轉(zhuǎn)為Html
PDF轉(zhuǎn)為SVG
4.1 將PDF每一頁(yè)轉(zhuǎn)為單個(gè)的SVG
4.2 將一個(gè)包含多頁(yè)的PDF文檔轉(zhuǎn)為一個(gè)SVG
PDF轉(zhuǎn)為XPS
PDF轉(zhuǎn)為PDF/A
使用工具:Free Spire.PDF for Java(免費(fèi)版)
Jar文件獲取及導(dǎo)入:
方法1:通過(guò)官網(wǎng)下載下載jar包。下載后,解壓文件,并將lib文件夾下的Spire.Pdf.jar文件導(dǎo)入Java程序。
方法2:可通過(guò)maven倉(cāng)庫(kù)安裝導(dǎo)入。參考導(dǎo)入方法
PdfDocument pdf=new PdfDocument("test.pdf");
pdf.saveToFile("ToWord.docx",FileFormat.DOCX);
支持的圖片格式包括Jpeg, Jpg, Png, Bmp, Tiff, Gif, EMF等。這里以保存為Png格式為例。
用jupyter notebook寫(xiě)代碼文檔的時(shí)候,有時(shí)需要導(dǎo)出pdf版本,但jupyter會(huì)報(bào)錯(cuò)。我在想,除了網(wǎng)上的debug方法,還沒(méi)有其他方案可以生成pdf。
度娘搜了下,很多博客推薦Python的第三方庫(kù)pdfkit,可以將網(wǎng)頁(yè)、html文件以及字符串生成pdf文件。
其實(shí)也有很多軟件提供pdf生成服務(wù),但這樣太不python了,那下面就來(lái)試試pdfkit怎么用吧!
python版本 3.x,在命令行輸入:
pip install pdfkit
安裝過(guò)程基本不會(huì)有啥問(wèn)題,出現(xiàn)上面的Successfully installed pdfkit-0.6.1提示,說(shuō)明安裝成功了。
注:pdfkit是基于wkhtmltopdf的python封裝,所以需要安裝wkhtmltopdf.exe。wkhtmltopdf是輕量級(jí)軟件,非常很容易安裝。
下載地址:https://wkhtmltopdf.org/downloads.html
下載wkhtmltopdf
下載完成后,一路next,將wkhtmltopdf安裝好。
務(wù)必要記住安裝地址,找到wkhtmltopdf.exe文件所在的絕對(duì)路徑,后面要用到。
我這里是默認(rèn)路徑""C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe""
安裝wkhtmltopdf
前面說(shuō)過(guò)pdfkit可以將網(wǎng)頁(yè)、html文件、字符串生成pdf文件。
# 導(dǎo)入庫(kù)
import pdfkit
'''將網(wǎng)頁(yè)url生成pdf文件'''
def url_to_pdf(url, to_file):
# 將wkhtmltopdf.exe程序絕對(duì)路徑傳入config對(duì)象
path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
# 生成pdf文件,to_file為文件路徑
pdfkit.from_url(url, to_file, configuration=config)
print('完成')
# 這里傳入我知乎專(zhuān)欄文章url,轉(zhuǎn)換為pdf
url_to_pdf(r'https://zhuanlan.zhihu.com/p/69869004', 'out_1.pdf')
# 導(dǎo)入庫(kù)
import pdfkit
'''將html文件生成pdf文件'''
def html_to_pdf(html, to_file):
# 將wkhtmltopdf.exe程序絕對(duì)路徑傳入config對(duì)象
path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
# 生成pdf文件,to_file為文件路徑
pdfkit.from_file(html, to_file, configuration=config)
print('完成')
html_to_pdf('sample.html','out_2.pdf')
# 導(dǎo)入庫(kù)
import pdfkit
'''將字符串生成pdf文件'''
def str_to_pdf(string, to_file):
# 將wkhtmltopdf.exe程序絕對(duì)路徑傳入config對(duì)象
path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
# 生成pdf文件,to_file為文件路徑
pdfkit.from_string(string, to_file, configuration=config)
print('完成')
str_to_pdf('This is test!','out_3.pdf')
本文講了如何在Python中使用pdfkit庫(kù)生成pdf文件,非常方便快捷,適合批量自動(dòng)化操作。
我們看看生成的pdf效果如何:
pdf效果展示
整體頁(yè)面視覺(jué)不錯(cuò)呦,趕快用起來(lái)吧!
我們?nèi)粘W(xué)習(xí)和日常工作中,如果遇見(jiàn)將PDF文件轉(zhuǎn)換為HTML的問(wèn)題該怎么辦呢?
其實(shí)很簡(jiǎn)單,之前小編也寫(xiě)過(guò)關(guān)于將PDF文件轉(zhuǎn)換為HTML的步驟方法,今天小編就來(lái)為大家盤(pán)點(diǎn)一下PDF轉(zhuǎn)換為HTML的軟件。都是小編自己試過(guò)的軟件哦!
第一款 PDF to HTML
PDF to HTML可以將PDF文件批量的轉(zhuǎn)換為HTML頁(yè)面,在輸出HTML文件的同時(shí)保留PDF文件的原始文本、格式以及布局。支持轉(zhuǎn)換有所限制的PDF文件,比如不允許拷貝的內(nèi)容、保存為文本以及頁(yè)面提取的PDF文件。
第二款 風(fēng)云PDF轉(zhuǎn)換器
風(fēng)云PDF轉(zhuǎn)換器,這款軟件小編之前也提及過(guò)。可以快速的將多種文件轉(zhuǎn)換為PDF文件以及將PDF文件轉(zhuǎn)換為多種格式文檔比如PDF轉(zhuǎn)圖片,PDF轉(zhuǎn)HTML等等。除了轉(zhuǎn)換文件之外,還有PDF拆分,PDF合并,PDF頁(yè)面提取眾多功能,頁(yè)面簡(jiǎn)潔,操作簡(jiǎn)單易上手,支持批量轉(zhuǎn)換使用起來(lái)很方便。
第三款 Okdo Pdf to Html Converter
Okdo Pdf to Html Converter這款軟件與前兩款軟件相似都是獨(dú)立軟件,不需要額外下載插件??梢员A鬚DF文件的原始布局、圖像。文本、矢量圖形,軟件內(nèi)置直觀操作界面,方便操作。
第四款 iPubsoft PDF to HTML Converter
iPubsoft PDF to HTML Converter這款軟件小編主要介紹一個(gè)特點(diǎn),這款軟件將PDF格式轉(zhuǎn)換為網(wǎng)頁(yè)格式后,可以使PDF文件可以被搜索引擎搜索和索引。還可以部分轉(zhuǎn)換PDF文件頁(yè)面,保留原始圖像、文本、表格、圖像、超鏈接等等。
第五款 BlueFox Free PDF to HTML Converter
BlueFox Free PDF to HTML Converter這款軟件,小編覺(jué)得比較有特點(diǎn)的是可以將文章轉(zhuǎn)換多種語(yǔ)言的PDF文件,可以使全球PDF文件發(fā)行更有效,如果沒(méi)明白的話,小編舉個(gè)例子就是如果你的PDF文件具有英語(yǔ)內(nèi)容也是可以輕松轉(zhuǎn)換。
以上就是小編為大家盤(pán)點(diǎn)的五款PDF轉(zhuǎn)換為HTML的軟件了,每個(gè)軟件都有自己很獨(dú)特的方向,小編的話比較喜歡全面的軟件,所以使用第二款軟件比較多,如果想要部分轉(zhuǎn)換可以選擇其他軟件。
如果還有想看的盤(pán)點(diǎn),歡迎給小編留言。小編看到后會(huì)幫您安排盤(pán)點(diǎn)哦!
*請(qǐng)認(rèn)真填寫(xiě)需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。