整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          手把手的教你用PHP將HTML生成PDF

          ompdf是一個可以將HTML生成PD并保留樣式效果的PHP第三方擴展。

          下面就一步步講解如何使用:

          一、通過composer安裝

          composer require dompdf/dompdf


          安裝過程

          二 、編寫測試代碼

          (1)引用autoload.php

          include 'vendor/autoload.php'; 

          (2)實例化Dompdf

          $dompdf=new \Dompdf\Dompdf();

          (3)加載HTML

          $dompdf->loadHtml($html); //$html 為HTML字符串

          (4)設置紙張和方向

          $dompdf->setPaper('A4', 'landscape'); //紙張大小和紙張方向

          (5)生成PDF并下載

           $dompdf->render();
          $dompdf->stream('數據字典.pdf');

          三、導出PDF測試,發現中文亂碼了


          導出PDF發現中文亂碼了

          四、解決中文亂了問題

          (1)下載支持中文的字體包放到根目錄下(和vendor目錄同級),這里演示使用的是阿里巴巴的普惠字體(字體格式是ttf的,小編原先下載使用的字體格式是otf格式的無效)

          (2)下載dompdf字體安裝工具解壓到根目錄(和vendor目錄同級)

          下載地址:https://github.com/dompdf/utils

          (3)在命令行(CMD定位到根目錄)下執行命令

          php load_font.php "puhui" Alibaba-PuHuiTi-Light.ttf

          執行成功后在路徑(vendor\dompdf\dompdf\lib\fonts)下就會出現剛才的字體

          (4)在樣式文件中指定使用剛才安裝的字體

          body{font-family:puhui;}

          (5)再次導出PDF測試成功


          亂碼問題解決

          近臨近開學了,大家都在忙著準備各種學習的資料,準備在新的學期好好學習,充實自己。小編身邊的同學也是如此,最近,小編的同學小麗就遇到了一個很棘手的問題。

          她想將一個網頁的Python學習的教程打印下來,方便自己來學習,但是上千頁的教程,如果通過手動的方式,一個一個的去轉成pdf并保存到本地,實在是麻煩的不。

          這就是一個html轉pdf的問題,其實網上有很多不錯的html資源,但是苦于學習起來,不方便!于是小編就跟小麗保證,這點小事包在我身上。今天,小編就跟分享一下如何用Python把html資料變成pdf。

          01.抓取的學習資料

          如今網上的在線學習資料可謂是多如牛毛,為了方便講解,小編就利用python3.9.2的中文文檔作為演示的例子,來將其抓取并保存到本地,其網頁鏈接如下:

          https://docs.python.org/zh-cn/3.9/tutorial/index.html

          打開上述鏈接后,大家會在網頁中找到不同內容的鏈接地址,包括了基礎的python字符、python語法等內容。

          02.獲取網頁鏈接

          在上圖中,我們需要格外關注的是紅色方格標注的鏈接,每個鏈接都會跳轉到對應的子網頁中,而在子網頁中,就是我們想要保存的內容。

          可以看到,上圖中,在python速覽子頁面中,包含了我們需要提取的文字內容。所以將html內容保存為pdf的第一步便是獲取到子頁面的鏈接。由于教程大都是固定內容,因此對于教程的網頁,大都采用的是靜態頁面,在網頁源代碼中可以很輕松地找到子頁面的網頁鏈接。

          對于子網頁的鏈接抓取,程序如下圖所示:

          程序中,通過BeautifulSoup庫來解析網頁源代碼,然后提取所有的子頁面鏈接地址并返回,如果抓取失敗,則直接返回None


          03.html轉pdf

          在得到子網頁的鏈接后,接下來就是將html的子網頁保存為pdf文件。小編使用的pdfkit庫,pdfkit庫可以將網頁保存為pdf文檔。首先小編來介紹一下pdfkit庫的安裝。

          • 下載https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.mxe-cross-win64.7z 并解壓到本地文件中。(后臺輸入:pdf) 直接獲取。
          • 將解壓文件中的bin文件路徑添加到系統變量Path中。
          • 執行pip install pdfkit
          • 執行pip install wkhtmltopdf

          按照上述的操作流程,就可以安裝pdfkit庫。對于pdfkit庫的使用,常見的用法有以下三種:

          上面的程序主要完成以下幾步:

          首先需要指定wkhtmltopdf.exe文件的路徑;

          • 然后分別通過from_url、from_file和from_string的三種方式來保存為pdf文件;
          • 需要注意的是,from_file和from_url中的第一個參數必須是一個html的字符串或者是html文檔的列表;
          • 但是小編通過程序運行發現,from_url第一個參數只能是html的字符串,不能是html的列表


          因此,pdfkit庫只能將子網頁保存為單獨的pdf文檔,無法直接通過pdfkit庫將所有的子網頁拼接成一個完整的pdf文檔,小編通過PyPDF2庫中的PdfFileMerger類來實現pdf文檔的拼接。程序如下圖所示。

          程序中首先將所有的html網頁保存為單獨的pdf文檔,然后通過PdfFileMerger類對象來實現pdf文檔的拼接。最后就可以得到全部的pdf內容。最后我們通過視頻的展示,來看一下程序的效果吧。


          除此之外,程序不光可以抓取python3.9的中文文檔,針對其他的在線文檔,只需要對獲取網頁鏈接的程序進行修改即可抓取,例如對于Flask中文文檔的抓取,程序只需要按照下圖進行修改,即可將Flask的在線文檔保存為PDF文檔。

          04.總結

          學習Python其實非常有趣,也很有用。因為Python有大量的現成的庫,可以幫助我們把工作中的很多瑣碎的煩事輕松解決。小編將上述的程序稍加修改,很快就幫阿麗搞定了教程,保存為pdf發送給了她,小編與女神的關系更拉近了一步

          近碰到個需求,需要把當前頁面生成 pdf,并下載。弄了幾天,自己整理整理,記錄下來,我覺得應該會有人需要 :)

          項目源碼地址:https://github.com/linwalker/render-html-to-pdf


          簡介

          我們可以直接在瀏覽器端使用html2canvas,對整個或局部頁面進行“截圖”。但這并不是真的截圖,而是通過遍歷頁面DOM結構,收集所有元素信息及相應樣式,渲染出canvas image。

          由于html2canvas只能將它能處理的生成canvas image,因此渲染出來的結果并不是100%與原來一致。但它不需要服務器參與,整個圖片都由客戶端瀏覽器生成,使用很方便。

          使用

          使用的API也很簡潔,下面代碼可以將某個元素渲染成canvas:

          html2canvas(element, {
           onrendered: function(canvas) {
           // canvas is the final rendered <canvas> element
           }
          });
          

          通過onrendered方法,可以將生成的canvas進行回調,比如插入到頁面中:

          html2canvas(element, {
           onrendered: function(canvas) {
           document.body.appendChild(canvas);
           }
          });
          

          做個小例子(demo1)代碼如下:

          這個例子將頁面body中的元素渲染成canvas,并插入到body中。

          jsPDF

          jsPDF庫可以用于瀏覽器端生成PDF。

          文字生成PDF

          使用方法如下:

          // 默認a4大小,豎直方向,mm單位的PDF
          var doc = new jsPDF();
          // 添加文本‘Download PDF’
          doc.text('Download PDF!', 10, 10);
          doc.save('a4.pdf');
          

          文字與圖片生成PDF

          // 三個參數,第一個方向,第二個尺寸,第三個尺寸格式
          var doc = new jsPDF('landscape','pt',[205, 155])
          // 將圖片轉化為dataUrl
          var imageData = ‘data:image/png;base64,iVBORw0KGgo...’;
          //設置字體大小
          doc.setFontSize(20);
          //10,20這兩參數控制文字距離左邊,與上邊的距離
          doc.text('Stone', 10, 20);
          // 0, 40, 控制文字距離左邊,與上邊的距離
          doc.addImage(imageData, 'PNG', 0, 40, 205, 115);
          doc.save('a4.pdf')
          

          生成pdf需要把轉化的元素添加到jsPDF實例中,也有添加html的功能,但某些元素無法生成在pdf中,因此可以使用html2canvas + jsPDF的方式將頁面轉成pdf。通過html2canvas將遍歷頁面元素,并渲染生成canvas,然后將canvas圖片格式添加到jsPDF實例,生成pdf。

          html2canvas + jsPDF

          單頁

          將demo1的例子修改下:

          如果頁面內容根據a4比例轉化后高度超過a4紙高度呢,生成的pdf會怎么樣?會分頁嗎?

          你可以試試,驗證一下自己的想法。

          jsPDF提供了一個很有用的API, addPage(),我們可以通過 pdf.addPage(),來添加一頁pdf,然后通過 pdf.addImage(...),將圖片賦予這頁pdf來顯示。

          那么我們如何確定哪里分頁?

          這個問題好回答,我們可以設置一個 pageHeight,超過這個高度的內容放入下一頁pdf。

          來捋一下思路,將html頁面內容生成canvas圖片,通過 addImage將第一頁圖片添加到pdf中,超過一頁內容,通過 addPage()添加pdf頁數,然后再通過 addImage將下一頁圖片添加到pdf中。

          嗯~,很好!巴特,難道沒有發現問題嗎?

          這個方法實現的前提是 — — 我們能根據 pageHeight先將整頁內容生成的canvas圖片分割成對應的小圖片,然后一個蘿卜一個坑,一頁一頁 addImage進去。

          What? 想一想我們的canvas是腫么來的,不用拉上去,直接看下面:

          html2canvas(document.body, {
           onrendered:function(canvas) {
           //it is here we handle the canvas
           }
          })
          

          這里的 body就是要生成canvas的元素對象,一個元素生成一個canvas;那么我們需要一頁一頁的canvas,也就是說。。。

          你覺得可能嗎? 我覺得不太現實,按這思路要獲取頁面上不同位置的DOM元素,然后通過 htnl2canvas(element,option)來處理,先不說能不能剛好在每個 pageHeight的位置剛好找到一個DOM元素,就算找到了,這樣做累不累。

          累的話 :)可以看看下面這種方法。

          多頁

          我提供的思路是我們只生成一個canvas,對就一個,轉化元素就是你要轉成pdf內容的母元素,在這篇demo里就是 body了;其他不變,也是超過一頁內容就 addPage,然后 addImage,只不過這里添加的是同一個canvas。

          當然這樣做只會出現多頁重復的pdf,那到底怎么實現正確分頁顯示。其實主要利用了jsPDF的兩點:

          • 超過jsPDF實例格式尺寸的內容不顯示( varpdf=newjsPDF('','pt','a4');demo中就是a4紙的尺寸)
          • addImage有兩個參數可以控制圖片在pdf中的位置

          雖然每一頁pdf上顯示的圖片是相同的,但我們通過調整圖片的位置,產生了分頁的錯覺。以第二頁為例,將豎直方向上的偏移設置為 -841.89即一張a4紙的高度,又因為超過a4紙高度范圍的圖片不顯示,所以第二頁顯示了圖片豎直方向上[841.89,1682.78]范圍內的內容,這就得到了分頁的效果,以此類推。

          還是看代碼吧:

          兩邊留邊距

          修改imgWidth,并且在addImage時x方向參數設置你要的邊距,具體代碼如下:

          作者:linwalkerhttps://segmentfault.com/a/1190000009211079

          主站蜘蛛池模板: 久久国产免费一区二区三区| 一区二区三区四区在线视频| 最新中文字幕一区二区乱码| 99久久人妻精品免费一区| 一区二区三区高清视频在线观看 | 亚洲中文字幕丝袜制服一区 | 国产成人精品无人区一区 | 亚洲人AV永久一区二区三区久久| 激情久久av一区av二区av三区| 精品国产一区二区三区| 日韩精品一区二区三区中文3d| 国产精品亚洲综合一区在线观看| 国产免费一区二区三区VR| 免费看无码自慰一区二区 | 一区二区三区在线| 日韩精品一区二三区中文| 视频一区二区精品的福利| 精彩视频一区二区三区| 亚洲一区日韩高清中文字幕亚洲| 色综合一区二区三区| 国产精品区AV一区二区| 真实国产乱子伦精品一区二区三区 | 国产一区二区三区免费看| 日韩精品一区二区三区不卡| 99精品高清视频一区二区| 国产激情视频一区二区三区| 3d动漫精品啪啪一区二区中| 国产精品一区二区毛卡片| 色综合视频一区二区三区| 国产亚洲综合一区柠檬导航 | 国产一区二区在线观看麻豆| 中文字幕在线视频一区| 一区二区视频在线观看| 久久无码人妻一区二区三区| 蜜桃AV抽搐高潮一区二区| V一区无码内射国产| 免费一区二区无码视频在线播放| 中文字幕人妻AV一区二区| 精品国产AⅤ一区二区三区4区 | 亚洲精品精华液一区二区| 日本丰满少妇一区二区三区|