言
目前,教學、教研各種內容線上沉淀、展示豐富多彩,但線上內容“線下化”能力不足或過分依賴人力,比如,線上練習題組卷后以PDF形式分發給學生,家長希望將考試、練習題目打印后,學生帶到學校去做(高中生使用手機等電子設備的時間有限),線上各類分析報告以PDF形式分享給學生/家長等。
從業務方面看,不同業務線的多個業務場景都有輸出PDF的訴求,如果各業務線自己設計、實現符合自身業務場景的具體方案,除調研、開發工作量較大之外,還會有重復調研,踩坑的情況。
從技術角度看,線上內容轉PDF的內容源頭來自于H5富文本內容,業界內以此為基礎的PDF生成方案多種多樣,也各有優劣,比如:
方案對比-表格-1
因此,我們綜合了各種PDF生成方案并總結了在探索講義生成PDF過程中的經驗,抽象出了一套通用的,可復用的能力供各業務線快速利用,基本方案和優劣如下:
最終方案-表格-2
目 標
旨在提供一套以H5為載體的PDF通用生成方案,這套方案有如下特點:
這套方案可分為兩個核心部分,頁面展示側 - Medusa,PDF生成側 - Hydra
頁面展示側 - Medusa
我們頁面展示側的通用能力——Medusa,是基于Paged.js的二次封裝,并以NPM包形式提供給業務方使用。Medusa可對任何HTML進行分頁、并根據配置添加頁眉、頁腳等,最終將處理后的HTML渲染到頁面中。Medusa封裝并簡化了對PDF格式的配置,可覆蓋絕大多數業務場景,使得各業務場景將更多精力投入其自身業務邏輯的開發。
之所以選擇Pagedjs為基礎開發我們自己的SDK,是因為它是目前我們能找到的唯一開源的、具有HTML內容分頁,樣式處理的前端庫,同時我們也在講義中經過了長期的摸索與沉淀。
接下來將詳細介紹Paged.js原理、Medusa支持的功能與使用方法。
一 Paged.js是如何工作的
Paged.js包含了 3 個大模塊
這里將主要介紹 Previewer 和 Chunker,因為我們的二次開發和維護不涉及到Polisher。
Previewer
Previewer 的工作非常簡單,但我們會主要利用它封裝我們的Medusa,初始化一個Previewer對象,Previewer初始化了Chunker和Polisher對象:
Medusa-代碼-1
再調用Previewer的preview()方法,preview()方法做了兩件事:
Medusa-代碼-2
當chunker.flow結束,即可在瀏覽器看到整個頁面處理完之后的樣子。
Chunker
首先,Chunker解析、預處理需要分頁的HTML,為其添加一些必要的屬性
Medusa-代碼-3
然后創建容納所有頁(pages)的容器,并掛載到renderTo容器下(默認Body),以備組織后續的所有頁:
Medusa-代碼-4
接著,chunker創建了一個page模版,以便增加頁面使用:
Medusa-代碼-5
其中,TEMPLATE是Pagedjs內部創建頁面時所使用的基礎模版。
Medusa-代碼-6
接下來,chunker進入了渲染+分頁過程(這個過程我們不會在二次開發中做修改,但需要了解其基本思路以便在出問題時能有解決思路),這個過程在循環一個迭代器(*layout),迭代器一直在做3件事:
原則:
尋找overflow時會將盡可能多的內容節點插入內容區域,這里,“盡可能多”分為幾種情況,比如:
步驟:
Pagedjs遵循了如下步驟去尋找overflow:
兩個前置條件:
i. 從需要處理的內容第一個節點開始,判斷是否 node.left >= contentArea.right || node.top >= contentArea.bottom
Medusa-代碼-7
ii.如果不滿足,則判斷 node.right <= contentArea.right && node.bottom <= contentArea.bottom
Medusa-代碼-8
iii.如果不滿足,那說明有子節點overflow了,則繼續深入其子節點查找即可。
3.使用模版添加新的頁面,并從BreakToken處繼續上述動作。
二 Medusa支持的功能及使用方法
基于Paged.js,Medusa支持了如下功能,并為業務方提供了更加簡潔、定制化的配置。
下方是調用Medusa的代碼示例:
Medusa-代碼-9
1.1 動態頁面分頁能力
Medusa核心功能,可將連續的HTML頁面轉化成一頁頁PDF樣式的HTML。
1.2 單頁模版配置 -> 生成能力
通過Grid布局,Paged.js將一個單頁模版分為多個區域,整體分為2個大的部分:
業務方通過簡單的配置,即可還原UI設計稿中的PDF樣式,例子如下圖:
1.2.1 base
頁面基礎配置是對每頁的。支持紙型或頁面寬高、內容區域margin、padding、背景及水印的設置。
在封裝Medusa時,Medusa將讀取傳入的頁面模版配置、靜態頁內容配置,并將樣式上的配置解析并轉化為Previewer可理解的樣式內容,比如頁面寬高的設置:
Medusa-代碼-10
將被轉化為:
Medusa-代碼-11
1.2.2 surround
2. 目前支持3種類型的surround item:
example:
Medusa-代碼-12
1.3 前/后置靜態頁面
業務方可通過如下方式配置靜態頁面的具體內容:
Medusa-代碼-13
其中,傳入的React JSX Element將會被這樣處理:
Medusa-代碼-14
處理完成后,將HTML String拼接到頁面模版中,再插入分頁后內容的前后。
PDF生成側 - Hydra:
頁面展示側為PDF生成做好了頁面的準備,對于PDF生成側,需要做的工作就更純粹了,業務方除了請求生成PDF,定期檢查PDF生成的進度,無需做任何額外工作。
1.整體流程:
PDF生成是CPU和內存密集型的,由于頁面內容的不確定性,也意味著頁面渲染時間與生成PDF的時間都是不確定的,因此整體PDF生成的鏈路被設計成是異步的,如下圖:
整體流程上,業務方在請求生成PDF時,會先在后端做一條記錄,后端再將任務發送給Node服務,即Hydra;
在生成PDF時, 第 1 步是做頁面上的準備,一個生成任務可能有多個URL頁面需要生成PDF,所以我們預先啟動對應URL數量的PPTR Page,頁面都啟動完成后,進入下一步;
第 2 步:渲染頁面,這個過程中,如果請求是包含多個URL的,這些頁面會同步渲染,在所有頁面渲染完成后,進入下一步。
第 2.5 步,如果是需要生成連續頁碼的一整個PDF,還會做額外的一個動作:頁碼矯正,通過頁碼矯正,可以將同步渲染的每個頁面,按照其之前頁面的頁碼數修正,以保證整體PDF的頁碼的連貫。
第 3 步,通過PPTR Page的能力將頁面轉換為PDF buffer,如有必要,再將生成的PDF buffer拼接到一起生成一整個PDF,或者將每個PDF buffer都生成一個PDF,壓縮成zip文件。
第 4 步,文件上傳OSS,最終返回OSS CDN鏈接。
2.請求生成PDF:
業務側請求將對應頁面生成PDF的時,只需傳入如下字段:
Hydra-代碼-1
3.PDF生成過程:
正如在整體流程中所述,PDF生成側,我們借助 PPTR 的能力打開頁面并生成PDF流。
在頁面調用 Medusa 分頁、組裝能力時,所有內容分頁組裝完成后會向body中插入了一個額外的DOM以標識該頁面處理完成:
Hydra-代碼-2
這是為了 Hydra 感知頁面渲染完成所做的準備,當生成服務的 PPTR 等到該DOM出現時,則表示頁面成功渲染并處理完成了:
Hydra-代碼-3
此后,在上面已經提到過,對于需要將多個頁面生成的PDF拼接成一個PDF的情況,在生成PDF之前需要做一個重要的動作,即頁碼矯正,原因如下:
并且我們不希望頁面的處理是串行的,因為串行勢必導致速度較慢,生成時間長。
這個問題的解決方案如下:
1. 對于每個頁面都啟用一個page,并同時處理
2. 每個頁面處理完成后(pdfLastDOM出現),通過Page.$eval()來統計頁數并記錄:
Hydra-代碼-4
3. 計算出頁面中分頁之后每一個頁面的起始頁碼,以及所有頁面的頁碼總和
4. 再修改頁碼容器樣式的 counterReset 值即可,其后續頁碼可自遞增。
Hydra-代碼-5
5. 之后,再通過 Medusa 在頁面window對象中Polyfill的相關配置,比如需要生成的PDF的單頁寬、高以生成PDF流。
Hydra-代碼-6
6. 最后如有必要,通過pdf-lib拼接這些 pdfBuffer 即可。
Hydra-代碼-7
7. PDF生成完成后,上傳OSS并返回URL鏈接
4.性能、穩定性保證:
在整體方案落地前,我們對服務進行了多次性能測試:
以下載題目為例,在4個容器,每個容器 3C 12G 的配置下的并行處理能力如下:
對于 20 道題目,每個PDF生成任務在 15 頁左右,平均 1 分鐘內能完成 280 個任務的處理。
對于 40 道題目,每個PDF生成任務在 30 頁左右,平均 1 分鐘內能完成 105 個任務的處理。
對于 60 到題目,每個PDF生成任務在 40 頁左右,平均 1 分鐘內能完成 54 個任務的處理。
同時,根據 Hydra 服務的整體的處理能力,后端通過任務隊列的形式幫助我們保證服務不被瞬間的突刺流量擊垮。
已接入/正在接入的相關業務線及場景:
目前,公司有 5 大業務線,8 個場景已經完全接入我們的能力用于 H5 轉 PDF,如下是錯題本、內容資料庫接入后生成的PDF樣例:
錯題本:
內容資料庫試卷:
未來展望
目前整體的PDF生成方案已經能夠滿足大多數場景和內容,但依然有可改進空間。
HTML的流式布局要求我們必須手動的對內容分頁,才能添加頁眉,頁腳等(即Mdusa做的工作),正因為如此,在處理復雜的內容時,可能會出現一些問題:比如,遇到復雜表格時,由于表格可能會有多種多樣的行、列合并,同時表格單元格內的內容也可以多種多樣,在分頁過程中,Medusa內部的PagedJS并不能完美的處理對于長、且復雜的表格的分割,因此可能遇到分割后表格單元格缺失、錯亂或寬高錯誤的問題,這些問題在講義中體現較明顯。
我們仍在持續關注與研究復雜DOM內容的分割問題,會嘗試加以優化和改進PagedJS的能力,同時,我們也以另外一種思路設計了自己的DOM分頁器方案,但經過評估,由于實現比較復雜,成本較高,暫時沒有投入開發資源。
不過,我們相信,未來我們一定能以更完美的方式分割DOM以生成更高質量的PDF。
作者:高源、陳欣博
來源:微信公眾號:高途技術
出處:https://mp.weixin.qq.com/s/c_N7jdNklrNFKR_Cub2Tgg
一篇文章我們介紹了一個html/xml解析器——htmlparser,這篇文章我們介紹另外一個解析模塊htmlparser2,后者是對前者的重構,同時對前者的API做了部分兼容。
安裝
const { Parser } = require('htmlparser2');
const parser = new Parser(handler, options);
parser.parseComplete('html/xml內容');
寫法
const { Parser } = require('htmlparser2');
const parser = new Parser(handler, options);
parser.parseComplete('html/xml內容');
htmlparser2提供了一個解析器——Parser,初始化它至少需要一個handler,options是可選的。
handler是一個對象,在這個對象上可以設置很多的鉤子函數,Parser解析時會在每個階段運行對應的鉤子函數。
以下是可以設置的所有的鉤子函數,
htmlparser模塊是通過正則表達式來解析html內容的,而htmlparser2則不同,它會按順序讀取html的每個字符,并且推測后面字符是標簽名、屬性還是其他的類型,所以htmlparser2在解析完每一個標簽后都會運行相應的鉤子函數。
先來看一下例子,
圖1
圖1中設置了所有的鉤子函數以便來說明每個鉤子函數的作用,運行一下,
圖2
對照圖1和圖2就能看出來每個鉤子函數的運行時機,這其中有以下幾個鉤子函數需要注意一下。
除了自定義handler以外,htmlparser2還提供了幾個handler,比如DomHandler,用法如下:
圖3
運行一下,我們看看結果,
圖4
如果4所示,DomHandler處理的結果是以數組的形式輸出的,在每個單元數據中還可以拿到上一個、下一個以及父節點的數據。
htmlparser2還可以通過操作流Stream解析內容,寫法如下:
圖5
這篇文章和上一篇是姊妹篇,都是介紹解析html/xml內容的模塊,通過對比,我們發現htmlparser2模塊功能更強大一些,也更靈活一些,同時也兼容htmlparser模塊的一些接口。雖然兩者功能類似,但是這給了我們更多的選擇性。
喜歡我的文章就關注我吧,有問題可以發表評論,我們一起學習,共同成長!
)JavaScript基本組成
1.1基本語法幾乎所有瀏覽器基本都支持,有專門的機構制定統一標準
1.2Dom(文檔對象)瀏覽器基本都支持,但有的可能會有差別到時再說(重點)
1.3Bom(瀏覽器對象)一般功能性的瀏覽器支持這個沒有統一的標準,主要操作如打開關閉瀏覽器窗口,獲取屏幕的分辨率screen,XmlHttpRequest(異步對象)等
2)JavaScript的語法
2.1Javascript嚴格區分變量的大小寫;比如 a與A代表的是兩個不同的變量
2.2Javascript中聲明變量時只有一個關鍵字var(ES5),Javascript是一個弱類型的編程語言;比如聲明一個變量a var a; a=3(數值) 或者a="3"(字符串)都是正確的,與C#中的不一樣;每條語句后加分號(分號建議加上)
如果變量使用前不用var聲明,這樣的變量就變成了“全局變量”
2.3Javascript中的注釋,與C#的相同 //單行注釋、/* 多行注釋 */
2.4變量的命名規則:以字母,下劃線或$開頭,中間可以包括任意的字母,數字,下劃線或$。(與C#相比變量命名中多了一個$)
2.5JavaScript中即可以使用雙引號或者單引號聲明字符串變量,主要是為了方便和html的兼容,避免轉義符的麻煩
2.6每次修改過JavaScript中的代碼后直接保存,在瀏覽器中刷新即可
3)JavaScript代碼
javascript代碼需要寫在<script></script>標簽中而<script>標簽可以寫在<head>,<body>等任意位置,一個網頁中也可以有多個<script></script>標簽(此標簽最好是成對出現)
<script>標簽標準格式:<script type="text/javascript">js代碼</script>
如果<script>標簽放到<head>中,則代碼在body加載之前就已經運行了;如果寫在body中的<script>是隨著頁面的加載而一個個執行的
如果代碼運行遇到錯誤,有錯誤的<script></script>中的代碼不會執行,但也不會影響后面的其他<script></script>中的代碼和html的顯示
JavaScript代碼可以直接寫在網頁中,也可以將JavaScript代碼寫到單獨的js文件中,其擴展名就是**.js, 寫好此js文件后在頁面中再引入此文件;建議寫在網頁的最后,因為javascript代碼執行順序是從上到下依次執行,如果引用文件寫在head中很大可能會報錯(操作DOM對象)
<script src="文件名.js" type="text/javascript"></script> src后面的路徑為相對路徑
查看javascript代碼
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>JavaScript</title>
<script type="text/javascript">
// javascript代碼 單行注釋
/* javascript代碼 多行注釋*/
var a=3;
alert(a);//彈出對話框
a="3";
alert(a);
</script>
</head>
<body>
</body>
<script src="**.js" type="text/javascript">只能引用文件,不能書寫代碼</script>
</html>
alert(a);自己查看彈出的對話框的值
*請認真填寫需求信息,我們會在24小時內與您取得聯系。