HTML 2 PDF通用能力的設計與實現

言

目前，教學、教研各種內容線上沉淀、展示豐富多彩，但線上內容“線下化”能力不足或過分依賴人力，比如，線上練習題組卷后以PDF形式分發給學生，家長希望將考試、練習題目打印后，學生帶到學校去做（高中生使用手機等電子設備的時間有限），線上各類分析報告以PDF形式分享給學生/家長等。

從業務方面看，不同業務線的多個業務場景都有輸出PDF的訴求，如果各業務線自己設計、實現符合自身業務場景的具體方案，除調研、開發工作量較大之外，還會有重復調研，踩坑的情況。

從技術角度看，線上內容轉PDF的內容源頭來自于H5富文本內容，業界內以此為基礎的PDF生成方案多種多樣，也各有優劣，比如：

方案對比-表格-1

因此，我們綜合了各種PDF生成方案并總結了在探索講義生成PDF過程中的經驗，抽象出了一套通用的，可復用的能力供各業務線快速利用，基本方案和優劣如下：

最終方案-表格-2

目標

旨在提供一套以H5為載體的PDF通用生成方案，這套方案有如下特點：

通用性強：能夠處理各類H5頁面，從分頁到生成，做到一套方案，多般兼容。
擴展性、配置性強：各場景可根據自己的需要自定義頁眉、頁腳、頁碼，水印，背景等配置，做到輸出形式豐富多彩。
方便易接入：各業務場景只需關注要展現的內容，無需關注分頁，PDF生成等背后的處理，為需要產出PDF的業務場景提效賦能；整體來看，調研、設計、開發（+踩坑）一整套 H5 轉 PDF的能力至少需要近 30人/日，我們希望這套通用能力的接入成本控制在 7人/日左右；在很多場景接入后，從實際反饋來看，平均只需要 2-3 人/日就接入了。
質量高：保證輸出PDF中內容的展示與H5中無異，各種復雜公式的展示也絲毫無差錯。
性能好：保證 1 分鐘內能處理 100+ 的 20頁左右的PDF生成任務
穩定性高：保證有各種兜底策略妥善處理各類異常，同時能夠通過限流方案應對突發流量，保證服務穩定。

這套方案可分為兩個核心部分，頁面展示側 - Medusa，PDF生成側 - Hydra

頁面展示側 - Medusa

我們頁面展示側的通用能力——Medusa，是基于Paged.js的二次封裝，并以NPM包形式提供給業務方使用。Medusa可對任何HTML進行分頁、并根據配置添加頁眉、頁腳等，最終將處理后的HTML渲染到頁面中。Medusa封裝并簡化了對PDF格式的配置，可覆蓋絕大多數業務場景，使得各業務場景將更多精力投入其自身業務邏輯的開發。

之所以選擇Pagedjs為基礎開發我們自己的SDK，是因為它是目前我們能找到的唯一開源的、具有HTML內容分頁，樣式處理的前端庫，同時我們也在講義中經過了長期的摸索與沉淀。

接下來將詳細介紹Paged.js原理、Medusa支持的功能與使用方法。

一 Paged.js是如何工作的

Paged.js包含了 3 個大模塊

Chunker（負責HTML內容分頁）
Polisher （負責CSS樣式處理）
Previewer （負責預覽呈現Chunker和Polisher處理后的內容）

這里將主要介紹 Previewer 和 Chunker，因為我們的二次開發和維護不涉及到Polisher。

Previewer

Previewer 的工作非常簡單，但我們會主要利用它封裝我們的Medusa，初始化一個Previewer對象，Previewer初始化了Chunker和Polisher對象：

Medusa-代碼-1

再調用Previewer的preview()方法，preview()方法做了兩件事：

通過Polisher處理樣式內容
通過Chunker處理需要分頁的HTML內容，如果沒有指定需要分頁的HTML，則會處理整個Body的內容

Medusa-代碼-2

當chunker.flow結束，即可在瀏覽器看到整個頁面處理完之后的樣子。

Chunker

首先，Chunker解析、預處理需要分頁的HTML，為其添加一些必要的屬性

Medusa-代碼-3

然后創建容納所有頁(pages)的容器，并掛載到renderTo容器下(默認Body)，以備組織后續的所有頁：

Medusa-代碼-4

接著，chunker創建了一個page模版，以便增加頁面使用：

Medusa-代碼-5

其中，TEMPLATE是Pagedjs內部創建頁面時所使用的基礎模版。

Medusa-代碼-6

接下來，chunker進入了渲染+分頁過程（這個過程我們不會在二次開發中做修改，但需要了解其基本思路以便在出問題時能有解決思路），這個過程在循環一個迭代器（*layout），迭代器一直在做3件事：

將內容添加到模版內容區域的容器中 -> 渲染。
探測overflow，找到overflow的offset并創建BreakToken （探測overflow過程中很多處都用到了迭代器，此處為了說明思路，簡化了相關代碼）。

原則：

尋找overflow時會將盡可能多的內容節點插入內容區域，這里，“盡可能多”分為幾種情況，比如：

沒有剩余節點需要再添加了
達到了一頁所能承載的最大字符數；剛開始的時候，如果沒有指定每頁的最大字符數，Pagedjs會給一個默認值為 1500 的每頁最大字符用做判斷，在之后會記錄分隔好的每一頁中的字符數，并取最近4頁（少于4頁取全部）的平均值作為之后分頁的判斷條件，這里，Pagedjs相當于對每一頁中能夠承載的內容做了一個簡單的預測，這個算法對于比較規律的內容做分頁時還是比較簡單高效的。

步驟：

Pagedjs遵循了如下步驟去尋找overflow：

兩個前置條件：

內容區域盒子邊界已經確定，下面以contentArea.right 和 contentArea.bottom 分別代指其右邊界和下邊界。
處理過程中每個節點的邊界可以計算（對于文字節點，Pagedjs中使用了Range對象為其創建邊界），下面以 node.left、 node.right、node.top 和 node.bottom 分別代指節點的左、右、上、下邊界。

i. 從需要處理的內容第一個節點開始，判斷是否 node.left >= contentArea.right || node.top >= contentArea.bottom

Medusa-代碼-7

ii.如果不滿足，則判斷 node.right <= contentArea.right && node.bottom <= contentArea.bottom

Medusa-代碼-8

iii.如果不滿足，那說明有子節點overflow了，則繼續深入其子節點查找即可。

3.使用模版添加新的頁面，并從BreakToken處繼續上述動作。

二 Medusa支持的功能及使用方法

基于Paged.js，Medusa支持了如下功能，并為業務方提供了更加簡潔、定制化的配置。

動態頁面分頁能力
單頁模版配置 -> 生成能力
前、后置靜態頁面生成、與分頁后的動態頁面拼接能力
頁面處理成功后，通知PDF生成服務(Hydra)執行任務

下方是調用Medusa的代碼示例：

Medusa-代碼-9

1.1 動態頁面分頁能力

Medusa核心功能，可將連續的HTML頁面轉化成一頁頁PDF樣式的HTML。

1.2 單頁模版配置 -> 生成能力

通過Grid布局，Paged.js將一個單頁模版分為多個區域，整體分為2個大的部分：

base 頁面基礎配置：每個PDF紙型、水印，內容區域的寬高、margin與padding等等
surround 頁面周圍區域：如頁眉、頁腳等配置

業務方通過簡單的配置，即可還原UI設計稿中的PDF樣式，例子如下圖：

1.2.1 base

頁面基礎配置是對每頁的。支持紙型或頁面寬高、內容區域margin、padding、背景及水印的設置。

在封裝Medusa時，Medusa將讀取傳入的頁面模版配置、靜態頁內容配置，并將樣式上的配置解析并轉化為Previewer可理解的樣式內容，比如頁面寬高的設置：

Medusa-代碼-10

將被轉化為：

Medusa-代碼-11

1.2.2 surround

可以看到圖中的16種不同位置的surround區域。通過設置position，可將業務方自定義的元素渲染到對應的位置上。

2. 目前支持3種類型的surround item:

text 文字
img 圖片
pageNum (動態獲取)當前頁碼

example:

Medusa-代碼-12

1.3 前/后置靜態頁面

業務方可通過如下方式配置靜態頁面的具體內容：

Medusa-代碼-13

其中，傳入的React JSX Element將會被這樣處理：

Medusa-代碼-14

處理完成后，將HTML String拼接到頁面模版中，再插入分頁后內容的前后。

PDF生成側 - Hydra：

頁面展示側為PDF生成做好了頁面的準備，對于PDF生成側，需要做的工作就更純粹了，業務方除了請求生成PDF，定期檢查PDF生成的進度，無需做任何額外工作。

1.整體流程：

PDF生成是CPU和內存密集型的，由于頁面內容的不確定性，也意味著頁面渲染時間與生成PDF的時間都是不確定的，因此整體PDF生成的鏈路被設計成是異步的，如下圖：

整體流程上，業務方在請求生成PDF時，會先在后端做一條記錄，后端再將任務發送給Node服務，即Hydra；

在生成PDF時，第 1 步是做頁面上的準備，一個生成任務可能有多個URL頁面需要生成PDF，所以我們預先啟動對應URL數量的PPTR Page，頁面都啟動完成后，進入下一步；

第 2 步：渲染頁面，這個過程中，如果請求是包含多個URL的，這些頁面會同步渲染，在所有頁面渲染完成后，進入下一步。

第 2.5 步，如果是需要生成連續頁碼的一整個PDF，還會做額外的一個動作：頁碼矯正，通過頁碼矯正，可以將同步渲染的每個頁面，按照其之前頁面的頁碼數修正，以保證整體PDF的頁碼的連貫。

第 3 步，通過PPTR Page的能力將頁面轉換為PDF buffer，如有必要，再將生成的PDF buffer拼接到一起生成一整個PDF，或者將每個PDF buffer都生成一個PDF，壓縮成zip文件。

第 4 步，文件上傳OSS，最終返回OSS CDN鏈接。

2.請求生成PDF：

業務側請求將對應頁面生成PDF的時，只需傳入如下字段：

Hydra-代碼-1

3.PDF生成過程：

正如在整體流程中所述，PDF生成側，我們借助 PPTR 的能力打開頁面并生成PDF流。

在頁面調用 Medusa 分頁、組裝能力時，所有內容分頁組裝完成后會向body中插入了一個額外的DOM以標識該頁面處理完成：

Hydra-代碼-2

這是為了 Hydra 感知頁面渲染完成所做的準備，當生成服務的 PPTR 等到該DOM出現時，則表示頁面成功渲染并處理完成了：

Hydra-代碼-3

此后，在上面已經提到過，對于需要將多個頁面生成的PDF拼接成一個PDF的情況，在生成PDF之前需要做一個重要的動作，即頁碼矯正，原因如下：

每個頁面無法感知其他頁面情況的，如：第二個頁面不知道第一個頁面會生成多少頁的PDF。
它們的頁碼需要是連續的。

并且我們不希望頁面的處理是串行的，因為串行勢必導致速度較慢，生成時間長。

這個問題的解決方案如下：

1. 對于每個頁面都啟用一個page，并同時處理

2. 每個頁面處理完成后（pdfLastDOM出現），通過Page.$eval()來統計頁數并記錄:

Hydra-代碼-4

3. 計算出頁面中分頁之后每一個頁面的起始頁碼，以及所有頁面的頁碼總和

4. 再修改頁碼容器樣式的 counterReset 值即可，其后續頁碼可自遞增。

Hydra-代碼-5

5. 之后，再通過 Medusa 在頁面window對象中Polyfill的相關配置，比如需要生成的PDF的單頁寬、高以生成PDF流。

Hydra-代碼-6

6. 最后如有必要，通過pdf-lib拼接這些 pdfBuffer 即可。

Hydra-代碼-7

7. PDF生成完成后，上傳OSS并返回URL鏈接

4.性能、穩定性保證：

在整體方案落地前，我們對服務進行了多次性能測試：

以下載題目為例，在4個容器，每個容器 3C 12G 的配置下的并行處理能力如下：

對于 20 道題目，每個PDF生成任務在 15 頁左右，平均 1 分鐘內能完成 280 個任務的處理。

對于 40 道題目，每個PDF生成任務在 30 頁左右，平均 1 分鐘內能完成 105 個任務的處理。

對于 60 到題目，每個PDF生成任務在 40 頁左右，平均 1 分鐘內能完成 54 個任務的處理。

同時，根據 Hydra 服務的整體的處理能力，后端通過任務隊列的形式幫助我們保證服務不被瞬間的突刺流量擊垮。

已接入/正在接入的相關業務線及場景：

目前，公司有 5 大業務線，8 個場景已經完全接入我們的能力用于 H5 轉 PDF，如下是錯題本、內容資料庫接入后生成的PDF樣例：

錯題本：

內容資料庫試卷：

未來展望

目前整體的PDF生成方案已經能夠滿足大多數場景和內容，但依然有可改進空間。

HTML的流式布局要求我們必須手動的對內容分頁，才能添加頁眉，頁腳等（即Mdusa做的工作），正因為如此，在處理復雜的內容時，可能會出現一些問題：比如，遇到復雜表格時，由于表格可能會有多種多樣的行、列合并，同時表格單元格內的內容也可以多種多樣，在分頁過程中，Medusa內部的PagedJS并不能完美的處理對于長、且復雜的表格的分割，因此可能遇到分割后表格單元格缺失、錯亂或寬高錯誤的問題，這些問題在講義中體現較明顯。

我們仍在持續關注與研究復雜DOM內容的分割問題，會嘗試加以優化和改進PagedJS的能力，同時，我們也以另外一種思路設計了自己的DOM分頁器方案，但經過評估，由于實現比較復雜，成本較高，暫時沒有投入開發資源。

不過，我們相信，未來我們一定能以更完美的方式分割DOM以生成更高質量的PDF。

作者:高源、陳欣博

來源:微信公眾號:高途技術

出處:https://mp.weixin.qq.com/s/c_N7jdNklrNFKR_Cub2Tgg

一篇文章我們介紹了一個html/xml解析器——htmlparser，這篇文章我們介紹另外一個解析模塊htmlparser2，后者是對前者的重構，同時對前者的API做了部分兼容。

用法簡介

安裝

const { Parser } = require('htmlparser2');
const parser = new Parser(handler, options);
parser.parseComplete('html/xml內容');

寫法

const { Parser } = require('htmlparser2');
const parser = new Parser(handler, options);
parser.parseComplete('html/xml內容');

htmlparser2提供了一個解析器——Parser，初始化它至少需要一個handler，options是可選的。

handler是一個對象，在這個對象上可以設置很多的鉤子函數，Parser解析時會在每個階段運行對應的鉤子函數。

以下是可以設置的所有的鉤子函數，

onopentag(<str> name, <obj> attributes)

onopentagname(<str> name)

onattribute(<str> name, <str> value)

ontext(<str> text)

onclosetag(<str> name)

onprocessinginstruction(<str> name, <str> data)

oncomment(<str> data)

oncommentend()

oncdatastart()

oncdataend()

onerror(<err> error)

onreset()

onend()

htmlparser模塊是通過正則表達式來解析html內容的，而htmlparser2則不同，它會按順序讀取html的每個字符，并且推測后面字符是標簽名、屬性還是其他的類型，所以htmlparser2在解析完每一個標簽后都會運行相應的鉤子函數。

先來看一下例子，

圖1

圖1中設置了所有的鉤子函數以便來說明每個鉤子函數的作用，運行一下，

圖2

對照圖1和圖2就能看出來每個鉤子函數的運行時機，這其中有以下幾個鉤子函數需要注意一下。

oncdatastart和oncdataend會在解析<![CDATA[文本]]>標簽時觸發，但是觸發的前提是選項設置了recognizeCDATA=true或者xmlMode=true；
onprocessinginstruction會在解析<!xxyy>或者<?xxyy>這樣的標簽時觸發，xx和yy中間可以有分隔符（斜杠或者空格），分隔符前面的字符串就是鉤子函數中的name的值；
運行parseComplete方法會執行reset鉤子函數，如果僅僅執行parser的write或者end方法并不會執行reset方法。

除了自定義handler以外，htmlparser2還提供了幾個handler，比如DomHandler，用法如下：

圖3

運行一下，我們看看結果，

圖4

如果4所示，DomHandler處理的結果是以數組的形式輸出的，在每個單元數據中還可以拿到上一個、下一個以及父節點的數據。

htmlparser2還可以通過操作流Stream解析內容，寫法如下：

圖5

總結

這篇文章和上一篇是姊妹篇，都是介紹解析html/xml內容的模塊，通過對比，我們發現htmlparser2模塊功能更強大一些，也更靈活一些，同時也兼容htmlparser模塊的一些接口。雖然兩者功能類似，但是這給了我們更多的選擇性。

喜歡我的文章就關注我吧，有問題可以發表評論，我們一起學習，共同成長！

)JavaScript基本組成

1.1基本語法幾乎所有瀏覽器基本都支持,有專門的機構制定統一標準

1.2Dom(文檔對象)瀏覽器基本都支持,但有的可能會有差別到時再說(重點)

1.3Bom(瀏覽器對象)一般功能性的瀏覽器支持這個沒有統一的標準,主要操作如打開關閉瀏覽器窗口,獲取屏幕的分辨率screen,XmlHttpRequest(異步對象)等

2)JavaScript的語法

2.1Javascript嚴格區分變量的大小寫;比如 a與A代表的是兩個不同的變量

2.2Javascript中聲明變量時只有一個關鍵字var(ES5),Javascript是一個弱類型的編程語言;比如聲明一個變量a var a; a=3(數值) 或者a="3"(字符串)都是正確的,與C#中的不一樣;每條語句后加分號(分號建議加上)

如果變量使用前不用var聲明,這樣的變量就變成了“全局變量”

2.3Javascript中的注釋,與C#的相同 //單行注釋、/* 多行注釋 */

2.4變量的命名規則:以字母,下劃線或$開頭,中間可以包括任意的字母,數字,下劃線或$。(與C#相比變量命名中多了一個$)

2.5JavaScript中即可以使用雙引號或者單引號聲明字符串變量,主要是為了方便和html的兼容,避免轉義符的麻煩

2.6每次修改過JavaScript中的代碼后直接保存,在瀏覽器中刷新即可

3)JavaScript代碼

javascript代碼需要寫在<script></script>標簽中而<script>標簽可以寫在<head>,<body>等任意位置,一個網頁中也可以有多個<script></script>標簽(此標簽最好是成對出現)

如果<script>標簽放到<head>中,則代碼在body加載之前就已經運行了;如果寫在body中的<script>是隨著頁面的加載而一個個執行的

如果代碼運行遇到錯誤,有錯誤的<script></script>中的代碼不會執行,但也不會影響后面的其他<script></script>中的代碼和html的顯示

JavaScript代碼可以直接寫在網頁中,也可以將JavaScript代碼寫到單獨的js文件中,其擴展名就是**.js, 寫好此js文件后在頁面中再引入此文件;建議寫在網頁的最后,因為javascript代碼執行順序是從上到下依次執行,如果引用文件寫在head中很大可能會報錯(操作DOM對象)

查看javascript代碼

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
    <title>JavaScript</title>
    <script type="text/javascript">
   // javascript代碼    單行注釋
   /* javascript代碼    多行注釋*/
   var a=3;
   alert(a);//彈出對話框
   a="3";
   alert(a);
    </script>    
</head>
<body>   
</body>
<script src="**.js" type="text/javascript">只能引用文件,不能書寫代碼</script>
</html>

alert(a);自己查看彈出的對話框的值

在線咨詢

上一篇：9 條非常強大的 JavaScript 技巧
下一篇：前端教程：JavaScript頁面打印

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

HTML 2 PDF通用能力的設計與實現

用法簡介

總結

您的項目需求