HTML 2 PDF通用能力的設(shè)計與實(shí)現(xiàn)

言

目前，教學(xué)、教研各種內(nèi)容線上沉淀、展示豐富多彩，但線上內(nèi)容“線下化”能力不足或過分依賴人力，比如，線上練習(xí)題組卷后以PDF形式分發(fā)給學(xué)生，家長希望將考試、練習(xí)題目打印后，學(xué)生帶到學(xué)校去做（高中生使用手機(jī)等電子設(shè)備的時間有限），線上各類分析報告以PDF形式分享給學(xué)生/家長等。

從業(yè)務(wù)方面看，不同業(yè)務(wù)線的多個業(yè)務(wù)場景都有輸出PDF的訴求，如果各業(yè)務(wù)線自己設(shè)計、實(shí)現(xiàn)符合自身業(yè)務(wù)場景的具體方案，除調(diào)研、開發(fā)工作量較大之外，還會有重復(fù)調(diào)研，踩坑的情況。

從技術(shù)角度看，線上內(nèi)容轉(zhuǎn)PDF的內(nèi)容源頭來自于H5富文本內(nèi)容，業(yè)界內(nèi)以此為基礎(chǔ)的PDF生成方案多種多樣，也各有優(yōu)劣，比如：

方案對比-表格-1

因此，我們綜合了各種PDF生成方案并總結(jié)了在探索講義生成PDF過程中的經(jīng)驗(yàn)，抽象出了一套通用的，可復(fù)用的能力供各業(yè)務(wù)線快速利用，基本方案和優(yōu)劣如下：

最終方案-表格-2

目標(biāo)

旨在提供一套以H5為載體的PDF通用生成方案，這套方案有如下特點(diǎn)：

通用性強(qiáng)：能夠處理各類H5頁面，從分頁到生成，做到一套方案，多般兼容。
擴(kuò)展性、配置性強(qiáng)：各場景可根據(jù)自己的需要自定義頁眉、頁腳、頁碼，水印，背景等配置，做到輸出形式豐富多彩。
方便易接入：各業(yè)務(wù)場景只需關(guān)注要展現(xiàn)的內(nèi)容，無需關(guān)注分頁，PDF生成等背后的處理，為需要產(chǎn)出PDF的業(yè)務(wù)場景提效賦能；整體來看，調(diào)研、設(shè)計、開發(fā)（+踩坑）一整套 H5 轉(zhuǎn) PDF的能力至少需要近 30人/日，我們希望這套通用能力的接入成本控制在 7人/日左右；在很多場景接入后，從實(shí)際反饋來看，平均只需要 2-3 人/日就接入了。
質(zhì)量高：保證輸出PDF中內(nèi)容的展示與H5中無異，各種復(fù)雜公式的展示也絲毫無差錯。
性能好：保證 1 分鐘內(nèi)能處理 100+ 的 20頁左右的PDF生成任務(wù)
穩(wěn)定性高：保證有各種兜底策略妥善處理各類異常，同時能夠通過限流方案應(yīng)對突發(fā)流量，保證服務(wù)穩(wěn)定。

這套方案可分為兩個核心部分，頁面展示側(cè) - Medusa，PDF生成側(cè) - Hydra

頁面展示側(cè) - Medusa

我們頁面展示側(cè)的通用能力——Medusa，是基于Paged.js的二次封裝，并以NPM包形式提供給業(yè)務(wù)方使用。Medusa可對任何HTML進(jìn)行分頁、并根據(jù)配置添加頁眉、頁腳等，最終將處理后的HTML渲染到頁面中。Medusa封裝并簡化了對PDF格式的配置，可覆蓋絕大多數(shù)業(yè)務(wù)場景，使得各業(yè)務(wù)場景將更多精力投入其自身業(yè)務(wù)邏輯的開發(fā)。

之所以選擇Pagedjs為基礎(chǔ)開發(fā)我們自己的SDK，是因?yàn)樗悄壳拔覀兡苷业降奈ㄒ?/span>開源的、具有HTML內(nèi)容分頁，樣式處理的前端庫，同時我們也在講義中經(jīng)過了長期的摸索與沉淀。

接下來將詳細(xì)介紹Paged.js原理、Medusa支持的功能與使用方法。

一 Paged.js是如何工作的

Paged.js包含了 3 個大模塊

Chunker（負(fù)責(zé)HTML內(nèi)容分頁）
Polisher （負(fù)責(zé)CSS樣式處理）
Previewer （負(fù)責(zé)預(yù)覽呈現(xiàn)Chunker和Polisher處理后的內(nèi)容）

這里將主要介紹 Previewer 和 Chunker，因?yàn)槲覀兊亩伍_發(fā)和維護(hù)不涉及到Polisher。

Previewer

Previewer 的工作非常簡單，但我們會主要利用它封裝我們的Medusa，初始化一個Previewer對象，Previewer初始化了Chunker和Polisher對象：

Medusa-代碼-1

再調(diào)用Previewer的preview()方法，preview()方法做了兩件事：

通過Polisher處理樣式內(nèi)容
通過Chunker處理需要分頁的HTML內(nèi)容，如果沒有指定需要分頁的HTML，則會處理整個Body的內(nèi)容

Medusa-代碼-2

當(dāng)chunker.flow結(jié)束，即可在瀏覽器看到整個頁面處理完之后的樣子。

Chunker

首先，Chunker解析、預(yù)處理需要分頁的HTML，為其添加一些必要的屬性

Medusa-代碼-3

然后創(chuàng)建容納所有頁(pages)的容器，并掛載到renderTo容器下(默認(rèn)Body)，以備組織后續(xù)的所有頁：

Medusa-代碼-4

接著，chunker創(chuàng)建了一個page模版，以便增加頁面使用：

Medusa-代碼-5

其中，TEMPLATE是Pagedjs內(nèi)部創(chuàng)建頁面時所使用的基礎(chǔ)模版。

Medusa-代碼-6

接下來，chunker進(jìn)入了渲染+分頁過程（這個過程我們不會在二次開發(fā)中做修改，但需要了解其基本思路以便在出問題時能有解決思路），這個過程在循環(huán)一個迭代器（*layout），迭代器一直在做3件事：

將內(nèi)容添加到模版內(nèi)容區(qū)域的容器中 -> 渲染。
探測overflow，找到overflow的offset并創(chuàng)建BreakToken （探測overflow過程中很多處都用到了迭代器，此處為了說明思路，簡化了相關(guān)代碼）。

原則：

尋找overflow時會將盡可能多的內(nèi)容節(jié)點(diǎn)插入內(nèi)容區(qū)域，這里，“盡可能多”分為幾種情況，比如：

沒有剩余節(jié)點(diǎn)需要再添加了
達(dá)到了一頁所能承載的最大字符數(shù)；剛開始的時候，如果沒有指定每頁的最大字符數(shù)，Pagedjs會給一個默認(rèn)值為 1500 的每頁最大字符用做判斷，在之后會記錄分隔好的每一頁中的字符數(shù)，并取最近4頁（少于4頁取全部）的平均值作為之后分頁的判斷條件，這里，Pagedjs相當(dāng)于對每一頁中能夠承載的內(nèi)容做了一個簡單的預(yù)測，這個算法對于比較規(guī)律的內(nèi)容做分頁時還是比較簡單高效的。

步驟：

Pagedjs遵循了如下步驟去尋找overflow：

兩個前置條件：

內(nèi)容區(qū)域盒子邊界已經(jīng)確定，下面以contentArea.right 和 contentArea.bottom 分別代指其右邊界和下邊界。
處理過程中每個節(jié)點(diǎn)的邊界可以計算（對于文字節(jié)點(diǎn)，Pagedjs中使用了Range對象為其創(chuàng)建邊界），下面以 node.left、 node.right、node.top 和 node.bottom 分別代指節(jié)點(diǎn)的左、右、上、下邊界。

i. 從需要處理的內(nèi)容第一個節(jié)點(diǎn)開始，判斷是否 node.left >= contentArea.right || node.top >= contentArea.bottom

Medusa-代碼-7

ii.如果不滿足，則判斷 node.right <= contentArea.right && node.bottom <= contentArea.bottom

Medusa-代碼-8

iii.如果不滿足，那說明有子節(jié)點(diǎn)overflow了，則繼續(xù)深入其子節(jié)點(diǎn)查找即可。

3.使用模版添加新的頁面，并從BreakToken處繼續(xù)上述動作。

二 Medusa支持的功能及使用方法

基于Paged.js，Medusa支持了如下功能，并為業(yè)務(wù)方提供了更加簡潔、定制化的配置。

動態(tài)頁面分頁能力
單頁模版配置 -> 生成能力
前、后置靜態(tài)頁面生成、與分頁后的動態(tài)頁面拼接能力
頁面處理成功后，通知PDF生成服務(wù)(Hydra)執(zhí)行任務(wù)

下方是調(diào)用Medusa的代碼示例：

Medusa-代碼-9

1.1 動態(tài)頁面分頁能力

Medusa核心功能，可將連續(xù)的HTML頁面轉(zhuǎn)化成一頁頁P(yáng)DF樣式的HTML。

1.2 單頁模版配置 -> 生成能力

通過Grid布局，Paged.js將一個單頁模版分為多個區(qū)域，整體分為2個大的部分：

base 頁面基礎(chǔ)配置：每個PDF紙型、水印，內(nèi)容區(qū)域的寬高、margin與padding等等
surround 頁面周圍區(qū)域：如頁眉、頁腳等配置

業(yè)務(wù)方通過簡單的配置，即可還原UI設(shè)計稿中的PDF樣式，例子如下圖：

1.2.1 base

頁面基礎(chǔ)配置是對每頁的。支持紙型或頁面寬高、內(nèi)容區(qū)域margin、padding、背景及水印的設(shè)置。

在封裝Medusa時，Medusa將讀取傳入的頁面模版配置、靜態(tài)頁內(nèi)容配置，并將樣式上的配置解析并轉(zhuǎn)化為Previewer可理解的樣式內(nèi)容，比如頁面寬高的設(shè)置：

Medusa-代碼-10

將被轉(zhuǎn)化為：

Medusa-代碼-11

1.2.2 surround

可以看到圖中的16種不同位置的surround區(qū)域。通過設(shè)置position，可將業(yè)務(wù)方自定義的元素渲染到對應(yīng)的位置上。

2. 目前支持3種類型的surround item:

text 文字
img 圖片
pageNum (動態(tài)獲取)當(dāng)前頁碼

example:

Medusa-代碼-12

1.3 前/后置靜態(tài)頁面

業(yè)務(wù)方可通過如下方式配置靜態(tài)頁面的具體內(nèi)容：

Medusa-代碼-13

其中，傳入的React JSX Element將會被這樣處理：

Medusa-代碼-14

處理完成后，將HTML String拼接到頁面模版中，再插入分頁后內(nèi)容的前后。

PDF生成側(cè) - Hydra：

頁面展示側(cè)為PDF生成做好了頁面的準(zhǔn)備，對于PDF生成側(cè)，需要做的工作就更純粹了，業(yè)務(wù)方除了請求生成PDF，定期檢查PDF生成的進(jìn)度，無需做任何額外工作。

1.整體流程：

PDF生成是CPU和內(nèi)存密集型的，由于頁面內(nèi)容的不確定性，也意味著頁面渲染時間與生成PDF的時間都是不確定的，因此整體PDF生成的鏈路被設(shè)計成是異步的，如下圖：

整體流程上，業(yè)務(wù)方在請求生成PDF時，會先在后端做一條記錄，后端再將任務(wù)發(fā)送給Node服務(wù)，即Hydra；

在生成PDF時，第 1 步是做頁面上的準(zhǔn)備，一個生成任務(wù)可能有多個URL頁面需要生成PDF，所以我們預(yù)先啟動對應(yīng)URL數(shù)量的PPTR Page，頁面都啟動完成后，進(jìn)入下一步；

第 2 步：渲染頁面，這個過程中，如果請求是包含多個URL的，這些頁面會同步渲染，在所有頁面渲染完成后，進(jìn)入下一步。

第 2.5 步，如果是需要生成連續(xù)頁碼的一整個PDF，還會做額外的一個動作：頁碼矯正，通過頁碼矯正，可以將同步渲染的每個頁面，按照其之前頁面的頁碼數(shù)修正，以保證整體PDF的頁碼的連貫。

第 3 步，通過PPTR Page的能力將頁面轉(zhuǎn)換為PDF buffer，如有必要，再將生成的PDF buffer拼接到一起生成一整個PDF，或者將每個PDF buffer都生成一個PDF，壓縮成zip文件。

第 4 步，文件上傳OSS，最終返回OSS CDN鏈接。

2.請求生成PDF：

業(yè)務(wù)側(cè)請求將對應(yīng)頁面生成PDF的時，只需傳入如下字段：

Hydra-代碼-1

3.PDF生成過程：

正如在整體流程中所述，PDF生成側(cè)，我們借助 PPTR 的能力打開頁面并生成PDF流。

在頁面調(diào)用 Medusa 分頁、組裝能力時，所有內(nèi)容分頁組裝完成后會向body中插入了一個額外的DOM以標(biāo)識該頁面處理完成：

Hydra-代碼-2

這是為了 Hydra 感知頁面渲染完成所做的準(zhǔn)備，當(dāng)生成服務(wù)的 PPTR 等到該DOM出現(xiàn)時，則表示頁面成功渲染并處理完成了：

Hydra-代碼-3

此后，在上面已經(jīng)提到過，對于需要將多個頁面生成的PDF拼接成一個PDF的情況，在生成PDF之前需要做一個重要的動作，即頁碼矯正，原因如下：

每個頁面無法感知其他頁面情況的，如：第二個頁面不知道第一個頁面會生成多少頁的PDF。
它們的頁碼需要是連續(xù)的。

并且我們不希望頁面的處理是串行的，因?yàn)榇袆荼貙?dǎo)致速度較慢，生成時間長。

這個問題的解決方案如下：

1. 對于每個頁面都啟用一個page，并同時處理

2. 每個頁面處理完成后（pdfLastDOM出現(xiàn)），通過Page.$eval()來統(tǒng)計頁數(shù)并記錄:

Hydra-代碼-4

3. 計算出頁面中分頁之后每一個頁面的起始頁碼，以及所有頁面的頁碼總和

4. 再修改頁碼容器樣式的 counterReset 值即可，其后續(xù)頁碼可自遞增。

Hydra-代碼-5

5. 之后，再通過 Medusa 在頁面window對象中Polyfill的相關(guān)配置，比如需要生成的PDF的單頁寬、高以生成PDF流。

Hydra-代碼-6

6. 最后如有必要，通過pdf-lib拼接這些 pdfBuffer 即可。

Hydra-代碼-7

7. PDF生成完成后，上傳OSS并返回URL鏈接

4.性能、穩(wěn)定性保證：

在整體方案落地前，我們對服務(wù)進(jìn)行了多次性能測試：

以下載題目為例，在4個容器，每個容器 3C 12G 的配置下的并行處理能力如下：

對于 20 道題目，每個PDF生成任務(wù)在 15 頁左右，平均 1 分鐘內(nèi)能完成 280 個任務(wù)的處理。

對于 40 道題目，每個PDF生成任務(wù)在 30 頁左右，平均 1 分鐘內(nèi)能完成 105 個任務(wù)的處理。

對于 60 到題目，每個PDF生成任務(wù)在 40 頁左右，平均 1 分鐘內(nèi)能完成 54 個任務(wù)的處理。

同時，根據(jù) Hydra 服務(wù)的整體的處理能力，后端通過任務(wù)隊(duì)列的形式幫助我們保證服務(wù)不被瞬間的突刺流量擊垮。

已接入/正在接入的相關(guān)業(yè)務(wù)線及場景：

目前，公司有 5 大業(yè)務(wù)線，8 個場景已經(jīng)完全接入我們的能力用于 H5 轉(zhuǎn) PDF，如下是錯題本、內(nèi)容資料庫接入后生成的PDF樣例：

錯題本：

內(nèi)容資料庫試卷：

未來展望

目前整體的PDF生成方案已經(jīng)能夠滿足大多數(shù)場景和內(nèi)容，但依然有可改進(jìn)空間。

HTML的流式布局要求我們必須手動的對內(nèi)容分頁，才能添加頁眉，頁腳等（即Mdusa做的工作），正因?yàn)槿绱耍谔幚韽?fù)雜的內(nèi)容時，可能會出現(xiàn)一些問題：比如，遇到復(fù)雜表格時，由于表格可能會有多種多樣的行、列合并，同時表格單元格內(nèi)的內(nèi)容也可以多種多樣，在分頁過程中，Medusa內(nèi)部的PagedJS并不能完美的處理對于長、且復(fù)雜的表格的分割，因此可能遇到分割后表格單元格缺失、錯亂或?qū)捀咤e誤的問題，這些問題在講義中體現(xiàn)較明顯。

我們?nèi)栽诔掷m(xù)關(guān)注與研究復(fù)雜DOM內(nèi)容的分割問題，會嘗試加以優(yōu)化和改進(jìn)PagedJS的能力，同時，我們也以另外一種思路設(shè)計了自己的DOM分頁器方案，但經(jīng)過評估，由于實(shí)現(xiàn)比較復(fù)雜，成本較高，暫時沒有投入開發(fā)資源。

不過，我們相信，未來我們一定能以更完美的方式分割DOM以生成更高質(zhì)量的PDF。

作者:高源、陳欣博

來源:微信公眾號:高途技術(shù)

出處:https://mp.weixin.qq.com/s/c_N7jdNklrNFKR_Cub2Tgg

一篇文章我們介紹了一個html/xml解析器——htmlparser，這篇文章我們介紹另外一個解析模塊htmlparser2，后者是對前者的重構(gòu)，同時對前者的API做了部分兼容。

用法簡介

安裝

const { Parser } = require('htmlparser2');
const parser = new Parser(handler, options);
parser.parseComplete('html/xml內(nèi)容');

寫法

const { Parser } = require('htmlparser2');
const parser = new Parser(handler, options);
parser.parseComplete('html/xml內(nèi)容');

htmlparser2提供了一個解析器——Parser，初始化它至少需要一個handler，options是可選的。

handler是一個對象，在這個對象上可以設(shè)置很多的鉤子函數(shù)，Parser解析時會在每個階段運(yùn)行對應(yīng)的鉤子函數(shù)。

以下是可以設(shè)置的所有的鉤子函數(shù)，

onopentag(<str> name, <obj> attributes)

onopentagname(<str> name)

onattribute(<str> name, <str> value)

ontext(<str> text)

onclosetag(<str> name)

onprocessinginstruction(<str> name, <str> data)

oncomment(<str> data)

oncommentend()

oncdatastart()

oncdataend()

onerror(<err> error)

onreset()

onend()

htmlparser模塊是通過正則表達(dá)式來解析html內(nèi)容的，而htmlparser2則不同，它會按順序讀取html的每個字符，并且推測后面字符是標(biāo)簽名、屬性還是其他的類型，所以htmlparser2在解析完每一個標(biāo)簽后都會運(yùn)行相應(yīng)的鉤子函數(shù)。

先來看一下例子，

圖1

圖1中設(shè)置了所有的鉤子函數(shù)以便來說明每個鉤子函數(shù)的作用，運(yùn)行一下，

圖2

對照圖1和圖2就能看出來每個鉤子函數(shù)的運(yùn)行時機(jī)，這其中有以下幾個鉤子函數(shù)需要注意一下。

oncdatastart和oncdataend會在解析<![CDATA[文本]]>標(biāo)簽時觸發(fā)，但是觸發(fā)的前提是選項(xiàng)設(shè)置了recognizeCDATA=true或者xmlMode=true；
onprocessinginstruction會在解析<!xxyy>或者<?xxyy>這樣的標(biāo)簽時觸發(fā)，xx和yy中間可以有分隔符（斜杠或者空格），分隔符前面的字符串就是鉤子函數(shù)中的name的值；
運(yùn)行parseComplete方法會執(zhí)行reset鉤子函數(shù)，如果僅僅執(zhí)行parser的write或者end方法并不會執(zhí)行reset方法。

除了自定義handler以外，htmlparser2還提供了幾個handler，比如DomHandler，用法如下：

圖3

運(yùn)行一下，我們看看結(jié)果，

圖4

如果4所示，DomHandler處理的結(jié)果是以數(shù)組的形式輸出的，在每個單元數(shù)據(jù)中還可以拿到上一個、下一個以及父節(jié)點(diǎn)的數(shù)據(jù)。

htmlparser2還可以通過操作流Stream解析內(nèi)容，寫法如下：

圖5

總結(jié)

這篇文章和上一篇是姊妹篇，都是介紹解析html/xml內(nèi)容的模塊，通過對比，我們發(fā)現(xiàn)htmlparser2模塊功能更強(qiáng)大一些，也更靈活一些，同時也兼容htmlparser模塊的一些接口。雖然兩者功能類似，但是這給了我們更多的選擇性。

喜歡我的文章就關(guān)注我吧，有問題可以發(fā)表評論，我們一起學(xué)習(xí)，共同成長！

)JavaScript基本組成

1.1基本語法幾乎所有瀏覽器基本都支持,有專門的機(jī)構(gòu)制定統(tǒng)一標(biāo)準(zhǔn)

1.2Dom(文檔對象)瀏覽器基本都支持,但有的可能會有差別到時再說(重點(diǎn))

1.3Bom(瀏覽器對象)一般功能性的瀏覽器支持這個沒有統(tǒng)一的標(biāo)準(zhǔn),主要操作如打開關(guān)閉瀏覽器窗口,獲取屏幕的分辨率screen,XmlHttpRequest(異步對象)等

2)JavaScript的語法

2.1Javascript嚴(yán)格區(qū)分變量的大小寫;比如 a與A代表的是兩個不同的變量

2.2Javascript中聲明變量時只有一個關(guān)鍵字var(ES5),Javascript是一個弱類型的編程語言;比如聲明一個變量a var a; a=3(數(shù)值) 或者a="3"(字符串)都是正確的,與C#中的不一樣;每條語句后加分號(分號建議加上)

如果變量使用前不用var聲明,這樣的變量就變成了“全局變量”

2.3Javascript中的注釋,與C#的相同 //單行注釋、/* 多行注釋 */

2.4變量的命名規(guī)則:以字母,下劃線或$開頭,中間可以包括任意的字母,數(shù)字,下劃線或$。(與C#相比變量命名中多了一個$)

2.5JavaScript中即可以使用雙引號或者單引號聲明字符串變量,主要是為了方便和html的兼容,避免轉(zhuǎn)義符的麻煩

2.6每次修改過JavaScript中的代碼后直接保存,在瀏覽器中刷新即可

3)JavaScript代碼

javascript代碼需要寫在<script></script>標(biāo)簽中而<script>標(biāo)簽可以寫在<head>,<body>等任意位置,一個網(wǎng)頁中也可以有多個<script></script>標(biāo)簽(此標(biāo)簽最好是成對出現(xiàn))

如果<script>標(biāo)簽放到<head>中,則代碼在body加載之前就已經(jīng)運(yùn)行了;如果寫在body中的<script>是隨著頁面的加載而一個個執(zhí)行的

如果代碼運(yùn)行遇到錯誤,有錯誤的<script></script>中的代碼不會執(zhí)行,但也不會影響后面的其他<script></script>中的代碼和html的顯示

JavaScript代碼可以直接寫在網(wǎng)頁中,也可以將JavaScript代碼寫到單獨(dú)的js文件中,其擴(kuò)展名就是**.js, 寫好此js文件后在頁面中再引入此文件;建議寫在網(wǎng)頁的最后,因?yàn)閖avascript代碼執(zhí)行順序是從上到下依次執(zhí)行,如果引用文件寫在head中很大可能會報錯(操作DOM對象)

查看javascript代碼

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
    <title>JavaScript</title>
    <script type="text/javascript">
   // javascript代碼    單行注釋
   /* javascript代碼    多行注釋*/
   var a=3;
   alert(a);//彈出對話框
   a="3";
   alert(a);
    </script>    
</head>
<body>   
</body>
<script src="**.js" type="text/javascript">只能引用文件,不能書寫代碼</script>
</html>

alert(a);自己查看彈出的對話框的值

在線咨詢

上一篇：網(wǎng)頁設(shè)計入門-HTML5
下一篇：元氏縣醫(yī)療保障局城鄉(xiāng)居民醫(yī)保辦事明白紙

您的項(xiàng)目需求

*請認(rèn)真填寫需求信息，我們會在24小時內(nèi)與您取得聯(lián)系。

整合營銷服務(wù)商

HTML 2 PDF通用能力的設(shè)計與實(shí)現(xiàn)

用法簡介

總結(jié)

您的項(xiàng)目需求