言
目前,教學(xué)、教研各種內(nèi)容線上沉淀、展示豐富多彩,但線上內(nèi)容“線下化”能力不足或過分依賴人力,比如,線上練習(xí)題組卷后以PDF形式分發(fā)給學(xué)生,家長希望將考試、練習(xí)題目打印后,學(xué)生帶到學(xué)校去做(高中生使用手機(jī)等電子設(shè)備的時間有限),線上各類分析報告以PDF形式分享給學(xué)生/家長等。
從業(yè)務(wù)方面看,不同業(yè)務(wù)線的多個業(yè)務(wù)場景都有輸出PDF的訴求,如果各業(yè)務(wù)線自己設(shè)計、實(shí)現(xiàn)符合自身業(yè)務(wù)場景的具體方案,除調(diào)研、開發(fā)工作量較大之外,還會有重復(fù)調(diào)研,踩坑的情況。
從技術(shù)角度看,線上內(nèi)容轉(zhuǎn)PDF的內(nèi)容源頭來自于H5富文本內(nèi)容,業(yè)界內(nèi)以此為基礎(chǔ)的PDF生成方案多種多樣,也各有優(yōu)劣,比如:
方案對比-表格-1
因此,我們綜合了各種PDF生成方案并總結(jié)了在探索講義生成PDF過程中的經(jīng)驗(yàn),抽象出了一套通用的,可復(fù)用的能力供各業(yè)務(wù)線快速利用,基本方案和優(yōu)劣如下:
最終方案-表格-2
目 標(biāo)
旨在提供一套以H5為載體的PDF通用生成方案,這套方案有如下特點(diǎn):
這套方案可分為兩個核心部分,頁面展示側(cè) - Medusa,PDF生成側(cè) - Hydra
頁面展示側(cè) - Medusa
我們頁面展示側(cè)的通用能力——Medusa,是基于Paged.js的二次封裝,并以NPM包形式提供給業(yè)務(wù)方使用。Medusa可對任何HTML進(jìn)行分頁、并根據(jù)配置添加頁眉、頁腳等,最終將處理后的HTML渲染到頁面中。Medusa封裝并簡化了對PDF格式的配置,可覆蓋絕大多數(shù)業(yè)務(wù)場景,使得各業(yè)務(wù)場景將更多精力投入其自身業(yè)務(wù)邏輯的開發(fā)。
之所以選擇Pagedjs為基礎(chǔ)開發(fā)我們自己的SDK,是因?yàn)樗悄壳拔覀兡苷业降奈ㄒ?/span>開源的、具有HTML內(nèi)容分頁,樣式處理的前端庫,同時我們也在講義中經(jīng)過了長期的摸索與沉淀。
接下來將詳細(xì)介紹Paged.js原理、Medusa支持的功能與使用方法。
一 Paged.js是如何工作的
Paged.js包含了 3 個大模塊
這里將主要介紹 Previewer 和 Chunker,因?yàn)槲覀兊亩伍_發(fā)和維護(hù)不涉及到Polisher。
Previewer
Previewer 的工作非常簡單,但我們會主要利用它封裝我們的Medusa,初始化一個Previewer對象,Previewer初始化了Chunker和Polisher對象:
Medusa-代碼-1
再調(diào)用Previewer的preview()方法,preview()方法做了兩件事:
Medusa-代碼-2
當(dāng)chunker.flow結(jié)束,即可在瀏覽器看到整個頁面處理完之后的樣子。
Chunker
首先,Chunker解析、預(yù)處理需要分頁的HTML,為其添加一些必要的屬性
Medusa-代碼-3
然后創(chuàng)建容納所有頁(pages)的容器,并掛載到renderTo容器下(默認(rèn)Body),以備組織后續(xù)的所有頁:
Medusa-代碼-4
接著,chunker創(chuàng)建了一個page模版,以便增加頁面使用:
Medusa-代碼-5
其中,TEMPLATE是Pagedjs內(nèi)部創(chuàng)建頁面時所使用的基礎(chǔ)模版。
Medusa-代碼-6
接下來,chunker進(jìn)入了渲染+分頁過程(這個過程我們不會在二次開發(fā)中做修改,但需要了解其基本思路以便在出問題時能有解決思路),這個過程在循環(huán)一個迭代器(*layout),迭代器一直在做3件事:
原則:
尋找overflow時會將盡可能多的內(nèi)容節(jié)點(diǎn)插入內(nèi)容區(qū)域,這里,“盡可能多”分為幾種情況,比如:
步驟:
Pagedjs遵循了如下步驟去尋找overflow:
兩個前置條件:
i. 從需要處理的內(nèi)容第一個節(jié)點(diǎn)開始,判斷是否 node.left >= contentArea.right || node.top >= contentArea.bottom
Medusa-代碼-7
ii.如果不滿足,則判斷 node.right <= contentArea.right && node.bottom <= contentArea.bottom
Medusa-代碼-8
iii.如果不滿足,那說明有子節(jié)點(diǎn)overflow了,則繼續(xù)深入其子節(jié)點(diǎn)查找即可。
3.使用模版添加新的頁面,并從BreakToken處繼續(xù)上述動作。
二 Medusa支持的功能及使用方法
基于Paged.js,Medusa支持了如下功能,并為業(yè)務(wù)方提供了更加簡潔、定制化的配置。
下方是調(diào)用Medusa的代碼示例:
Medusa-代碼-9
1.1 動態(tài)頁面分頁能力
Medusa核心功能,可將連續(xù)的HTML頁面轉(zhuǎn)化成一頁頁P(yáng)DF樣式的HTML。
1.2 單頁模版配置 -> 生成能力
通過Grid布局,Paged.js將一個單頁模版分為多個區(qū)域,整體分為2個大的部分:
業(yè)務(wù)方通過簡單的配置,即可還原UI設(shè)計稿中的PDF樣式,例子如下圖:
1.2.1 base
頁面基礎(chǔ)配置是對每頁的。支持紙型或頁面寬高、內(nèi)容區(qū)域margin、padding、背景及水印的設(shè)置。
在封裝Medusa時,Medusa將讀取傳入的頁面模版配置、靜態(tài)頁內(nèi)容配置,并將樣式上的配置解析并轉(zhuǎn)化為Previewer可理解的樣式內(nèi)容,比如頁面寬高的設(shè)置:
Medusa-代碼-10
將被轉(zhuǎn)化為:
Medusa-代碼-11
1.2.2 surround
2. 目前支持3種類型的surround item:
example:
Medusa-代碼-12
1.3 前/后置靜態(tài)頁面
業(yè)務(wù)方可通過如下方式配置靜態(tài)頁面的具體內(nèi)容:
Medusa-代碼-13
其中,傳入的React JSX Element將會被這樣處理:
Medusa-代碼-14
處理完成后,將HTML String拼接到頁面模版中,再插入分頁后內(nèi)容的前后。
PDF生成側(cè) - Hydra:
頁面展示側(cè)為PDF生成做好了頁面的準(zhǔn)備,對于PDF生成側(cè),需要做的工作就更純粹了,業(yè)務(wù)方除了請求生成PDF,定期檢查PDF生成的進(jìn)度,無需做任何額外工作。
1.整體流程:
PDF生成是CPU和內(nèi)存密集型的,由于頁面內(nèi)容的不確定性,也意味著頁面渲染時間與生成PDF的時間都是不確定的,因此整體PDF生成的鏈路被設(shè)計成是異步的,如下圖:
整體流程上,業(yè)務(wù)方在請求生成PDF時,會先在后端做一條記錄,后端再將任務(wù)發(fā)送給Node服務(wù),即Hydra;
在生成PDF時, 第 1 步是做頁面上的準(zhǔn)備,一個生成任務(wù)可能有多個URL頁面需要生成PDF,所以我們預(yù)先啟動對應(yīng)URL數(shù)量的PPTR Page,頁面都啟動完成后,進(jìn)入下一步;
第 2 步:渲染頁面,這個過程中,如果請求是包含多個URL的,這些頁面會同步渲染,在所有頁面渲染完成后,進(jìn)入下一步。
第 2.5 步,如果是需要生成連續(xù)頁碼的一整個PDF,還會做額外的一個動作:頁碼矯正,通過頁碼矯正,可以將同步渲染的每個頁面,按照其之前頁面的頁碼數(shù)修正,以保證整體PDF的頁碼的連貫。
第 3 步,通過PPTR Page的能力將頁面轉(zhuǎn)換為PDF buffer,如有必要,再將生成的PDF buffer拼接到一起生成一整個PDF,或者將每個PDF buffer都生成一個PDF,壓縮成zip文件。
第 4 步,文件上傳OSS,最終返回OSS CDN鏈接。
2.請求生成PDF:
業(yè)務(wù)側(cè)請求將對應(yīng)頁面生成PDF的時,只需傳入如下字段:
Hydra-代碼-1
3.PDF生成過程:
正如在整體流程中所述,PDF生成側(cè),我們借助 PPTR 的能力打開頁面并生成PDF流。
在頁面調(diào)用 Medusa 分頁、組裝能力時,所有內(nèi)容分頁組裝完成后會向body中插入了一個額外的DOM以標(biāo)識該頁面處理完成:
Hydra-代碼-2
這是為了 Hydra 感知頁面渲染完成所做的準(zhǔn)備,當(dāng)生成服務(wù)的 PPTR 等到該DOM出現(xiàn)時,則表示頁面成功渲染并處理完成了:
Hydra-代碼-3
此后,在上面已經(jīng)提到過,對于需要將多個頁面生成的PDF拼接成一個PDF的情況,在生成PDF之前需要做一個重要的動作,即頁碼矯正,原因如下:
并且我們不希望頁面的處理是串行的,因?yàn)榇袆荼貙?dǎo)致速度較慢,生成時間長。
這個問題的解決方案如下:
1. 對于每個頁面都啟用一個page,并同時處理
2. 每個頁面處理完成后(pdfLastDOM出現(xiàn)),通過Page.$eval()來統(tǒng)計頁數(shù)并記錄:
Hydra-代碼-4
3. 計算出頁面中分頁之后每一個頁面的起始頁碼,以及所有頁面的頁碼總和
4. 再修改頁碼容器樣式的 counterReset 值即可,其后續(xù)頁碼可自遞增。
Hydra-代碼-5
5. 之后,再通過 Medusa 在頁面window對象中Polyfill的相關(guān)配置,比如需要生成的PDF的單頁寬、高以生成PDF流。
Hydra-代碼-6
6. 最后如有必要,通過pdf-lib拼接這些 pdfBuffer 即可。
Hydra-代碼-7
7. PDF生成完成后,上傳OSS并返回URL鏈接
4.性能、穩(wěn)定性保證:
在整體方案落地前,我們對服務(wù)進(jìn)行了多次性能測試:
以下載題目為例,在4個容器,每個容器 3C 12G 的配置下的并行處理能力如下:
對于 20 道題目,每個PDF生成任務(wù)在 15 頁左右,平均 1 分鐘內(nèi)能完成 280 個任務(wù)的處理。
對于 40 道題目,每個PDF生成任務(wù)在 30 頁左右,平均 1 分鐘內(nèi)能完成 105 個任務(wù)的處理。
對于 60 到題目,每個PDF生成任務(wù)在 40 頁左右,平均 1 分鐘內(nèi)能完成 54 個任務(wù)的處理。
同時,根據(jù) Hydra 服務(wù)的整體的處理能力,后端通過任務(wù)隊(duì)列的形式幫助我們保證服務(wù)不被瞬間的突刺流量擊垮。
已接入/正在接入的相關(guān)業(yè)務(wù)線及場景:
目前,公司有 5 大業(yè)務(wù)線,8 個場景已經(jīng)完全接入我們的能力用于 H5 轉(zhuǎn) PDF,如下是錯題本、內(nèi)容資料庫接入后生成的PDF樣例:
錯題本:
內(nèi)容資料庫試卷:
未來展望
目前整體的PDF生成方案已經(jīng)能夠滿足大多數(shù)場景和內(nèi)容,但依然有可改進(jìn)空間。
HTML的流式布局要求我們必須手動的對內(nèi)容分頁,才能添加頁眉,頁腳等(即Mdusa做的工作),正因?yàn)槿绱耍谔幚韽?fù)雜的內(nèi)容時,可能會出現(xiàn)一些問題:比如,遇到復(fù)雜表格時,由于表格可能會有多種多樣的行、列合并,同時表格單元格內(nèi)的內(nèi)容也可以多種多樣,在分頁過程中,Medusa內(nèi)部的PagedJS并不能完美的處理對于長、且復(fù)雜的表格的分割,因此可能遇到分割后表格單元格缺失、錯亂或?qū)捀咤e誤的問題,這些問題在講義中體現(xiàn)較明顯。
我們?nèi)栽诔掷m(xù)關(guān)注與研究復(fù)雜DOM內(nèi)容的分割問題,會嘗試加以優(yōu)化和改進(jìn)PagedJS的能力,同時,我們也以另外一種思路設(shè)計了自己的DOM分頁器方案,但經(jīng)過評估,由于實(shí)現(xiàn)比較復(fù)雜,成本較高,暫時沒有投入開發(fā)資源。
不過,我們相信,未來我們一定能以更完美的方式分割DOM以生成更高質(zhì)量的PDF。
作者:高源、陳欣博
來源:微信公眾號:高途技術(shù)
出處:https://mp.weixin.qq.com/s/c_N7jdNklrNFKR_Cub2Tgg
一篇文章我們介紹了一個html/xml解析器——htmlparser,這篇文章我們介紹另外一個解析模塊htmlparser2,后者是對前者的重構(gòu),同時對前者的API做了部分兼容。
安裝
const { Parser } = require('htmlparser2');
const parser = new Parser(handler, options);
parser.parseComplete('html/xml內(nèi)容');
寫法
const { Parser } = require('htmlparser2');
const parser = new Parser(handler, options);
parser.parseComplete('html/xml內(nèi)容');
htmlparser2提供了一個解析器——Parser,初始化它至少需要一個handler,options是可選的。
handler是一個對象,在這個對象上可以設(shè)置很多的鉤子函數(shù),Parser解析時會在每個階段運(yùn)行對應(yīng)的鉤子函數(shù)。
以下是可以設(shè)置的所有的鉤子函數(shù),
htmlparser模塊是通過正則表達(dá)式來解析html內(nèi)容的,而htmlparser2則不同,它會按順序讀取html的每個字符,并且推測后面字符是標(biāo)簽名、屬性還是其他的類型,所以htmlparser2在解析完每一個標(biāo)簽后都會運(yùn)行相應(yīng)的鉤子函數(shù)。
先來看一下例子,
圖1
圖1中設(shè)置了所有的鉤子函數(shù)以便來說明每個鉤子函數(shù)的作用,運(yùn)行一下,
圖2
對照圖1和圖2就能看出來每個鉤子函數(shù)的運(yùn)行時機(jī),這其中有以下幾個鉤子函數(shù)需要注意一下。
除了自定義handler以外,htmlparser2還提供了幾個handler,比如DomHandler,用法如下:
圖3
運(yùn)行一下,我們看看結(jié)果,
圖4
如果4所示,DomHandler處理的結(jié)果是以數(shù)組的形式輸出的,在每個單元數(shù)據(jù)中還可以拿到上一個、下一個以及父節(jié)點(diǎn)的數(shù)據(jù)。
htmlparser2還可以通過操作流Stream解析內(nèi)容,寫法如下:
圖5
這篇文章和上一篇是姊妹篇,都是介紹解析html/xml內(nèi)容的模塊,通過對比,我們發(fā)現(xiàn)htmlparser2模塊功能更強(qiáng)大一些,也更靈活一些,同時也兼容htmlparser模塊的一些接口。雖然兩者功能類似,但是這給了我們更多的選擇性。
喜歡我的文章就關(guān)注我吧,有問題可以發(fā)表評論,我們一起學(xué)習(xí),共同成長!
)JavaScript基本組成
1.1基本語法幾乎所有瀏覽器基本都支持,有專門的機(jī)構(gòu)制定統(tǒng)一標(biāo)準(zhǔn)
1.2Dom(文檔對象)瀏覽器基本都支持,但有的可能會有差別到時再說(重點(diǎn))
1.3Bom(瀏覽器對象)一般功能性的瀏覽器支持這個沒有統(tǒng)一的標(biāo)準(zhǔn),主要操作如打開關(guān)閉瀏覽器窗口,獲取屏幕的分辨率screen,XmlHttpRequest(異步對象)等
2)JavaScript的語法
2.1Javascript嚴(yán)格區(qū)分變量的大小寫;比如 a與A代表的是兩個不同的變量
2.2Javascript中聲明變量時只有一個關(guān)鍵字var(ES5),Javascript是一個弱類型的編程語言;比如聲明一個變量a var a; a=3(數(shù)值) 或者a="3"(字符串)都是正確的,與C#中的不一樣;每條語句后加分號(分號建議加上)
如果變量使用前不用var聲明,這樣的變量就變成了“全局變量”
2.3Javascript中的注釋,與C#的相同 //單行注釋、/* 多行注釋 */
2.4變量的命名規(guī)則:以字母,下劃線或$開頭,中間可以包括任意的字母,數(shù)字,下劃線或$。(與C#相比變量命名中多了一個$)
2.5JavaScript中即可以使用雙引號或者單引號聲明字符串變量,主要是為了方便和html的兼容,避免轉(zhuǎn)義符的麻煩
2.6每次修改過JavaScript中的代碼后直接保存,在瀏覽器中刷新即可
3)JavaScript代碼
javascript代碼需要寫在<script></script>標(biāo)簽中而<script>標(biāo)簽可以寫在<head>,<body>等任意位置,一個網(wǎng)頁中也可以有多個<script></script>標(biāo)簽(此標(biāo)簽最好是成對出現(xiàn))
<script>標(biāo)簽標(biāo)準(zhǔn)格式:<script type="text/javascript">js代碼</script>
如果<script>標(biāo)簽放到<head>中,則代碼在body加載之前就已經(jīng)運(yùn)行了;如果寫在body中的<script>是隨著頁面的加載而一個個執(zhí)行的
如果代碼運(yùn)行遇到錯誤,有錯誤的<script></script>中的代碼不會執(zhí)行,但也不會影響后面的其他<script></script>中的代碼和html的顯示
JavaScript代碼可以直接寫在網(wǎng)頁中,也可以將JavaScript代碼寫到單獨(dú)的js文件中,其擴(kuò)展名就是**.js, 寫好此js文件后在頁面中再引入此文件;建議寫在網(wǎng)頁的最后,因?yàn)閖avascript代碼執(zhí)行順序是從上到下依次執(zhí)行,如果引用文件寫在head中很大可能會報錯(操作DOM對象)
<script src="文件名.js" type="text/javascript"></script> src后面的路徑為相對路徑
查看javascript代碼
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>JavaScript</title>
<script type="text/javascript">
// javascript代碼 單行注釋
/* javascript代碼 多行注釋*/
var a=3;
alert(a);//彈出對話框
a="3";
alert(a);
</script>
</head>
<body>
</body>
<script src="**.js" type="text/javascript">只能引用文件,不能書寫代碼</script>
</html>
alert(a);自己查看彈出的對話框的值
*請認(rèn)真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。