說起富文本編輯器,我們大都遇到過,甚至使用過,這種所見即所得的書寫方式,以及它靈活的排版,讓我們的創作更加流暢和美觀。其實你可以把它理解成是把word等軟件的功能轉成在瀏覽器里面使用,這樣就能通過其他的一些手段進行管理,并融入到相應系統中。但是由于實現方式和語言等的不同,存在著一些出入。
比如我現在正在使用的,也就是此刻我寫這篇文章的工具,就是一個富文本編輯器。其實富文本編輯器有很多種,它們的功能類似、產出目的類似、使用方式也類似,只不過在豐富程度上稍有差別,今天的CKEditor5就是其中的一款。
示意圖
可以看到,還是很好看的,美而不失實用。它的功能特別多,只不過有一些功能是要收費的,也就是說它只開源了一部分,或者說對于一些更高級的吊吊的功能你需要少買一點零食或者玩具。不過這些基礎功能已經足夠用了,它的可插拔式插件集成功能非常強大。
示意圖
就像上面所示,你可以隨意的添加或刪除一個擴展功能,下面有非常多的待繼承插件供你選擇。
示意圖
但是像上面這種的,帶有premium的插件,那你就需要支付一定的費用才可以使用啦。
細心的你相信一眼就看出來了,這就是我們今天要講的內容:從word中導入。
這是一個高級功能,雖然不是很常用,但是有一些特殊的場景或者需求,我們可能希望從編輯好的word中,通過導入的方式來讓用戶在網頁中繼續編輯它,并盡可能的保留內容和格式。
一個是自己資金不是很充裕,再一個是想自己去動手做做,因此就決定獨立實現這樣一個功能。自己做的,當然可以隨便免費用。
在開始之前,我們先看下做這個功能在完成之后需要滿足的效果,雖然這個功能官網是收費的,但是為了給大家演示,官網也提供了示例,我們先看下官網的成品:
效果圖
我們先根據提示,在官網示例上面下載了它提供的一個word,然后用CKEditor5的導入word功能,把這個word導入到編輯器中,解析完成之后就看到了效果,它的還原度很高了,官網應該是特意制作的示例word文件,里邊包含了段落、列表、圖片、表格等等多個技術點。這些都是我們接下來要實現的內容,官網這復雜程度,錢花的挺值。
為了能讓大家有一個對比,這里我把原版word也展示出來給你們看一下:
效果圖
可以對比著感受下,不過還是有一些地方不太一樣的,比如我對這個原文檔做一點點更改。體現就稍微有一點略微的不同,但是這個不是毛病,只是看著有點別扭,我給兩張圖,先來原word的圖,這是我改過的列表:
示意圖
再來一張官網導入之后渲染的效果圖:
示意圖
主要有:1.列表距左邊的距離。2.列表項之間多出空白。3.不能顯示中文序號。
我們要想實現這樣一個插件,首先想到有沒有現成的word轉html的前端或者后端插件,因為富文本編輯器是可以設置內容的,并且這個內容實質就是html代碼,然后再在這個基礎上進行集成開發。
因為我有自己的node后端,所以如果用后端做的話就找了一些關于node的word轉html插件,一共找到了docx2html、mammoth、word2html等,但是經過測試都不太理想,于是決定放棄,換一個思路,我們可以解析word,然后根據word規范,自己生成出html。
word是流式文件,能任意編輯并且回顯,那么肯定有一套約定在里邊,能夠保存格式并重新讀取,就看它有沒有開放給我們,幸好,docx這個x就是告訴我們,可以的,因為它就是xml的意思,符合xml規范。
好了,我們可以找出兩個輔助插件:
第一個就是用來解壓縮用的adm-zip包。
第二個就是用來解析xml文件的xml-js包。
為什么這樣呢?這是因為一個docx文件,就是一個壓縮包,我們把docx文件重命名為zip格式。然后就可以解壓看下里面的內容:
示意圖
這就是解壓之后的目錄,里面包含著所有的word內容,我們一會揭開它的面紗。其中一個關鍵目錄就是word文件夾:
示意圖
可以看到有很多的xml文件,它們就規定了word的回顯機制和渲染邏輯。
還有一個media文件夾,我們看下它里面有什么:
示意圖
可以明顯的看到有兩張圖片,這兩張圖片就是我們在原word中使用的圖片,它就隱藏在這里。
另外,其中document.xml文件存儲了整個word的結構和內容,numbering.xml文件規定了列表如何渲染,styles.xml告訴了需要應用哪些樣式。
我們就以document.xml文件做一個簡單的說明,其余不做過多展開:
示意圖
文件前面是對該xml的一些聲明,body中包含了一個個的段落,也就是w:p。其中又包含了多個系列w:r,系列中就存儲著我們的文本,比如上圖紅框中我圈出的部分。
而且里面還存儲著段落屬性w:pPr和系列屬性w:rPr。我們就是通過對這些一對對的xml標簽,來對word進行解析,找出它的渲染規則。
首先使用上面提到的兩個包,非常簡單:
const dir = join(process.cwd(), 'public/temp/word/' + fn)
const zip = new AdmZip(dir)
let contentXml = zip.readAsText('word/document.xml')
const documentData = xml2js(contentXml)
contentXml = zip.readAsText('word/numbering.xml')
const numberingData = contentXml ? xml2js(contentXml) : {
elements: ''
}
contentXml = zip.readAsText('word/_rels/document.xml.rels')
const relsData = xml2js(contentXml)
contentXml = zip.readAsText('word/styles.xml')
const styleData = xml2js(contentXml)
let ent = zip.getEntries()
let ind = fn.lastIndexOf('.')
let flag = false
for(let i = 0; i < ent.length; i++) {
let n = ent[i].entryName
if(n.substring(0, 11) === 'word/media/') {
flag = true
zip.extractEntryTo(n, join(process.cwd(), 'public/temp/word/' + fn.substring(0, ind)), false, true)
}
}
return {
documentXML: documentData?.elements[0]?.elements[0]?.elements,
numberingXML: numberingData?.elements[0]?.elements,
relsXML: relsData?.elements[0]?.elements,
styleXML: styleData?.elements[0]?.elements.slice(2),
imagePath: fn.substring(0, ind),
}
簡單對上面的代碼做一下說明:
至此,我們看一下目前解析完成之后,形成的數據結構。
示意圖
很好,現在開始集成:
import { Editor } from '/lib/ckeditor5/ckeditor'
import loadConfig from './config'
import filePlugin from './file'
import './style.scss'
loadConfig(Editor)
const container: any = ref(null)
let richEditor: any = null
onMounted(() => {
Editor.create(container.value, {
extraPlugins: [filePlugin]
}).then((editor: any) => {
richEditor = editor
}).catch((error: any) => {
console.log(error.stack)
})
})
第1行,導入Editor,也就是我們一會要用的富文本編輯器,然后第9行通過create方法創建它,接收的兩個參數分別表示:渲染的容器與配置的插件。
因為CKEditor5填入圖片的時候,需要自己手動實現一個插件方法,因此我們要把它配置進來,因為跟咱們要講的內容無關,就不展開了,官方文檔說的很清楚了。
第5行,我在初始化編輯器之前,先去加載了一些配置,其中一個就是引入word轉pdf的功能,由于CKEditor5插件擴展很容易,直接在Editor的builtinPlugins屬性數據里面加上我們實現的插件就可以,所以我們直接講插件的開發:
import { ButtonView, Plugin } from '/lib/ckeditor5/ckeditor'
import { postData } from '@/request'
import { DocumentWordProcessorReference } from '@/common/svg'
import { serverUrl } from '@/company'
import { ElMessage } from 'element-plus'
import { arrayToMapByKey } from '@/utils'
let numberingList: any = null
let relsList: any = null
let styleList: any = null
let imageUrl: any = null
let docInfo: any = {
author: {},
currentAuthor: '',
currentIndex: -1
}
const colorList = ['#d13438', '#0078d4', '#5c2e91', 'chocolate', 'aquamarine', 'lawngreen', 'hotpink', 'darkblue', 'darkslateblue', 'blueviolet', 'firebrick', 'coral', 'darkcyan', 'indigo', 'greenyellow', 'deeppink', 'indianred', 'blue', 'darkgray', 'darkmagenta', 'darkgreen', 'chartreuse', 'darksalmon', 'dimgray', 'crimson', 'darkolivegreen', 'gold', 'aqua', 'lightcoral', 'goldenrod', 'burlywood', 'green', 'darkkhaki', 'forestgreen', 'fushcia', 'darkorchid', 'deepskyblue', 'darkgoldenrod', 'cyan', 'cornflowerblue', 'brown', 'cadetblue', 'darkviolet', 'dodgerblue', 'darkred', 'gray', 'khaki', 'bisque', 'darkorange', 'darkslategray', 'lightblue', 'darkturquoise', 'darkseagreen']
let BlockType = ''
引入一些必要的組件和方法等,然后定義我們的插件,一定要繼承ckeditor5的Plugin:
export default class importFromWord extends Plugin {
}
然后首先在里面實現它的init方法,做一些初始化操作:
init() {
const editor = this.editor
editor.ui.componentFactory.add('importFromWord', () => {
const button = new ButtonView()
button.set({
label: '從word導入',
icon: DocumentWordProcessorReference,
tooltip: true
})
button.on('execute', () => {
this.input.click()
})
return button
})
}
this.editor就是我們之前使用create創建好的編輯器,通過editor.ui.componentFactory.add給工具欄添加一個按鈕,也就是我們要點擊導入word的按鈕。
示意圖
這里面用到了ckeditor5的ButtonView按鈕組件生成器,設置它的名稱和圖標,然后添加一個暴露出來的事件,當點擊按鈕的時候,觸發選擇文件彈窗,這個input是我自己寫的一個文件上傳輸入框。
接下來,我們去構造函數中做一些事情,當實例化這個組件的時候,初始化好我們需要的東西:
constructor(editor: any) {
super(editor)
this.editor = editor
this.input = document.createElement('input')
this.input.type = 'file'
this.input.style.opacity = 0
this.input.style.display = 'none'
this.input.addEventListener('change', (e: any) => {
const formData: any = new FormData()
formData.append("upload", this.input.files[0])
formData.Headers = {'Content-Type':'multipart/form-data'}
let ms = ElMessage({
message: "正在解析...",
type: "info",
})
postData({
service: "lc",
url: `file/word`,
data: formData,
}).then(res => {
ms.close()
if (res.data) {
ElMessage({
message: "上傳文件成功",
type: "success",
})
const { documentXML, numberingXML, relsXML, styleXML, imagePath } = res.data
numberingList = numberingXML
relsList = relsXML
styleList = styleXML
imageUrl = imagePath
markList(documentXML)
const html = listToHTML(documentXML)
const ckC = this.editor.ui.view?.editable?.element
const ckP = this.editor.ui.view?.stickyPanel?.element
if(ckC) {
let rt = ckC.parentNode.parentNode.parentNode
rt.style.setProperty('--content-top', docInfo.paddingTop + 'px')
rt.style.setProperty('--content-right', docInfo.paddingRight + 'px')
rt.style.setProperty('--content-bottom', docInfo.paddingBottom + 'px')
rt.style.setProperty('--content-left', docInfo.paddingLeft + 'px')
rt.style.setProperty('--content-width', docInfo.pageWidth - docInfo.paddingLeft - docInfo.paddingRight + 'px')
}
if(ckP) {
let rt = ckP.parentNode.parentNode.parentNode
rt.style.setProperty('--sticky-width', docInfo.pageWidth + 'px')
}
const div = document.createElement('div')
div.style.display = 'none'
div.innerHTML = html
splitList(div.firstElementChild)
insertDivToList(div)
document.body.appendChild(div)
document.body.removeChild(div)
this.editor.setData(div.innerHTML)
} else {
ElMessage({
message: "上傳文件失敗",
type: "error",
})
}
})
})
}
在這里我們主要做了幾件事:
首先第4行到第7行定義了一個文件選擇器。
然后給這個輸入框添加了一個事件。
第9行到第20行我們讀取到選擇的文件并上傳到服務器進行解析。
對返回回來的文檔數據,我們首先做一個標記,以方便我們接下來的操作:
function markList(list: any) {
let cache: any = []
list.forEach((item: any, index: number) => {
let isList = false
if(item.name === 'w:p') {
let pPr = findByName(item.elements, 'w:pPr')
if(pPr) {
let numPr = findByName(pPr.elements, 'w:numPr')
if(numPr) {
isList = true
let ilvl = numPr.elements[0].attributes['w:val']
let numId = numPr.elements[1].attributes['w:val']
let c = cache.at(-1)
numPr.level = ilvl
if(c) {
if(c.ilvl === ilvl && c.numId === numId) {
cache.pop()
}else if(c.ilvl === ilvl && c.numId !== numId) {
numPr.start = true
c.numPr.end = true
cache.pop()
}else if(c.ilvl < ilvl && c.numId === numId) {
numPr.start = true
cache.pop()
}else if(c.ilvl > ilvl && c.numId === numId) {
c.numPr.end = true
cache.pop()
}else if(c.numId !== numId) {
while(c.ilvl >= ilvl) {
c.numPr.end = true
c = cache.pop()
if(!c) {
break
}
}
}
}else {
numPr.start = true
}
cache.push({
ilvl,
numId,
index,
numPr
})
}
}
}
})
cache.forEach((c: any) => {
c.numPr.end = true
})
}
主要就是對列表進行標記,因為它要做一些特殊化的處理。
拿到數據之后,我們的核心邏輯都在第33行,實現listToHtml進行處理:
function listToHTML(list: any) {
let html = ''
list.forEach((item: any, index: number) => {
let info = getContainer(item)
html += info
})
return html
}
遍歷每一項,然后把它們生成的html拼接起來:
function getContainer(item: any) {
let html = ''
if(item.name === 'w:p') {
let n = findByName(item.elements, 'w:pPr')
let el: any = null
let pEl: any = null
let attr: any = {}
let style = null
if(n) {
let ps = findByName(n.elements, 'w:pStyle')
if(ps) {
let styleId = getAttributeVal(ps)
let sy = styleList.find((item: any) => {
return item.attributes['w:styleId'] === styleId
})
let ppr = findByName(sy.elements, 'w:pPr')
let rpr = findByName(sy.elements, 'w:rPr')
if(ppr) {
ppr.elements.forEach((p: any) => {
if(!findByName(n.elements, p.name)) {
n.elements.push(p)
}
})
}
if(rpr) {
let rs = findsByName(item.elements, 'w:r')
rs.forEach((r: any) => {
let rr = findByName(r.elements, 'w:rPr')
rpr.elements.forEach((p: any) => {
if(!findByName(rr.elements, p.name)) {
rr.elements.push(p)
}
})
})
}
}
let info = getPAttribute(n.elements)
attr = info.attr
style = info.style
if(attr.list) {
let s1: any = {}
let s2: any = {}
for(let t in info.style) {
if(t === 'list-style-type') {
s1[t] = info.style[t]
}else{
s2[t] = info.style[t]
}
}
for(let t in info.liStyle) {
s1[t] = info.liStyle[t]
}
if(attr.order) {
if(attr.start) {
if(attr.level !== '0') {
html += '<li style="list-style-type:none;">'
}
html += '<ol'
html += addStyle(s1)
html += '<li>'
html += '<p'
html += addStyle(s2)
}else {
html += '<li>'
html += '<p'
html += addStyle(s2)
}
}else{
if(attr.start) {
if(attr.level !== '0') {
html += '<li style="list-style-type:none;">'
}
html += '<ul'
html += addStyle(s1)
html += '<li>'
html += '<p'
html += addStyle(s2)
}else {
html += '<li>'
html += '<p'
html += addStyle(s2)
}
}
}else{
html += '<p'
html += addStyle(info.style)
}
}else{
el = document.createElement('p')
}
item.elements.forEach((r: any) => {
if(r.name === 'w:ins') {
setAuthor(r.attributes['w:author'])
r.elements.forEach((ins: any) => {
html += dealWr(ins, 'ins')
})
}else if(r.name === 'w:hyperlink') {
r.elements.forEach((hyp: any) => {
html += dealWr(hyp)
})
}else if(r.name === 'w:r') {
html += dealWr(r)
}else if(r.name === 'w:commentRangeStart') {
BlockType = 'comment'
}else if(r.name === 'w:commentRangeEnd') {
BlockType = ''
}else if(r.name === 'w:del') {
setAuthor(r.attributes['w:author'])
r.elements.forEach((hyp: any) => {
html += dealWr(hyp, 'del')
})
}
})
if(attr.list) {
if(attr.order) {
if(attr.end) {
html += '</p></li></ol>'
if(attr.level !== '0') {
html += '</li>'
}
}else {
html += '</p></li>'
}
}else{
if(attr.end) {
html += '</p></li></ul>'
if(attr.level !== '0') {
html += '</li>'
}
}else {
html += '</p></li>'
}
}
}else {
html += '</p>'
}
}else if(item.name === 'w:tbl') {
let n = findByName(item.elements, 'w:tblPr')
if(n) {
let info = getTableAttribute(n.elements)
html += '<figure class="table"'
html += addStyle(info.figureStyle)
html += '<table'
html += addStyle(info.tableStyle)
html += '<tbody>'
}
item.elements.forEach((r: any) => {
if(r.name === 'w:tr') {
html += dealWtr(r)
}
})
html += '</tbody></table></figure>'
}else if(item.name === 'w:sectPr') {
let ps = findByName(item.elements, 'w:pgSz')
let pm = findByName(item.elements, 'w:pgMar')
if(ps) {
docInfo.pageWidth = Math.ceil(ps.attributes['w:w'] / 20 * 96 / 72) + 1
}
if(pm) {
docInfo.paddingTop = pm.attributes['w:top'] / 1440 * 96
docInfo.paddingRight = pm.attributes['w:right'] / 1440 * 96
docInfo.paddingBottom = pm.attributes['w:bottom'] / 1440 * 96
docInfo.paddingLeft = pm.attributes['w:left'] / 1440 * 96
}
}
return html
}
做了一些邏輯判斷,和不同標簽的特殊處理。
在剛才input事件中的第34行到47行,主要是做一些編輯器大小等外觀設置,因為要配置成word中的寬度與邊距。
還需要考慮到,列表可能不是連續的,中間可能被一些段落所隔開,因此到這里還需要對生成的html中的列表進行分割,并修復索引問題:
function splitList(el: any) {
while(el) {
if(el.tagName === 'OL' || el.tagName === 'UL') {
let a = el.querySelectorAll('ol > p, ul > p')
let path: any = []
a.forEach((item: any) => {
let p: any = []
while(item) {
p.push(item)
item = item.parentNode
if(item === el) {
break
}
}
path.push(p.reverse())
})
let cur = el
let t: number = 0
path.forEach((p: any) => {
let list = cur.cloneNode(false)
let list2 = list
cur.parentNode.insertBefore(list, cur)
p.forEach((l: any, ind: number) => {
let chi = cur.children
let t = 0
for(let i = 0; i < chi.length; i++) {
if(chi[i] !== l) {
list.append(chi[i])
t++
i--
}else{
if(cur.tagName === 'OL') {
let s = cur.getAttribute('start')
cur.setAttribute('start', s ? (+s + t) : (t + 1))
}
if(ind === p.length - 1) {
let par = chi[i].parentNode
el.parentNode.insertBefore(chi[i], el)
if(par.children.length === 0) {
par.remove()
}
cur = el
}else{
cur.setAttribute('start', cur.getAttribute('start') - 1)
let cl = chi[i].cloneNode(false)
list.append(cl)
list = cl
cur = chi[i]
}
break
}
}
})
})
}
el = el.nextElementSibling
}
}
并且由于CKEditor5會對相鄰的列表進行合并等處理,這不是我們想要的,可以在它們中間插入一些div:
function insertDivToList(div: any) {
let f = div.firstElementChild
let k = f.nextElementSibling
while(k) {
if(f.tagName === 'UL' && k.tagName === 'UL') {
let d = document.createElement('div')
f = k
div.insertBefore(d, f)
k = f.nextElementSibling
}else if(f.tagName === 'OL' && k.tagName === 'OL') {
let d = document.createElement('p')
d.setAttribute('list-separator', "true")
f = k
div.insertBefore(d, f)
k = f.nextElementSibling
}else {
f = k
k = f.nextElementSibling
}
}
}
最后我們用this.editor.setData方法,將剛才生成的html設置到編輯器中去。
到此我們基本就已經把需要的功能實現了。
該來看一下我們所做的工作成果了,首先同樣導入CKEditor5官網中的文檔:
效果圖
可以看到,內容與格式等,基本跟原word一樣,與CKEditor5官網的示例也相同。然后我們再用另一個剛才修改過的文件測試一下:
效果圖
這個是用咱們剛才開發的插件導入的word的效果圖,幾乎與原word一模一樣,也沒有了CKEditor官網中的那幾個小問題。
至此,我們針對CKEditor5導入word的功能已經開發完畢,同時我又找了各種類型的word測試,均未發現問題,還原度都非常高。
感謝docx的規范,使得我們自己解析word成為可能,雖然不可能100%還原word的格式,但是能夠將它導入到我們的富文本編輯器中,以進行二次創作,這對我們來說是非常方便的。
本次word轉html,并導入富文本編輯器的開發過程,希望能給大家帶來啟發。
每一次創作都是快樂的,每一次分享也都是有益的,希望能夠幫助到你!
謝謝
談前端專注于前端+AI前沿技術和場景應用落地。關注可視化,零代碼,AI技術融合,職業發展研究和軟件工程化實踐。致力于打造一個開放自由的技術交流平臺。
大家好啊,我是徐小夕。之前和大家分享了很多前端工程化,可視化,職業發展相關的干貨,雖然這兩年大環境不太好,但是我們還是要定期學習成長,才能讓自己的未來把握職場主動權。
最近由于AI應用的高速發展,使得文檔/知識庫成為了AI的首選試煉場。比如用AI提取PDF的大綱和關鍵內容,用AI總結電子書的內容,AI對DOC文檔進行潤色,優化等,這些都離不開對文檔的解析和處理。
那么前端能不能實現對文檔的解析和處理呢?答案是肯定的,接下來我就和大家分享一下:
當然口說無憑,我已經在Nocode/WEP文檔知識引擎中把Doc文檔功能實現了,大家感興趣的可以親自體驗一下。
image.png
好啦,接下來開始我們的技術分享。
做了4年的零代碼平臺,準備出海了
image.png
Word 文檔的本質是一種電子文檔格式,它主要用于創建、編輯和保存文本內容,同時還可以包含圖片、表格、圖表等多種元素。它是一種方便的工具,用于記錄、整理和交流信息。
doc 和 docx 是兩種常見的 Word 文檔格式,它們主要有以下區別:
為了與時俱進,我們優先考慮最新標準格式 docx, 那么如何解析 docx 呢,這就要進一步分析一下 docx文件的本質了。
docx 我們第一感覺是一個文件,其實確實是一個文件(壓縮文件),我用解壓工具提取文件之后,它的文件結構是這樣的:
image.png
進入 word 文件夾,可以看到如下目錄結構:
image.png
打開一個 xml 文件可以看到類似如下的內容:
image.png
看到這熟悉前端的小伙伴應該就比較熟悉了,我們可以使用類似于 document 的方法解析處理不同的XML標簽,從而實現對 docx 文件的解析。
有了以上的分析結果,我們自己實現一個word文檔解析器就非常容易了,但是考慮到docx的xml 文件的復雜性,我們自己實現需要考慮很多種情況,比如:
如果是項目進度比較緊張的情況下,我們自己實現肯定是要被“批斗”的,所以我們可以考慮第三方成熟的解決方案。
這里直接上我總結的幾個開源方案:
那作為前端的小伙伴,我們首選 Mammoth。
image.png
github地址:https://github.com/mwilliamson/mammoth.js
接下來和大家分享一下使用 Mammoth 來實現 docx 文檔解析。
先來看一個簡單的例子:
import mammoth from 'mammoth';
mammoth.convertToHtml({path: "你的doc文件的路徑/document.docx"})
.then(function(result){
var html = result.value; // 解析出的html結果
var messages = result.messages; // 錯誤或者額外的提示信息
})
.catch(function(error) {
console.error(error);
});
以上代碼是在node.js 環境下實現的簡單例子,當然我們也可以在瀏覽器中直接使用,我在看完了它的文檔之后,加上自己的研究,寫了一個能自定義圖片上傳路徑,并支持修改文檔樣式的demo,這里分享一下:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Document</title>
</head>
<body>
<input type="file" onchange="handleFile(this.files[0])" />
<script src="https://unpkg.com/mammoth@latest/dist/mammoth.min.js"></script>
<script>
function handleFile(file) {
const reader = new FileReader();
reader.onload = function (loadEvent) {
const arrayBuffer = loadEvent.target.result;
mammoth.convertToHtml({ arrayBuffer: arrayBuffer }, {
// 設置自定義圖片上傳路徑
imageReader: (image) => {
return new Promise((resolve, reject) => {
// 在這里實現圖片上傳邏輯,并將上傳后的圖片路徑作為結果返回
resolve('your_uploaded_image_path');
});
},
// 設置文本樣式
styleMap: [
// 標題樣式
{
name: 'Heading 1',
element: 'h1',
attributes: {
'tyle': 'font-size: 24px; color: #333;',
},
},
// 正文樣式
{
name: 'Normal',
element: 'p',
attributes: {
'tyle': 'font-size: 16px; color: #666;',
},
},
],
})
.then(result => {
console.log(result.value);
})
.catch(error => {
console.error(error);
});
};
reader.readAsArrayBuffer(file);
}
</script>
</body>
</html>
image.png
實現將html導出為word文檔,方法其實也很簡單,這里直接分享一下我的方案:
const html = docRef.current;
const blob = new Blob([html.innerHTML], { type: 'application/msword' });
// 創建一個下載鏈接
const link = document.createElement('a');
link.href = URL.createObjectURL(blob);
link.download = 'wep.doc';
// 模擬點擊下載鏈接
link.click();
// 釋放資源
URL.revokeObjectURL(link.href);
本質上就是我們將 html內容轉化為blob,并設置類型為application/msword, 最后通過revokeObjectURL api來實現docx文檔下載。
當然還有其他方案,這里也和大家分享一下:
import htmlDocx from 'html-docx-js/dist/html-docx';
import FileSaver from 'file-saver';
// 定義要導出的 HTML 內容
const htmlContent = `
<h1>標題</h1>
<p>這是一段文本。</p>
<table border="1">
<tr>
<th>姓名</th>
<th>年齡</th>
</tr>
<tr>
<td>張三</td>
<td>25</td>
</tr>
</table>
`;
// 將 HTML 轉換為 Word 文檔
const docx = htmlDocx.asBlob(htmlContent);
// 保存 Word 文檔
FileSaver.saveAs(docx, 'example.docx');
所有案例都在Nocode/WEP中實現,大家感興趣可以參考一下.
用Spire.Doc,可以輕松地將HTML插入到Word文檔中。下面是一個示例代碼:
import com.spire.doc.Document;
import com.spire.doc.FileFormat;
import com.spire.doc.Section;
import com.spire.doc.documents.HorizontalAlignment;
import com.spire.doc.fields.DocPicture;
import com.spire.doc.fields.HtmlLayoutType;
import com.spire.doc.fields.TextRange;
import java.io.*;
public class HtmlToWord {
public static void main(String[] args) throws Exception {
//定義文檔對象
Document doc = new Document();
//添加一個段落
Section section = doc.addSection();
TextRange tr = section.addParagraph().appendText("下面是插入HTML到Word的示例:");
tr.getCharacterFormat().setBold(true);
tr.getCharacterFormat().setFontSize(16f);
//定義HTML內容
String htmlContent = "<html><body><h1>Hello, World!</h1><p>This is an example of inserting HTML into a Word document using Spire.Doc.</p></body></html>";
//插入HTML到Word
DocPicture htmlPicture = section.addParagraph().appendPicture(
htmlContent.getBytes(), HtmlLayoutType.Inline);
htmlPicture.setHorizontalPosition(0);
htmlPicture.setVerticalPosition(30);
htmlPicture.setWidth(520);
htmlPicture.setHeight(520 * 9 / 16);
//設置段落格式
section.getParagraphFormat().setHorizontalAlignment(HorizontalAlignment.Center);
//保存為Word文檔
doc.saveToFile("HtmlToWord.docx", FileFormat.Docx);
System.out.println("Word文檔已生成。");
}
}
在上面的代碼中,我們首先定義一個文檔對象并添加一個段落。然后定義HTML內容,并使用 appendPicture 方法將HTML插入到Word文檔中。 HtmlLayoutType 枚舉類型可用于指定HTML的布局方式。最后,我們設置了段落格式并將文檔保存為Word格式。在輸出語句中,我們打印了一條消息以通知用戶生成文檔的完成。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。