CKEditor5導入并解析word功能的集成，實現word轉html

述

說起富文本編輯器，我們大都遇到過，甚至使用過，這種所見即所得的書寫方式，以及它靈活的排版，讓我們的創作更加流暢和美觀。其實你可以把它理解成是把word等軟件的功能轉成在瀏覽器里面使用，這樣就能通過其他的一些手段進行管理，并融入到相應系統中。但是由于實現方式和語言等的不同，存在著一些出入。

比如我現在正在使用的，也就是此刻我寫這篇文章的工具，就是一個富文本編輯器。其實富文本編輯器有很多種，它們的功能類似、產出目的類似、使用方式也類似，只不過在豐富程度上稍有差別，今天的CKEditor5就是其中的一款。

示意圖

可以看到，還是很好看的，美而不失實用。它的功能特別多，只不過有一些功能是要收費的，也就是說它只開源了一部分，或者說對于一些更高級的吊吊的功能你需要少買一點零食或者玩具。不過這些基礎功能已經足夠用了，它的可插拔式插件集成功能非常強大。

示意圖

就像上面所示，你可以隨意的添加或刪除一個擴展功能，下面有非常多的待繼承插件供你選擇。

示意圖

但是像上面這種的，帶有premium的插件，那你就需要支付一定的費用才可以使用啦。

細心的你相信一眼就看出來了，這就是我們今天要講的內容：從word中導入。

這是一個高級功能，雖然不是很常用，但是有一些特殊的場景或者需求，我們可能希望從編輯好的word中，通過導入的方式來讓用戶在網頁中繼續編輯它，并盡可能的保留內容和格式。

一個是自己資金不是很充裕，再一個是想自己去動手做做，因此就決定獨立實現這樣一個功能。自己做的，當然可以隨便免費用。

示例

在開始之前，我們先看下做這個功能在完成之后需要滿足的效果，雖然這個功能官網是收費的，但是為了給大家演示，官網也提供了示例，我們先看下官網的成品：

效果圖

我們先根據提示，在官網示例上面下載了它提供的一個word，然后用CKEditor5的導入word功能，把這個word導入到編輯器中，解析完成之后就看到了效果，它的還原度很高了，官網應該是特意制作的示例word文件，里邊包含了段落、列表、圖片、表格等等多個技術點。這些都是我們接下來要實現的內容，官網這復雜程度，錢花的挺值。

為了能讓大家有一個對比，這里我把原版word也展示出來給你們看一下：

效果圖

可以對比著感受下，不過還是有一些地方不太一樣的，比如我對這個原文檔做一點點更改。體現就稍微有一點略微的不同，但是這個不是毛病，只是看著有點別扭，我給兩張圖，先來原word的圖，這是我改過的列表：

示意圖

再來一張官網導入之后渲染的效果圖：

示意圖

主要有：1.列表距左邊的距離。2.列表項之間多出空白。3.不能顯示中文序號。

實現

我們要想實現這樣一個插件，首先想到有沒有現成的word轉html的前端或者后端插件，因為富文本編輯器是可以設置內容的，并且這個內容實質就是html代碼，然后再在這個基礎上進行集成開發。

因為我有自己的node后端，所以如果用后端做的話就找了一些關于node的word轉html插件，一共找到了docx2html、mammoth、word2html等，但是經過測試都不太理想，于是決定放棄，換一個思路，我們可以解析word，然后根據word規范，自己生成出html。

word是流式文件，能任意編輯并且回顯，那么肯定有一套約定在里邊，能夠保存格式并重新讀取，就看它有沒有開放給我們，幸好，docx這個x就是告訴我們，可以的，因為它就是xml的意思，符合xml規范。

好了，我們可以找出兩個輔助插件：

第一個就是用來解壓縮用的adm-zip包。

第二個就是用來解析xml文件的xml-js包。

為什么這樣呢？這是因為一個docx文件，就是一個壓縮包，我們把docx文件重命名為zip格式。然后就可以解壓看下里面的內容：

示意圖

這就是解壓之后的目錄，里面包含著所有的word內容，我們一會揭開它的面紗。其中一個關鍵目錄就是word文件夾：

示意圖

可以看到有很多的xml文件，它們就規定了word的回顯機制和渲染邏輯。

還有一個media文件夾，我們看下它里面有什么：

示意圖

可以明顯的看到有兩張圖片，這兩張圖片就是我們在原word中使用的圖片，它就隱藏在這里。

另外，其中document.xml文件存儲了整個word的結構和內容，numbering.xml文件規定了列表如何渲染，styles.xml告訴了需要應用哪些樣式。

我們就以document.xml文件做一個簡單的說明，其余不做過多展開：

示意圖

文件前面是對該xml的一些聲明，body中包含了一個個的段落，也就是w:p。其中又包含了多個系列w:r，系列中就存儲著我們的文本，比如上圖紅框中我圈出的部分。

而且里面還存儲著段落屬性w:pPr和系列屬性w:rPr。我們就是通過對這些一對對的xml標簽，來對word進行解析，找出它的渲染規則。

首先使用上面提到的兩個包，非常簡單：

const dir = join(process.cwd(), 'public/temp/word/' + fn)
const zip = new AdmZip(dir)
let contentXml = zip.readAsText('word/document.xml')
const documentData = xml2js(contentXml)
contentXml = zip.readAsText('word/numbering.xml')
const numberingData = contentXml ? xml2js(contentXml) : {
  elements: ''
}
contentXml = zip.readAsText('word/_rels/document.xml.rels')
const relsData = xml2js(contentXml)
contentXml = zip.readAsText('word/styles.xml')
const styleData = xml2js(contentXml)
let ent = zip.getEntries()
let ind = fn.lastIndexOf('.')
let flag = false
for(let i = 0; i < ent.length; i++) {
  let n = ent[i].entryName
  if(n.substring(0, 11) === 'word/media/') {
    flag = true
    zip.extractEntryTo(n, join(process.cwd(), 'public/temp/word/' + fn.substring(0, ind)), false, true)
  }
}
return {
  documentXML: documentData?.elements[0]?.elements[0]?.elements,
  numberingXML: numberingData?.elements[0]?.elements,
  relsXML: relsData?.elements[0]?.elements,
  styleXML: styleData?.elements[0]?.elements.slice(2),
  imagePath: fn.substring(0, ind),
}

簡單對上面的代碼做一下說明：

先說返回值，由于我們解析完word之后，需要將xml文件讀取出來，根據語義再轉成html，因此我們需要整個document.xml中的內容，因此返回documentXML，而且還要知道列表的渲染機制，因此也需要返回numberingXML，同樣我們需要獲取到文檔中用了哪些圖片，以及它們的位置，所以要返回relsXML，并且我要把對應的圖片放到另一個地方存儲起來以供使用，所以也要返回imagePath，最后整個文檔的樣式，也就是styleXML也要返回。
第1行就是獲取到上傳的word路徑，這里是我自己做了一個上傳方法。
第2行通過adm-zip插件對文件進行解壓和讀取。
第3行就是指定獲取document.xml文件的內容。
第4行就是用xml-js對讀取到的內容進行解析，之后的代碼同理，只是去解析不同的文件而已。
第13行讀取該壓縮文件中的目錄結構。
第16行至第22行就是找出word里面用到的所有圖片，并將它們存儲在其他位置。

至此，我們看一下目前解析完成之后，形成的數據結構。

示意圖

很好，現在開始集成：

import { Editor } from '/lib/ckeditor5/ckeditor'
import loadConfig from './config'
import filePlugin from './file'
import './style.scss'
loadConfig(Editor)
const container: any = ref(null)
let richEditor: any = null
onMounted(() => {
  Editor.create(container.value, {
    extraPlugins: [filePlugin]
  }).then((editor: any) => {
    richEditor = editor
  }).catch((error: any) => {
    console.log(error.stack)
  })
})

第1行，導入Editor，也就是我們一會要用的富文本編輯器，然后第9行通過create方法創建它，接收的兩個參數分別表示：渲染的容器與配置的插件。

因為CKEditor5填入圖片的時候，需要自己手動實現一個插件方法，因此我們要把它配置進來，因為跟咱們要講的內容無關，就不展開了，官方文檔說的很清楚了。

第5行，我在初始化編輯器之前，先去加載了一些配置，其中一個就是引入word轉pdf的功能，由于CKEditor5插件擴展很容易，直接在Editor的builtinPlugins屬性數據里面加上我們實現的插件就可以，所以我們直接講插件的開發：

import { ButtonView, Plugin } from '/lib/ckeditor5/ckeditor'
import { postData } from '@/request'
import { DocumentWordProcessorReference } from '@/common/svg'
import { serverUrl } from '@/company'
import { ElMessage } from 'element-plus'
import { arrayToMapByKey } from '@/utils'
let numberingList: any = null
let relsList: any = null
let styleList: any = null
let imageUrl: any = null
let docInfo: any = {
  author: {},
  currentAuthor: '',
  currentIndex: -1
}
const colorList = ['#d13438', '#0078d4', '#5c2e91', 'chocolate', 'aquamarine', 'lawngreen', 'hotpink', 'darkblue', 'darkslateblue', 'blueviolet', 'firebrick', 'coral', 'darkcyan', 'indigo', 'greenyellow', 'deeppink', 'indianred', 'blue', 'darkgray', 'darkmagenta', 'darkgreen', 'chartreuse', 'darksalmon', 'dimgray', 'crimson', 'darkolivegreen', 'gold', 'aqua', 'lightcoral', 'goldenrod', 'burlywood', 'green', 'darkkhaki', 'forestgreen', 'fushcia', 'darkorchid', 'deepskyblue', 'darkgoldenrod', 'cyan', 'cornflowerblue', 'brown', 'cadetblue', 'darkviolet', 'dodgerblue', 'darkred', 'gray', 'khaki', 'bisque', 'darkorange', 'darkslategray', 'lightblue', 'darkturquoise', 'darkseagreen']
let BlockType = ''

引入一些必要的組件和方法等，然后定義我們的插件，一定要繼承ckeditor5的Plugin：

export default class importFromWord extends Plugin {
}

然后首先在里面實現它的init方法，做一些初始化操作：

init() {
  const editor = this.editor
  editor.ui.componentFactory.add('importFromWord', () => {
    const button = new ButtonView()
    button.set({
      label: '從word導入',
      icon: DocumentWordProcessorReference,
      tooltip: true
    })
    button.on('execute', () => {
      this.input.click()
    })
    return button
  })
}

this.editor就是我們之前使用create創建好的編輯器，通過editor.ui.componentFactory.add給工具欄添加一個按鈕，也就是我們要點擊導入word的按鈕。

示意圖

這里面用到了ckeditor5的ButtonView按鈕組件生成器，設置它的名稱和圖標，然后添加一個暴露出來的事件，當點擊按鈕的時候，觸發選擇文件彈窗，這個input是我自己寫的一個文件上傳輸入框。

接下來，我們去構造函數中做一些事情，當實例化這個組件的時候，初始化好我們需要的東西：

constructor(editor: any) {
    super(editor)
    this.editor = editor
    this.input = document.createElement('input')
    this.input.type = 'file'
    this.input.style.opacity = 0
    this.input.style.display = 'none'
    this.input.addEventListener('change', (e: any) => {
      const formData: any = new FormData()
      formData.append("upload", this.input.files[0])
      formData.Headers = {'Content-Type':'multipart/form-data'}
      let ms = ElMessage({
        message: "正在解析...",
        type: "info",
      })
      postData({
        service: "lc",
        url: `file/word`,
        data: formData,
      }).then(res => {
        ms.close()
        if (res.data) {
          ElMessage({
            message: "上傳文件成功",
            type: "success",
          })
          const { documentXML, numberingXML, relsXML, styleXML, imagePath } = res.data
          numberingList = numberingXML
          relsList = relsXML
          styleList = styleXML
          imageUrl = imagePath
          markList(documentXML)
          const html = listToHTML(documentXML)
          const ckC = this.editor.ui.view?.editable?.element
          const ckP = this.editor.ui.view?.stickyPanel?.element
          if(ckC) {
            let rt = ckC.parentNode.parentNode.parentNode
            rt.style.setProperty('--content-top', docInfo.paddingTop + 'px')
            rt.style.setProperty('--content-right', docInfo.paddingRight + 'px')
            rt.style.setProperty('--content-bottom', docInfo.paddingBottom + 'px')
            rt.style.setProperty('--content-left', docInfo.paddingLeft + 'px')
            rt.style.setProperty('--content-width', docInfo.pageWidth - docInfo.paddingLeft - docInfo.paddingRight + 'px')
          }
          if(ckP) {
            let rt = ckP.parentNode.parentNode.parentNode
            rt.style.setProperty('--sticky-width', docInfo.pageWidth + 'px')
          }
          const div = document.createElement('div')
          div.style.display = 'none'
          div.innerHTML = html
          splitList(div.firstElementChild)
          insertDivToList(div)
          document.body.appendChild(div)
          document.body.removeChild(div)
          this.editor.setData(div.innerHTML)
        } else {
          ElMessage({
            message: "上傳文件失敗",
            type: "error",
          })
        }
      })
    })
  }

在這里我們主要做了幾件事：

首先第4行到第7行定義了一個文件選擇器。

然后給這個輸入框添加了一個事件。

第9行到第20行我們讀取到選擇的文件并上傳到服務器進行解析。

對返回回來的文檔數據，我們首先做一個標記，以方便我們接下來的操作：

function markList(list: any) {
  let cache: any = []
  list.forEach((item: any, index: number) => {
    let isList = false
    if(item.name === 'w:p') {
      let pPr = findByName(item.elements, 'w:pPr')
      if(pPr) {
        let numPr = findByName(pPr.elements, 'w:numPr')
        if(numPr) {
          isList = true
          let ilvl = numPr.elements[0].attributes['w:val']
          let numId = numPr.elements[1].attributes['w:val']
          let c =  cache.at(-1)
          numPr.level = ilvl
          if(c) {
            if(c.ilvl === ilvl && c.numId === numId) {
              cache.pop()
            }else if(c.ilvl === ilvl && c.numId !== numId) {
              numPr.start = true
              c.numPr.end = true
              cache.pop()
            }else if(c.ilvl < ilvl && c.numId === numId) {
              numPr.start = true
              cache.pop()
            }else if(c.ilvl > ilvl && c.numId === numId) {
              c.numPr.end = true
              cache.pop()
            }else if(c.numId !== numId) {
              while(c.ilvl >= ilvl) {
                c.numPr.end = true
                c = cache.pop()
                if(!c) {
                  break
                }
              }
            }
          }else {
            numPr.start = true
          }
          cache.push({
            ilvl,
            numId,
            index,
            numPr
          })
        }
      }
    }
  })
  cache.forEach((c: any) => {
    c.numPr.end = true
  })
}

主要就是對列表進行標記，因為它要做一些特殊化的處理。

拿到數據之后，我們的核心邏輯都在第33行，實現listToHtml進行處理：

function listToHTML(list: any) {
  let html = ''
  list.forEach((item: any, index: number) => {
    let info = getContainer(item)
    html += info
  })
  return html
}

遍歷每一項，然后把它們生成的html拼接起來：

function getContainer(item: any) {
  let html = ''
  if(item.name === 'w:p') {
    let n = findByName(item.elements, 'w:pPr')
    let el: any = null
    let pEl: any = null
    let attr: any = {}
    let style = null
    if(n) {
      let ps = findByName(n.elements, 'w:pStyle')
      if(ps) {
        let styleId = getAttributeVal(ps)
        let sy = styleList.find((item: any) => {
          return item.attributes['w:styleId'] === styleId
        })
        let ppr = findByName(sy.elements, 'w:pPr')
        let rpr = findByName(sy.elements, 'w:rPr')
        if(ppr) {
          ppr.elements.forEach((p: any) => {
            if(!findByName(n.elements, p.name)) {
              n.elements.push(p)
            }
          })
        }
        if(rpr) {
          let rs = findsByName(item.elements, 'w:r')
          rs.forEach((r: any) => {
            let rr = findByName(r.elements, 'w:rPr')
            rpr.elements.forEach((p: any) => {
              if(!findByName(rr.elements, p.name)) {
                rr.elements.push(p)
              }
            })
          })
        }
      }
      let info = getPAttribute(n.elements)
      attr = info.attr
      style = info.style
      if(attr.list) {
        let s1: any = {}
        let s2: any = {}
        for(let t in info.style) {
          if(t === 'list-style-type') {
            s1[t] = info.style[t]
          }else{
            s2[t] = info.style[t]
          }
        }
        for(let t in info.liStyle) {
          s1[t] = info.liStyle[t]
        }
        if(attr.order) {
          if(attr.start) {
            if(attr.level !== '0') {
              html += '<li style="list-style-type:none;">'
            }
            html += '<ol'
            html += addStyle(s1)
            html += '<li>'
            html += '<p'
            html += addStyle(s2)
          }else {
            html += '<li>'
            html += '<p'
            html += addStyle(s2)
          }
        }else{
          if(attr.start) {
            if(attr.level !== '0') {
              html += '<li style="list-style-type:none;">'
            }
            html += '<ul'
            html += addStyle(s1)
            html += '<li>'
            html += '<p'
            html += addStyle(s2)
          }else {
            html += '<li>'
            html += '<p'
            html += addStyle(s2)
          }
        }
      }else{
        html += '<p'
        html += addStyle(info.style)
      }
    }else{
      el = document.createElement('p')
    }
    item.elements.forEach((r: any) => {
      if(r.name === 'w:ins') {
        setAuthor(r.attributes['w:author'])
        r.elements.forEach((ins: any) => {
          html += dealWr(ins, 'ins')
        })
      }else if(r.name === 'w:hyperlink') {
        r.elements.forEach((hyp: any) => {
          html += dealWr(hyp)
        })
      }else if(r.name === 'w:r') {
        html += dealWr(r)
      }else if(r.name === 'w:commentRangeStart') {
        BlockType = 'comment'
      }else if(r.name === 'w:commentRangeEnd') {
        BlockType = ''
      }else if(r.name === 'w:del') {
        setAuthor(r.attributes['w:author'])
        r.elements.forEach((hyp: any) => {
          html += dealWr(hyp, 'del')
        })
      }
    })
    if(attr.list) {
      if(attr.order) {
        if(attr.end) {
          html += '</p></li></ol>'
          if(attr.level !== '0') {
            html += '</li>'
          }
        }else {
          html += '</p></li>'
        }
      }else{
        if(attr.end) {
          html += '</p></li></ul>'
          if(attr.level !== '0') {
            html += '</li>'
          }
        }else {
          html += '</p></li>'
        }
      }
    }else {
      html += '</p>'
    }
  }else if(item.name === 'w:tbl') {
    let n = findByName(item.elements, 'w:tblPr')
    if(n) {
      let info = getTableAttribute(n.elements)
      html += '<figure class="table"'
      html += addStyle(info.figureStyle)
      html += '<table'
      html += addStyle(info.tableStyle)
      html += '<tbody>'
    }
    item.elements.forEach((r: any) => {
      if(r.name === 'w:tr') {
        html += dealWtr(r)
      }
    })
    html += '</tbody></table></figure>'
  }else if(item.name === 'w:sectPr') {
    let ps = findByName(item.elements, 'w:pgSz')
    let pm = findByName(item.elements, 'w:pgMar')
    if(ps) {
      docInfo.pageWidth = Math.ceil(ps.attributes['w:w'] / 20 * 96 / 72) + 1
    }
    if(pm) {
      docInfo.paddingTop = pm.attributes['w:top'] / 1440 * 96
      docInfo.paddingRight = pm.attributes['w:right'] / 1440 * 96
      docInfo.paddingBottom = pm.attributes['w:bottom'] / 1440 * 96
      docInfo.paddingLeft = pm.attributes['w:left'] / 1440 * 96
    }
  }
  return html
}

做了一些邏輯判斷，和不同標簽的特殊處理。

在剛才input事件中的第34行到47行，主要是做一些編輯器大小等外觀設置，因為要配置成word中的寬度與邊距。

還需要考慮到，列表可能不是連續的，中間可能被一些段落所隔開，因此到這里還需要對生成的html中的列表進行分割，并修復索引問題：

function splitList(el: any) {
  while(el) {
    if(el.tagName === 'OL' || el.tagName === 'UL') {
      let a = el.querySelectorAll('ol > p, ul > p')
      let path: any = []
      a.forEach((item: any) => {
        let p: any = []
        while(item) {
          p.push(item)
          item = item.parentNode
          if(item === el) {
            break
          }
        }
        path.push(p.reverse())
      })
      let cur = el
      let t: number = 0
      path.forEach((p: any) => {
        let list = cur.cloneNode(false)
        let list2 = list
        cur.parentNode.insertBefore(list, cur)
        p.forEach((l: any, ind: number) => {
          let chi = cur.children
          let t = 0
          for(let i = 0; i < chi.length; i++) {
            if(chi[i] !== l) {
              list.append(chi[i])
              t++
              i--
            }else{
              if(cur.tagName === 'OL') {
                let s = cur.getAttribute('start')
                cur.setAttribute('start', s ? (+s + t) : (t + 1))
              }
              if(ind === p.length - 1) {
                let par = chi[i].parentNode
                el.parentNode.insertBefore(chi[i], el)
                if(par.children.length === 0) {
                  par.remove()
                }
                cur = el
              }else{
                cur.setAttribute('start', cur.getAttribute('start') - 1)
                let cl = chi[i].cloneNode(false)
                list.append(cl)
                list = cl
                cur = chi[i]
              }
              break
            }
          }
        })
      })
    }
    el = el.nextElementSibling
  }
}

并且由于CKEditor5會對相鄰的列表進行合并等處理，這不是我們想要的，可以在它們中間插入一些div：

function insertDivToList(div: any) {
  let f = div.firstElementChild
  let k = f.nextElementSibling
  while(k) {
    if(f.tagName === 'UL' && k.tagName === 'UL') {
      let d = document.createElement('div')
      f = k
      div.insertBefore(d, f)
      k = f.nextElementSibling
    }else if(f.tagName === 'OL' && k.tagName === 'OL') {
      let d = document.createElement('p')
      d.setAttribute('list-separator', "true")
      f = k
      div.insertBefore(d, f)
      k = f.nextElementSibling
    }else {
      f = k
      k = f.nextElementSibling
    }
  }
}

最后我們用this.editor.setData方法，將剛才生成的html設置到編輯器中去。

到此我們基本就已經把需要的功能實現了。

效果

該來看一下我們所做的工作成果了，首先同樣導入CKEditor5官網中的文檔：

效果圖

可以看到，內容與格式等，基本跟原word一樣，與CKEditor5官網的示例也相同。然后我們再用另一個剛才修改過的文件測試一下：

效果圖

這個是用咱們剛才開發的插件導入的word的效果圖，幾乎與原word一模一樣，也沒有了CKEditor官網中的那幾個小問題。

至此，我們針對CKEditor5導入word的功能已經開發完畢，同時我又找了各種類型的word測試，均未發現問題，還原度都非常高。

結語

感謝docx的規范，使得我們自己解析word成為可能，雖然不可能100%還原word的格式，但是能夠將它導入到我們的富文本編輯器中，以進行二次創作，這對我們來說是非常方便的。

本次word轉html，并導入富文本編輯器的開發過程，希望能給大家帶來啟發。

每一次創作都是快樂的，每一次分享也都是有益的，希望能夠幫助到你！

謝謝

談前端專注于前端+AI前沿技術和場景應用落地。關注可視化，零代碼，AI技術融合，職業發展研究和軟件工程化實踐。致力于打造一個開放自由的技術交流平臺。

大家好啊，我是徐小夕。之前和大家分享了很多前端工程化，可視化，職業發展相關的干貨，雖然這兩年大環境不太好，但是我們還是要定期學習成長，才能讓自己的未來把握職場主動權。

最近由于AI應用的高速發展，使得文檔/知識庫成為了AI的首選試煉場。比如用AI提取PDF的大綱和關鍵內容，用AI總結電子書的內容，AI對DOC文檔進行潤色，優化等，這些都離不開對文檔的解析和處理。

那么前端能不能實現對文檔的解析和處理呢？答案是肯定的，接下來我就和大家分享一下:

前端如何解析Word文件
基于HTML，一鍵導出為Word文檔

當然口說無憑，我已經在Nocode/WEP文檔知識引擎中把Doc文檔功能實現了，大家感興趣的可以親自體驗一下。

image.png

好啦，接下來開始我們的技術分享。

往期精彩

做了4年的零代碼平臺，準備出海了

Word文檔的本質

image.png

Word 文檔的本質是一種電子文檔格式，它主要用于創建、編輯和保存文本內容，同時還可以包含圖片、表格、圖表等多種元素。它是一種方便的工具，用于記錄、整理和交流信息。

doc 和 docx 是兩種常見的 Word 文檔格式，它們主要有以下區別：

版本：doc 是 Word 2003 及之前版本的默認文件格式，而 docx 是 Word 2007 及之后版本的默認文件格式。
兼容性：doc 格式的兼容性較好，可以被大多數舊版本的 Word 軟件打開。而 docx 格式在較新版本的 Word 中得到完全支持，但在一些舊版本的 Word 中可能需要安裝兼容性插件才能正常打開。
文件體積：由于 docx 格式采用了更高效的壓縮技術，所以它的文件體積通常比 doc 格式小。
安全性：docx 格式采用基于 XML 的格式，相對更安全一些，不容易受到宏病毒的攻擊。
功能支持：docx 格式支持更多的新特性和功能，如高級的圖表和圖形處理、更豐富的格式選項、多媒體嵌入等。而 doc 格式則不支持這些新功能。

為了與時俱進，我們優先考慮最新標準格式 docx，那么如何解析 docx 呢，這就要進一步分析一下 docx文件的本質了。

docx 的本質是什么

docx 我們第一感覺是一個文件，其實確實是一個文件（壓縮文件），我用解壓工具提取文件之后，它的文件結構是這樣的：

image.png

進入 word 文件夾，可以看到如下目錄結構：

image.png

打開一個 xml 文件可以看到類似如下的內容：

image.png

看到這熟悉前端的小伙伴應該就比較熟悉了，我們可以使用類似于 document 的方法解析處理不同的XML標簽，從而實現對 docx 文件的解析。

如何實現Word文檔的解析

有了以上的分析結果，我們自己實現一個word文檔解析器就非常容易了，但是考慮到docx的xml 文件的復雜性，我們自己實現需要考慮很多種情況，比如：

標題
列表
標題
列表
可定制的 docx 樣式到 HTML 的映射
表格：表格格式（如邊框）
腳注和尾注
圖片
粗體、斜體、下劃線、刪除線、上標和下標。
鏈接
換行
文本框：文本框的內容被視為一個單獨的段落，出現在包含文本框的段落之后。
注釋

如果是項目進度比較緊張的情況下，我們自己實現肯定是要被“批斗”的，所以我們可以考慮第三方成熟的解決方案。

第三方開源方案

這里直接上我總結的幾個開源方案：

Python 中的 python-docx
DocX：一個基于.NET框架的庫，用于操作Word 2007/2010/2013文件，具有簡單易用的API，無需安裝額外軟件，支持非商業用途。
OpenXml-PowerTools：一個基于Open XML文檔編程接口開發的開源工具，擴展了Open XML SDK的功能，支持將docx、pptx文件拆分為多個文件、將多個docx、pptx文件合并為一個文件、使用XML數據模板生成docx文件、docx文檔高保值轉換為Html頁面等功能
Mammoth 一個專注于轉換 .docx 文檔的工具庫，支持瀏覽器和服務器使用

那作為前端的小伙伴，我們首選 Mammoth。

image.png

github地址：https://github.com/mwilliamson/mammoth.js

實戰Word文檔解析

接下來和大家分享一下使用 Mammoth 來實現 docx 文檔解析。

先來看一個簡單的例子：

import mammoth from 'mammoth';

mammoth.convertToHtml({path: "你的doc文件的路徑/document.docx"})
    .then(function(result){
        var html = result.value; // 解析出的html結果
        var messages = result.messages; // 錯誤或者額外的提示信息
    })
    .catch(function(error) {
        console.error(error);
    });

以上代碼是在node.js 環境下實現的簡單例子，當然我們也可以在瀏覽器中直接使用，我在看完了它的文檔之后，加上自己的研究，寫了一個能自定義圖片上傳路徑，并支持修改文檔樣式的demo，這里分享一下：

<!DOCTYPE html>
<html lang="en">

<head>
  <meta charset="UTF-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>Document</title>
</head>

<body>
  <input type="file" onchange="handleFile(this.files[0])" />

  <script src="https://unpkg.com/mammoth@latest/dist/mammoth.min.js"></script>
  <script>
    function handleFile(file) {
      const reader = new FileReader();
      reader.onload = function (loadEvent) {
        const arrayBuffer = loadEvent.target.result;
        mammoth.convertToHtml({ arrayBuffer: arrayBuffer }, {
          // 設置自定義圖片上傳路徑
          imageReader: (image) => {
            return new Promise((resolve, reject) => {
              // 在這里實現圖片上傳邏輯，并將上傳后的圖片路徑作為結果返回
              resolve('your_uploaded_image_path'); 
            });
          },
          // 設置文本樣式
          styleMap: [
            // 標題樣式
            {
              name: 'Heading 1',
              element: 'h1',
              attributes: {
                'tyle': 'font-size: 24px; color: #333;',
              },
            },
            // 正文樣式
            {
              name: 'Normal',
              element: 'p',
              attributes: {
                'tyle': 'font-size: 16px; color: #666;',
              },
            },
          ],
        })
        .then(result => {
            console.log(result.value);
          })
        .catch(error => {
            console.error(error);
          });
      };
      reader.readAsArrayBuffer(file);
    }
  </script>
</body>

</html>

Word文檔導出實現

image.png

實現將html導出為word文檔，方法其實也很簡單，這里直接分享一下我的方案：

 const html = docRef.current;
const blob = new Blob([html.innerHTML], { type: 'application/msword' });

// 創建一個下載鏈接
const link = document.createElement('a');
link.href = URL.createObjectURL(blob);
link.download = 'wep.doc';

// 模擬點擊下載鏈接
link.click();

// 釋放資源
URL.revokeObjectURL(link.href);

本質上就是我們將 html內容轉化為blob，并設置類型為application/msword, 最后通過revokeObjectURL api來實現docx文檔下載。

當然還有其他方案，這里也和大家分享一下：

import htmlDocx from 'html-docx-js/dist/html-docx';
import FileSaver from 'file-saver';

// 定義要導出的 HTML 內容
const htmlContent = `
  <h1>標題</h1>
  <p>這是一段文本。</p>
  <table border="1">
    <tr>
      <th>姓名</th>
      <th>年齡</th>
    </tr>
    <tr>
      <td>張三</td>
      <td>25</td>
    </tr>
  </table>
`;

// 將 HTML 轉換為 Word 文檔
const docx = htmlDocx.asBlob(htmlContent);

// 保存 Word 文檔
FileSaver.saveAs(docx, 'example.docx');

所有案例都在Nocode/WEP中實現，大家感興趣可以參考一下.

用Spire.Doc，可以輕松地將HTML插入到Word文檔中。下面是一個示例代碼：

import com.spire.doc.Document;

import com.spire.doc.FileFormat;

import com.spire.doc.Section;

import com.spire.doc.documents.HorizontalAlignment;

import com.spire.doc.fields.DocPicture;

import com.spire.doc.fields.HtmlLayoutType;

import com.spire.doc.fields.TextRange;

import java.io.*;

public class HtmlToWord {

public static void main(String[] args) throws Exception {

//定義文檔對象

Document doc = new Document();

//添加一個段落

Section section = doc.addSection();

TextRange tr = section.addParagraph().appendText("下面是插入HTML到Word的示例：");

tr.getCharacterFormat().setBold(true);

tr.getCharacterFormat().setFontSize(16f);

//定義HTML內容

String htmlContent = "<html><body><h1>Hello, World!</h1><p>This is an example of inserting HTML into a Word document using Spire.Doc.</p></body></html>";

//插入HTML到Word

DocPicture htmlPicture = section.addParagraph().appendPicture(

htmlContent.getBytes(), HtmlLayoutType.Inline);

htmlPicture.setHorizontalPosition(0);

htmlPicture.setVerticalPosition(30);

htmlPicture.setWidth(520);

htmlPicture.setHeight(520 * 9 / 16);

//設置段落格式

section.getParagraphFormat().setHorizontalAlignment(HorizontalAlignment.Center);

//保存為Word文檔

doc.saveToFile("HtmlToWord.docx", FileFormat.Docx);

System.out.println("Word文檔已生成。");

}

在上面的代碼中，我們首先定義一個文檔對象并添加一個段落。然后定義HTML內容，并使用 appendPicture 方法將HTML插入到Word文檔中。 HtmlLayoutType 枚舉類型可用于指定HTML的布局方式。最后，我們設置了段落格式并將文檔保存為Word格式。在輸出語句中，我們打印了一條消息以通知用戶生成文檔的完成。

在線咨詢

上一篇：C++(Qt) 和 Word、Excel、PDF 交互總結
下一篇：HTML 文字滑動(marquee)