整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          CKEditor5導入并解析word功能的集成,實現word轉html

          說起富文本編輯器,我們大都遇到過,甚至使用過,這種所見即所得的書寫方式,以及它靈活的排版,讓我們的創作更加流暢和美觀。其實你可以把它理解成是把word等軟件的功能轉成在瀏覽器里面使用,這樣就能通過其他的一些手段進行管理,并融入到相應系統中。但是由于實現方式和語言等的不同,存在著一些出入。

          比如我現在正在使用的,也就是此刻我寫這篇文章的工具,就是一個富文本編輯器。其實富文本編輯器有很多種,它們的功能類似、產出目的類似、使用方式也類似,只不過在豐富程度上稍有差別,今天的CKEditor5就是其中的一款。

          示意圖

          可以看到,還是很好看的,美而不失實用。它的功能特別多,只不過有一些功能是要收費的,也就是說它只開源了一部分,或者說對于一些更高級的吊吊的功能你需要少買一點零食或者玩具。不過這些基礎功能已經足夠用了,它的可插拔式插件集成功能非常強大。

          示意圖

          就像上面所示,你可以隨意的添加或刪除一個擴展功能,下面有非常多的待繼承插件供你選擇。

          示意圖

          但是像上面這種的,帶有premium的插件,那你就需要支付一定的費用才可以使用啦。

          細心的你相信一眼就看出來了,這就是我們今天要講的內容:從word中導入。

          這是一個高級功能,雖然不是很常用,但是有一些特殊的場景或者需求,我們可能希望從編輯好的word中,通過導入的方式來讓用戶在網頁中繼續編輯它,并盡可能的保留內容和格式。

          一個是自己資金不是很充裕,再一個是想自己去動手做做,因此就決定獨立實現這樣一個功能。自己做的,當然可以隨便免費用。

          示例

          在開始之前,我們先看下做這個功能在完成之后需要滿足的效果,雖然這個功能官網是收費的,但是為了給大家演示,官網也提供了示例,我們先看下官網的成品:

          效果圖

          我們先根據提示,在官網示例上面下載了它提供的一個word,然后用CKEditor5的導入word功能,把這個word導入到編輯器中,解析完成之后就看到了效果,它的還原度很高了,官網應該是特意制作的示例word文件,里邊包含了段落、列表、圖片、表格等等多個技術點。這些都是我們接下來要實現的內容,官網這復雜程度,錢花的挺值。

          為了能讓大家有一個對比,這里我把原版word也展示出來給你們看一下:

          效果圖

          可以對比著感受下,不過還是有一些地方不太一樣的,比如我對這個原文檔做一點點更改。體現就稍微有一點略微的不同,但是這個不是毛病,只是看著有點別扭,我給兩張圖,先來原word的圖,這是我改過的列表:

          示意圖

          再來一張官網導入之后渲染的效果圖:

          示意圖

          主要有:1.列表距左邊的距離。2.列表項之間多出空白。3.不能顯示中文序號。

          實現

          我們要想實現這樣一個插件,首先想到有沒有現成的word轉html的前端或者后端插件,因為富文本編輯器是可以設置內容的,并且這個內容實質就是html代碼,然后再在這個基礎上進行集成開發。

          因為我有自己的node后端,所以如果用后端做的話就找了一些關于node的word轉html插件,一共找到了docx2html、mammoth、word2html等,但是經過測試都不太理想,于是決定放棄,換一個思路,我們可以解析word,然后根據word規范,自己生成出html。

          word是流式文件,能任意編輯并且回顯,那么肯定有一套約定在里邊,能夠保存格式并重新讀取,就看它有沒有開放給我們,幸好,docx這個x就是告訴我們,可以的,因為它就是xml的意思,符合xml規范。

          好了,我們可以找出兩個輔助插件:

          第一個就是用來解壓縮用的adm-zip包。

          第二個就是用來解析xml文件的xml-js包。

          為什么這樣呢?這是因為一個docx文件,就是一個壓縮包,我們把docx文件重命名為zip格式。然后就可以解壓看下里面的內容:

          示意圖

          這就是解壓之后的目錄,里面包含著所有的word內容,我們一會揭開它的面紗。其中一個關鍵目錄就是word文件夾:

          示意圖

          可以看到有很多的xml文件,它們就規定了word的回顯機制和渲染邏輯。

          還有一個media文件夾,我們看下它里面有什么:

          示意圖

          可以明顯的看到有兩張圖片,這兩張圖片就是我們在原word中使用的圖片,它就隱藏在這里。

          另外,其中document.xml文件存儲了整個word的結構和內容,numbering.xml文件規定了列表如何渲染,styles.xml告訴了需要應用哪些樣式。

          我們就以document.xml文件做一個簡單的說明,其余不做過多展開:

          示意圖

          文件前面是對該xml的一些聲明,body中包含了一個個的段落,也就是w:p。其中又包含了多個系列w:r,系列中就存儲著我們的文本,比如上圖紅框中我圈出的部分。

          而且里面還存儲著段落屬性w:pPr和系列屬性w:rPr。我們就是通過對這些一對對的xml標簽,來對word進行解析,找出它的渲染規則。

          首先使用上面提到的兩個包,非常簡單:

          const dir = join(process.cwd(), 'public/temp/word/' + fn)
          const zip = new AdmZip(dir)
          let contentXml = zip.readAsText('word/document.xml')
          const documentData = xml2js(contentXml)
          contentXml = zip.readAsText('word/numbering.xml')
          const numberingData = contentXml ? xml2js(contentXml) : {
            elements: ''
          }
          contentXml = zip.readAsText('word/_rels/document.xml.rels')
          const relsData = xml2js(contentXml)
          contentXml = zip.readAsText('word/styles.xml')
          const styleData = xml2js(contentXml)
          let ent = zip.getEntries()
          let ind = fn.lastIndexOf('.')
          let flag = false
          for(let i = 0; i < ent.length; i++) {
            let n = ent[i].entryName
            if(n.substring(0, 11) === 'word/media/') {
              flag = true
              zip.extractEntryTo(n, join(process.cwd(), 'public/temp/word/' + fn.substring(0, ind)), false, true)
            }
          }
          return {
            documentXML: documentData?.elements[0]?.elements[0]?.elements,
            numberingXML: numberingData?.elements[0]?.elements,
            relsXML: relsData?.elements[0]?.elements,
            styleXML: styleData?.elements[0]?.elements.slice(2),
            imagePath: fn.substring(0, ind),
          }

          簡單對上面的代碼做一下說明:

          1. 先說返回值,由于我們解析完word之后,需要將xml文件讀取出來,根據語義再轉成html,因此我們需要整個document.xml中的內容,因此返回documentXML,而且還要知道列表的渲染機制,因此也需要返回numberingXML,同樣我們需要獲取到文檔中用了哪些圖片,以及它們的位置,所以要返回relsXML,并且我要把對應的圖片放到另一個地方存儲起來以供使用,所以也要返回imagePath,最后整個文檔的樣式,也就是styleXML也要返回。
          2. 第1行就是獲取到上傳的word路徑,這里是我自己做了一個上傳方法。
          3. 第2行通過adm-zip插件對文件進行解壓和讀取。
          4. 第3行就是指定獲取document.xml文件的內容。
          5. 第4行就是用xml-js對讀取到的內容進行解析,之后的代碼同理,只是去解析不同的文件而已。
          6. 第13行讀取該壓縮文件中的目錄結構。
          7. 第16行至第22行就是找出word里面用到的所有圖片,并將它們存儲在其他位置。

          至此,我們看一下目前解析完成之后,形成的數據結構。

          示意圖

          很好,現在開始集成:

          import { Editor } from '/lib/ckeditor5/ckeditor'
          import loadConfig from './config'
          import filePlugin from './file'
          import './style.scss'
          loadConfig(Editor)
          const container: any = ref(null)
          let richEditor: any = null
          onMounted(() => {
            Editor.create(container.value, {
              extraPlugins: [filePlugin]
            }).then((editor: any) => {
              richEditor = editor
            }).catch((error: any) => {
              console.log(error.stack)
            })
          })

          第1行,導入Editor,也就是我們一會要用的富文本編輯器,然后第9行通過create方法創建它,接收的兩個參數分別表示:渲染的容器與配置的插件。

          因為CKEditor5填入圖片的時候,需要自己手動實現一個插件方法,因此我們要把它配置進來,因為跟咱們要講的內容無關,就不展開了,官方文檔說的很清楚了。

          第5行,我在初始化編輯器之前,先去加載了一些配置,其中一個就是引入word轉pdf的功能,由于CKEditor5插件擴展很容易,直接在Editor的builtinPlugins屬性數據里面加上我們實現的插件就可以,所以我們直接講插件的開發:

          import { ButtonView, Plugin } from '/lib/ckeditor5/ckeditor'
          import { postData } from '@/request'
          import { DocumentWordProcessorReference } from '@/common/svg'
          import { serverUrl } from '@/company'
          import { ElMessage } from 'element-plus'
          import { arrayToMapByKey } from '@/utils'
          let numberingList: any = null
          let relsList: any = null
          let styleList: any = null
          let imageUrl: any = null
          let docInfo: any = {
            author: {},
            currentAuthor: '',
            currentIndex: -1
          }
          const colorList = ['#d13438', '#0078d4', '#5c2e91', 'chocolate', 'aquamarine', 'lawngreen', 'hotpink', 'darkblue', 'darkslateblue', 'blueviolet', 'firebrick', 'coral', 'darkcyan', 'indigo', 'greenyellow', 'deeppink', 'indianred', 'blue', 'darkgray', 'darkmagenta', 'darkgreen', 'chartreuse', 'darksalmon', 'dimgray', 'crimson', 'darkolivegreen', 'gold', 'aqua', 'lightcoral', 'goldenrod', 'burlywood', 'green', 'darkkhaki', 'forestgreen', 'fushcia', 'darkorchid', 'deepskyblue', 'darkgoldenrod', 'cyan', 'cornflowerblue', 'brown', 'cadetblue', 'darkviolet', 'dodgerblue', 'darkred', 'gray', 'khaki', 'bisque', 'darkorange', 'darkslategray', 'lightblue', 'darkturquoise', 'darkseagreen']
          let BlockType = ''

          引入一些必要的組件和方法等,然后定義我們的插件,一定要繼承ckeditor5的Plugin:

          export default class importFromWord extends Plugin {
          }

          然后首先在里面實現它的init方法,做一些初始化操作:

          init() {
            const editor = this.editor
            editor.ui.componentFactory.add('importFromWord', () => {
              const button = new ButtonView()
              button.set({
                label: '從word導入',
                icon: DocumentWordProcessorReference,
                tooltip: true
              })
              button.on('execute', () => {
                this.input.click()
              })
              return button
            })
          }

          this.editor就是我們之前使用create創建好的編輯器,通過editor.ui.componentFactory.add給工具欄添加一個按鈕,也就是我們要點擊導入word的按鈕。

          示意圖

          這里面用到了ckeditor5的ButtonView按鈕組件生成器,設置它的名稱和圖標,然后添加一個暴露出來的事件,當點擊按鈕的時候,觸發選擇文件彈窗,這個input是我自己寫的一個文件上傳輸入框。

          接下來,我們去構造函數中做一些事情,當實例化這個組件的時候,初始化好我們需要的東西:

          constructor(editor: any) {
              super(editor)
              this.editor = editor
              this.input = document.createElement('input')
              this.input.type = 'file'
              this.input.style.opacity = 0
              this.input.style.display = 'none'
              this.input.addEventListener('change', (e: any) => {
                const formData: any = new FormData()
                formData.append("upload", this.input.files[0])
                formData.Headers = {'Content-Type':'multipart/form-data'}
                let ms = ElMessage({
                  message: "正在解析...",
                  type: "info",
                })
                postData({
                  service: "lc",
                  url: `file/word`,
                  data: formData,
                }).then(res => {
                  ms.close()
                  if (res.data) {
                    ElMessage({
                      message: "上傳文件成功",
                      type: "success",
                    })
                    const { documentXML, numberingXML, relsXML, styleXML, imagePath } = res.data
                    numberingList = numberingXML
                    relsList = relsXML
                    styleList = styleXML
                    imageUrl = imagePath
                    markList(documentXML)
                    const html = listToHTML(documentXML)
                    const ckC = this.editor.ui.view?.editable?.element
                    const ckP = this.editor.ui.view?.stickyPanel?.element
                    if(ckC) {
                      let rt = ckC.parentNode.parentNode.parentNode
                      rt.style.setProperty('--content-top', docInfo.paddingTop + 'px')
                      rt.style.setProperty('--content-right', docInfo.paddingRight + 'px')
                      rt.style.setProperty('--content-bottom', docInfo.paddingBottom + 'px')
                      rt.style.setProperty('--content-left', docInfo.paddingLeft + 'px')
                      rt.style.setProperty('--content-width', docInfo.pageWidth - docInfo.paddingLeft - docInfo.paddingRight + 'px')
                    }
                    if(ckP) {
                      let rt = ckP.parentNode.parentNode.parentNode
                      rt.style.setProperty('--sticky-width', docInfo.pageWidth + 'px')
                    }
                    const div = document.createElement('div')
                    div.style.display = 'none'
                    div.innerHTML = html
                    splitList(div.firstElementChild)
                    insertDivToList(div)
                    document.body.appendChild(div)
                    document.body.removeChild(div)
                    this.editor.setData(div.innerHTML)
                  } else {
                    ElMessage({
                      message: "上傳文件失敗",
                      type: "error",
                    })
                  }
                })
              })
            }

          在這里我們主要做了幾件事:

          首先第4行到第7行定義了一個文件選擇器。

          然后給這個輸入框添加了一個事件。

          第9行到第20行我們讀取到選擇的文件并上傳到服務器進行解析。

          對返回回來的文檔數據,我們首先做一個標記,以方便我們接下來的操作:

          function markList(list: any) {
            let cache: any = []
            list.forEach((item: any, index: number) => {
              let isList = false
              if(item.name === 'w:p') {
                let pPr = findByName(item.elements, 'w:pPr')
                if(pPr) {
                  let numPr = findByName(pPr.elements, 'w:numPr')
                  if(numPr) {
                    isList = true
                    let ilvl = numPr.elements[0].attributes['w:val']
                    let numId = numPr.elements[1].attributes['w:val']
                    let c =  cache.at(-1)
                    numPr.level = ilvl
                    if(c) {
                      if(c.ilvl === ilvl && c.numId === numId) {
                        cache.pop()
                      }else if(c.ilvl === ilvl && c.numId !== numId) {
                        numPr.start = true
                        c.numPr.end = true
                        cache.pop()
                      }else if(c.ilvl < ilvl && c.numId === numId) {
                        numPr.start = true
                        cache.pop()
                      }else if(c.ilvl > ilvl && c.numId === numId) {
                        c.numPr.end = true
                        cache.pop()
                      }else if(c.numId !== numId) {
                        while(c.ilvl >= ilvl) {
                          c.numPr.end = true
                          c = cache.pop()
                          if(!c) {
                            break
                          }
                        }
                      }
                    }else {
                      numPr.start = true
                    }
                    cache.push({
                      ilvl,
                      numId,
                      index,
                      numPr
                    })
                  }
                }
              }
            })
            cache.forEach((c: any) => {
              c.numPr.end = true
            })
          }

          主要就是對列表進行標記,因為它要做一些特殊化的處理。

          拿到數據之后,我們的核心邏輯都在第33行,實現listToHtml進行處理:

          function listToHTML(list: any) {
            let html = ''
            list.forEach((item: any, index: number) => {
              let info = getContainer(item)
              html += info
            })
            return html
          }

          遍歷每一項,然后把它們生成的html拼接起來:

          function getContainer(item: any) {
            let html = ''
            if(item.name === 'w:p') {
              let n = findByName(item.elements, 'w:pPr')
              let el: any = null
              let pEl: any = null
              let attr: any = {}
              let style = null
              if(n) {
                let ps = findByName(n.elements, 'w:pStyle')
                if(ps) {
                  let styleId = getAttributeVal(ps)
                  let sy = styleList.find((item: any) => {
                    return item.attributes['w:styleId'] === styleId
                  })
                  let ppr = findByName(sy.elements, 'w:pPr')
                  let rpr = findByName(sy.elements, 'w:rPr')
                  if(ppr) {
                    ppr.elements.forEach((p: any) => {
                      if(!findByName(n.elements, p.name)) {
                        n.elements.push(p)
                      }
                    })
                  }
                  if(rpr) {
                    let rs = findsByName(item.elements, 'w:r')
                    rs.forEach((r: any) => {
                      let rr = findByName(r.elements, 'w:rPr')
                      rpr.elements.forEach((p: any) => {
                        if(!findByName(rr.elements, p.name)) {
                          rr.elements.push(p)
                        }
                      })
                    })
                  }
                }
                let info = getPAttribute(n.elements)
                attr = info.attr
                style = info.style
                if(attr.list) {
                  let s1: any = {}
                  let s2: any = {}
                  for(let t in info.style) {
                    if(t === 'list-style-type') {
                      s1[t] = info.style[t]
                    }else{
                      s2[t] = info.style[t]
                    }
                  }
                  for(let t in info.liStyle) {
                    s1[t] = info.liStyle[t]
                  }
                  if(attr.order) {
                    if(attr.start) {
                      if(attr.level !== '0') {
                        html += '<li style="list-style-type:none;">'
                      }
                      html += '<ol'
                      html += addStyle(s1)
                      html += '<li>'
                      html += '<p'
                      html += addStyle(s2)
                    }else {
                      html += '<li>'
                      html += '<p'
                      html += addStyle(s2)
                    }
                  }else{
                    if(attr.start) {
                      if(attr.level !== '0') {
                        html += '<li style="list-style-type:none;">'
                      }
                      html += '<ul'
                      html += addStyle(s1)
                      html += '<li>'
                      html += '<p'
                      html += addStyle(s2)
                    }else {
                      html += '<li>'
                      html += '<p'
                      html += addStyle(s2)
                    }
                  }
                }else{
                  html += '<p'
                  html += addStyle(info.style)
                }
              }else{
                el = document.createElement('p')
              }
              item.elements.forEach((r: any) => {
                if(r.name === 'w:ins') {
                  setAuthor(r.attributes['w:author'])
                  r.elements.forEach((ins: any) => {
                    html += dealWr(ins, 'ins')
                  })
                }else if(r.name === 'w:hyperlink') {
                  r.elements.forEach((hyp: any) => {
                    html += dealWr(hyp)
                  })
                }else if(r.name === 'w:r') {
                  html += dealWr(r)
                }else if(r.name === 'w:commentRangeStart') {
                  BlockType = 'comment'
                }else if(r.name === 'w:commentRangeEnd') {
                  BlockType = ''
                }else if(r.name === 'w:del') {
                  setAuthor(r.attributes['w:author'])
                  r.elements.forEach((hyp: any) => {
                    html += dealWr(hyp, 'del')
                  })
                }
              })
              if(attr.list) {
                if(attr.order) {
                  if(attr.end) {
                    html += '</p></li></ol>'
                    if(attr.level !== '0') {
                      html += '</li>'
                    }
                  }else {
                    html += '</p></li>'
                  }
                }else{
                  if(attr.end) {
                    html += '</p></li></ul>'
                    if(attr.level !== '0') {
                      html += '</li>'
                    }
                  }else {
                    html += '</p></li>'
                  }
                }
              }else {
                html += '</p>'
              }
            }else if(item.name === 'w:tbl') {
              let n = findByName(item.elements, 'w:tblPr')
              if(n) {
                let info = getTableAttribute(n.elements)
                html += '<figure class="table"'
                html += addStyle(info.figureStyle)
                html += '<table'
                html += addStyle(info.tableStyle)
                html += '<tbody>'
              }
              item.elements.forEach((r: any) => {
                if(r.name === 'w:tr') {
                  html += dealWtr(r)
                }
              })
              html += '</tbody></table></figure>'
            }else if(item.name === 'w:sectPr') {
              let ps = findByName(item.elements, 'w:pgSz')
              let pm = findByName(item.elements, 'w:pgMar')
              if(ps) {
                docInfo.pageWidth = Math.ceil(ps.attributes['w:w'] / 20 * 96 / 72) + 1
              }
              if(pm) {
                docInfo.paddingTop = pm.attributes['w:top'] / 1440 * 96
                docInfo.paddingRight = pm.attributes['w:right'] / 1440 * 96
                docInfo.paddingBottom = pm.attributes['w:bottom'] / 1440 * 96
                docInfo.paddingLeft = pm.attributes['w:left'] / 1440 * 96
              }
            }
            return html
          }

          做了一些邏輯判斷,和不同標簽的特殊處理。

          在剛才input事件中的第34行到47行,主要是做一些編輯器大小等外觀設置,因為要配置成word中的寬度與邊距。

          還需要考慮到,列表可能不是連續的,中間可能被一些段落所隔開,因此到這里還需要對生成的html中的列表進行分割,并修復索引問題:

          function splitList(el: any) {
            while(el) {
              if(el.tagName === 'OL' || el.tagName === 'UL') {
                let a = el.querySelectorAll('ol > p, ul > p')
                let path: any = []
                a.forEach((item: any) => {
                  let p: any = []
                  while(item) {
                    p.push(item)
                    item = item.parentNode
                    if(item === el) {
                      break
                    }
                  }
                  path.push(p.reverse())
                })
                let cur = el
                let t: number = 0
                path.forEach((p: any) => {
                  let list = cur.cloneNode(false)
                  let list2 = list
                  cur.parentNode.insertBefore(list, cur)
                  p.forEach((l: any, ind: number) => {
                    let chi = cur.children
                    let t = 0
                    for(let i = 0; i < chi.length; i++) {
                      if(chi[i] !== l) {
                        list.append(chi[i])
                        t++
                        i--
                      }else{
                        if(cur.tagName === 'OL') {
                          let s = cur.getAttribute('start')
                          cur.setAttribute('start', s ? (+s + t) : (t + 1))
                        }
                        if(ind === p.length - 1) {
                          let par = chi[i].parentNode
                          el.parentNode.insertBefore(chi[i], el)
                          if(par.children.length === 0) {
                            par.remove()
                          }
                          cur = el
                        }else{
                          cur.setAttribute('start', cur.getAttribute('start') - 1)
                          let cl = chi[i].cloneNode(false)
                          list.append(cl)
                          list = cl
                          cur = chi[i]
                        }
                        break
                      }
                    }
                  })
                })
              }
              el = el.nextElementSibling
            }
          }

          并且由于CKEditor5會對相鄰的列表進行合并等處理,這不是我們想要的,可以在它們中間插入一些div:

          function insertDivToList(div: any) {
            let f = div.firstElementChild
            let k = f.nextElementSibling
            while(k) {
              if(f.tagName === 'UL' && k.tagName === 'UL') {
                let d = document.createElement('div')
                f = k
                div.insertBefore(d, f)
                k = f.nextElementSibling
              }else if(f.tagName === 'OL' && k.tagName === 'OL') {
                let d = document.createElement('p')
                d.setAttribute('list-separator', "true")
                f = k
                div.insertBefore(d, f)
                k = f.nextElementSibling
              }else {
                f = k
                k = f.nextElementSibling
              }
            }
          }

          最后我們用this.editor.setData方法,將剛才生成的html設置到編輯器中去。

          到此我們基本就已經把需要的功能實現了。

          效果

          該來看一下我們所做的工作成果了,首先同樣導入CKEditor5官網中的文檔:

          效果圖

          可以看到,內容與格式等,基本跟原word一樣,與CKEditor5官網的示例也相同。然后我們再用另一個剛才修改過的文件測試一下:

          效果圖

          這個是用咱們剛才開發的插件導入的word的效果圖,幾乎與原word一模一樣,也沒有了CKEditor官網中的那幾個小問題。

          至此,我們針對CKEditor5導入word的功能已經開發完畢,同時我又找了各種類型的word測試,均未發現問題,還原度都非常高。

          結語

          感謝docx的規范,使得我們自己解析word成為可能,雖然不可能100%還原word的格式,但是能夠將它導入到我們的富文本編輯器中,以進行二次創作,這對我們來說是非常方便的。

          本次word轉html,并導入富文本編輯器的開發過程,希望能給大家帶來啟發。

          每一次創作都是快樂的,每一次分享也都是有益的,希望能夠幫助到你!

          謝謝

          談前端專注于前端+AI前沿技術和場景應用落地。關注可視化,零代碼,AI技術融合,職業發展研究和軟件工程化實踐。致力于打造一個開放自由的技術交流平臺。

          大家好啊,我是徐小夕。之前和大家分享了很多前端工程化可視化職業發展相關的干貨,雖然這兩年大環境不太好,但是我們還是要定期學習成長,才能讓自己的未來把握職場主動權。

          最近由于AI應用的高速發展,使得文檔/知識庫成為了AI的首選試煉場。比如用AI提取PDF的大綱和關鍵內容,用AI總結電子書的內容,AI對DOC文檔進行潤色,優化等,這些都離不開對文檔的解析和處理。

          那么前端能不能實現對文檔的解析和處理呢?答案是肯定的,接下來我就和大家分享一下:

          • 前端如何解析Word文件
          • 基于HTML,一鍵導出為Word文檔

          當然口說無憑,我已經在Nocode/WEP文檔知識引擎中把Doc文檔功能實現了,大家感興趣的可以親自體驗一下。

          image.png

          好啦,接下來開始我們的技術分享。

          往期精彩

          做了4年的零代碼平臺,準備出海了

          Word文檔的本質

          image.png

          Word 文檔的本質是一種電子文檔格式,它主要用于創建、編輯和保存文本內容,同時還可以包含圖片、表格、圖表等多種元素。它是一種方便的工具,用于記錄、整理和交流信息。

          docdocx 是兩種常見的 Word 文檔格式,它們主要有以下區別:

          • 版本:doc 是 Word 2003 及之前版本的默認文件格式,而 docx 是 Word 2007 及之后版本的默認文件格式。
          • 兼容性:doc 格式的兼容性較好,可以被大多數舊版本的 Word 軟件打開。而 docx 格式在較新版本的 Word 中得到完全支持,但在一些舊版本的 Word 中可能需要安裝兼容性插件才能正常打開。
          • 文件體積:由于 docx 格式采用了更高效的壓縮技術,所以它的文件體積通常比 doc 格式小。
          • 安全性:docx 格式采用基于 XML 的格式,相對更安全一些,不容易受到宏病毒的攻擊。
          • 功能支持:docx 格式支持更多的新特性和功能,如高級的圖表和圖形處理、更豐富的格式選項、多媒體嵌入等。而 doc 格式則不支持這些新功能。

          為了與時俱進,我們優先考慮最新標準格式 docx, 那么如何解析 docx 呢,這就要進一步分析一下 docx文件的本質了。

          docx 的本質是什么

          docx 我們第一感覺是一個文件,其實確實是一個文件(壓縮文件),我用解壓工具提取文件之后,它的文件結構是這樣的:

          image.png

          進入 word 文件夾,可以看到如下目錄結構:

          image.png

          打開一個 xml 文件可以看到類似如下的內容:

          image.png

          看到這熟悉前端的小伙伴應該就比較熟悉了,我們可以使用類似于 document 的方法解析處理不同的XML標簽,從而實現對 docx 文件的解析。

          如何實現Word文檔的解析

          有了以上的分析結果,我們自己實現一個word文檔解析器就非常容易了,但是考慮到docx的xml 文件的復雜性,我們自己實現需要考慮很多種情況,比如:

          • 標題
          • 列表
          • 標題
          • 列表
          • 可定制的 docx 樣式到 HTML 的映射
          • 表格:表格格式(如邊框)
          • 腳注和尾注
          • 圖片
          • 粗體、斜體、下劃線、刪除線、上標和下標。
          • 鏈接
          • 換行
          • 文本框:文本框的內容被視為一個單獨的段落,出現在包含文本框的段落之后。
          • 注釋

          如果是項目進度比較緊張的情況下,我們自己實現肯定是要被“批斗”的,所以我們可以考慮第三方成熟的解決方案。

          第三方開源方案

          這里直接上我總結的幾個開源方案:

          • Python 中的 python-docx
          • DocX:一個基于.NET框架的庫,用于操作Word 2007/2010/2013文件,具有簡單易用的API,無需安裝額外軟件,支持非商業用途。
          • OpenXml-PowerTools:一個基于Open XML文檔編程接口開發的開源工具,擴展了Open XML SDK的功能,支持將docx、pptx文件拆分為多個文件、將多個docx、pptx文件合并為一個文件、使用XML數據模板生成docx文件、docx文檔高保值轉換為Html頁面等功能
          • Mammoth 一個專注于轉換 .docx 文檔的工具庫,支持瀏覽器和服務器使用

          那作為前端的小伙伴,我們首選 Mammoth。

          image.png

          github地址:https://github.com/mwilliamson/mammoth.js

          實戰Word文檔解析

          接下來和大家分享一下使用 Mammoth 來實現 docx 文檔解析。

          先來看一個簡單的例子:

          import mammoth from 'mammoth';
          
          mammoth.convertToHtml({path: "你的doc文件的路徑/document.docx"})
              .then(function(result){
                  var html = result.value; // 解析出的html結果
                  var messages = result.messages; // 錯誤或者額外的提示信息
              })
              .catch(function(error) {
                  console.error(error);
              });
          

          以上代碼是在node.js 環境下實現的簡單例子,當然我們也可以在瀏覽器中直接使用,我在看完了它的文檔之后,加上自己的研究,寫了一個能自定義圖片上傳路徑,并支持修改文檔樣式的demo,這里分享一下:

          <!DOCTYPE html>
          <html lang="en">
          
          <head>
            <meta charset="UTF-8">
            <meta http-equiv="X-UA-Compatible" content="IE=edge">
            <meta name="viewport" content="width=device-width, initial-scale=1.0">
            <title>Document</title>
          </head>
          
          <body>
            <input type="file" onchange="handleFile(this.files[0])" />
          
            <script src="https://unpkg.com/mammoth@latest/dist/mammoth.min.js"></script>
            <script>
              function handleFile(file) {
                const reader = new FileReader();
                reader.onload = function (loadEvent) {
                  const arrayBuffer = loadEvent.target.result;
                  mammoth.convertToHtml({ arrayBuffer: arrayBuffer }, {
                    // 設置自定義圖片上傳路徑
                    imageReader: (image) => {
                      return new Promise((resolve, reject) => {
                        // 在這里實現圖片上傳邏輯,并將上傳后的圖片路徑作為結果返回
                        resolve('your_uploaded_image_path'); 
                      });
                    },
                    // 設置文本樣式
                    styleMap: [
                      // 標題樣式
                      {
                        name: 'Heading 1',
                        element: 'h1',
                        attributes: {
                          'tyle': 'font-size: 24px; color: #333;',
                        },
                      },
                      // 正文樣式
                      {
                        name: 'Normal',
                        element: 'p',
                        attributes: {
                          'tyle': 'font-size: 16px; color: #666;',
                        },
                      },
                    ],
                  })
                  .then(result => {
                      console.log(result.value);
                    })
                  .catch(error => {
                      console.error(error);
                    });
                };
                reader.readAsArrayBuffer(file);
              }
            </script>
          </body>
          
          </html>
          

          Word文檔導出實現

          image.png

          實現將html導出為word文檔,方法其實也很簡單,這里直接分享一下我的方案:

           const html = docRef.current;
          const blob = new Blob([html.innerHTML], { type: 'application/msword' });
          
          // 創建一個下載鏈接
          const link = document.createElement('a');
          link.href = URL.createObjectURL(blob);
          link.download = 'wep.doc';
          
          // 模擬點擊下載鏈接
          link.click();
          
          // 釋放資源
          URL.revokeObjectURL(link.href);
          

          本質上就是我們將 html內容轉化為blob,并設置類型為application/msword, 最后通過revokeObjectURL api來實現docx文檔下載。

          當然還有其他方案,這里也和大家分享一下:

          import htmlDocx from 'html-docx-js/dist/html-docx';
          import FileSaver from 'file-saver';
          
          // 定義要導出的 HTML 內容
          const htmlContent = `
            <h1>標題</h1>
            <p>這是一段文本。</p>
            <table border="1">
              <tr>
                <th>姓名</th>
                <th>年齡</th>
              </tr>
              <tr>
                <td>張三</td>
                <td>25</td>
              </tr>
            </table>
          `;
          
          // 將 HTML 轉換為 Word 文檔
          const docx = htmlDocx.asBlob(htmlContent);
          
          // 保存 Word 文檔
          FileSaver.saveAs(docx, 'example.docx');
          

          所有案例都在Nocode/WEP中實現,大家感興趣可以參考一下.

          用Spire.Doc,可以輕松地將HTML插入到Word文檔中。下面是一個示例代碼:

          import com.spire.doc.Document;

          import com.spire.doc.FileFormat;

          import com.spire.doc.Section;

          import com.spire.doc.documents.HorizontalAlignment;

          import com.spire.doc.fields.DocPicture;

          import com.spire.doc.fields.HtmlLayoutType;

          import com.spire.doc.fields.TextRange;

          import java.io.*;

          public class HtmlToWord {

          public static void main(String[] args) throws Exception {

          //定義文檔對象

          Document doc = new Document();

          //添加一個段落

          Section section = doc.addSection();

          TextRange tr = section.addParagraph().appendText("下面是插入HTML到Word的示例:");

          tr.getCharacterFormat().setBold(true);

          tr.getCharacterFormat().setFontSize(16f);

          //定義HTML內容

          String htmlContent = "<html><body><h1>Hello, World!</h1><p>This is an example of inserting HTML into a Word document using Spire.Doc.</p></body></html>";

          //插入HTML到Word

          DocPicture htmlPicture = section.addParagraph().appendPicture(

          htmlContent.getBytes(), HtmlLayoutType.Inline);

          htmlPicture.setHorizontalPosition(0);

          htmlPicture.setVerticalPosition(30);

          htmlPicture.setWidth(520);

          htmlPicture.setHeight(520 * 9 / 16);

          //設置段落格式

          section.getParagraphFormat().setHorizontalAlignment(HorizontalAlignment.Center);

          //保存為Word文檔

          doc.saveToFile("HtmlToWord.docx", FileFormat.Docx);

          System.out.println("Word文檔已生成。");

          }

          }

          在上面的代碼中,我們首先定義一個文檔對象并添加一個段落。然后定義HTML內容,并使用 appendPicture 方法將HTML插入到Word文檔中。 HtmlLayoutType 枚舉類型可用于指定HTML的布局方式。最后,我們設置了段落格式并將文檔保存為Word格式。在輸出語句中,我們打印了一條消息以通知用戶生成文檔的完成。


          主站蜘蛛池模板: 无码国产精品一区二区免费式芒果 | 中文字幕日韩一区二区不卡| 精品少妇ay一区二区三区| 久久久国产精品无码一区二区三区| 日韩一区二区三区在线精品| 97久久精品一区二区三区| 在线精品亚洲一区二区三区| 精品一区狼人国产在线| 国产电影一区二区| 国产爆乳无码一区二区麻豆| 亚洲美女高清一区二区三区| 日韩高清一区二区三区不卡 | 国精品无码A区一区二区| 少妇人妻精品一区二区| 色窝窝无码一区二区三区 | 精品人无码一区二区三区| 波多野结衣一区二区三区aV高清| 成人无号精品一区二区三区| 亚洲一区二区三区免费视频| 亚洲AV午夜福利精品一区二区| 亚洲视频在线一区二区| 国产在线第一区二区三区| 久久精品日韩一区国产二区| 亚洲一区二区三区精品视频| 污污内射在线观看一区二区少妇| 中文字幕亚洲乱码熟女一区二区| 一区二区中文字幕在线观看| 美女免费视频一区二区| 日韩精品一区二三区中文| 天堂一区二区三区精品| 欧美人妻一区黄a片| 久久青青草原一区二区| 亚洲无码一区二区三区| 亚洲欧美一区二区三区日产| 麻豆亚洲av熟女国产一区二| 精品视频一区二区三三区四区 | 国产乱码伦精品一区二区三区麻豆| 美女视频免费看一区二区| 一区二区三区无码高清视频| 无码人妻久久一区二区三区蜜桃| 午夜视频久久久久一区|