研究中,來自北航和微軟亞研的研究者聯(lián)合創(chuàng)建了一個(gè)基于圖像的表格檢測(cè)和識(shí)別新型數(shù)據(jù)集 TableBank,該數(shù)據(jù)集是通過對(duì)網(wǎng)上的 Word 和 Latex 文檔進(jìn)行弱監(jiān)督而建立的。該數(shù)據(jù)集包含 417K 個(gè)高質(zhì)量標(biāo)注表格,通過此數(shù)據(jù)集作者利用深度神經(jīng)網(wǎng)絡(luò) SOTA 模型建立了數(shù)個(gè)強(qiáng)大的基線,從而助力更多研究將深度學(xué)習(xí)方法應(yīng)用到表格檢測(cè)與識(shí)別任務(wù)中。目前 TableBank 已開源。
TableBank 開源地址:https://github.com/doc-analysis/TableBank
表格通常以結(jié)構(gòu)化的方式展示基本信息,因而表格檢測(cè)和識(shí)別是諸多文件分析應(yīng)用中的一項(xiàng)重要任務(wù)。如圖 1 所示,由于表格的布局和格式不同,其檢測(cè)和識(shí)別是個(gè)難題。常規(guī)表格分析技術(shù)通常以文件的布局分析為基礎(chǔ)。但這些技術(shù)中的大多數(shù)都無法泛化,究其原因,它們依賴于手工構(gòu)建的特征,而后者對(duì)布局變化不具備穩(wěn)健性。最近,計(jì)算機(jī)視覺領(lǐng)域深度學(xué)習(xí)的快速發(fā)展極大地推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)且基于圖像的表格分析方法。基于圖像的表格分析的優(yōu)勢(shì)體現(xiàn)在其對(duì)文件類型的穩(wěn)健性,并對(duì)文件是頁面掃描圖像還是原始數(shù)字文件格式不做任何假設(shè)。因此,大型端到端深度學(xué)習(xí)模型能夠取得更好的效果。
圖 1:不同布局和格式的表格電子文件。
現(xiàn)有的基于深度學(xué)習(xí)的表格分析模型通常對(duì)使用數(shù)千個(gè)人工標(biāo)注訓(xùn)練實(shí)例獲得的預(yù)訓(xùn)練目標(biāo)檢測(cè)模型進(jìn)行微調(diào),但它依然難以在現(xiàn)實(shí)世界應(yīng)用程序中擴(kuò)展。例如,我們發(fā)現(xiàn),在類似圖 1a、1b 和 1c 中的數(shù)據(jù)上訓(xùn)練出的模型在圖 1d 中表現(xiàn)不佳,其原因在于表格布局和顏色大不相同。因此,擴(kuò)大訓(xùn)練數(shù)據(jù)是使用深度學(xué)習(xí)構(gòu)建開放域表格分析模型的唯一途徑。深度學(xué)習(xí)模型比傳統(tǒng)模型復(fù)雜得多,現(xiàn)在的很多標(biāo)準(zhǔn)深度學(xué)習(xí)模型擁有數(shù)億自由參數(shù),且需要更多標(biāo)注訓(xùn)練數(shù)據(jù)。在實(shí)踐中,人工標(biāo)注大型訓(xùn)練數(shù)據(jù)成本高昂且缺乏靈活性,這是實(shí)際部署深度學(xué)習(xí)模型的關(guān)鍵瓶頸。眾所周知,ImageNet 和 COCO 是兩個(gè)流行的圖像分類和目標(biāo)檢測(cè)數(shù)據(jù)集,兩者均以眾包的方式構(gòu)建,但花費(fèi)高昂且耗日持久,需要數(shù)月甚至數(shù)年時(shí)間來構(gòu)建大型基準(zhǔn)數(shù)據(jù)集。幸運(yùn)的是,網(wǎng)絡(luò)上存在大量數(shù)字文件,如 Word 和 Latex 源文件。對(duì)這些在線文件進(jìn)行一些表格標(biāo)注方面的弱監(jiān)督則是有益的。
為解決對(duì)標(biāo)準(zhǔn)開放域表格基準(zhǔn)數(shù)據(jù)集的需求,該研究提出一種新穎的弱監(jiān)督方法,可自動(dòng)創(chuàng)建 TableBank 數(shù)據(jù)集,TableBank 要比現(xiàn)有的表格分析人工標(biāo)注數(shù)據(jù)集大幾個(gè)量級(jí)。與傳統(tǒng)弱監(jiān)督訓(xùn)練集不同,該研究提出的弱監(jiān)督方法可以同時(shí)獲得大規(guī)模和高質(zhì)量的訓(xùn)練數(shù)據(jù)。現(xiàn)在,網(wǎng)絡(luò)上有大量電子文檔,如 Word(.docx)和 Latex(.tex)文件。這些在線文檔的源代碼中包含表格的 mark-up tag。直觀地講,借助每個(gè)文檔中的標(biāo)記語言,研究者可以通過添加邊框來操控這些源代碼。就 Word 文檔而言,內(nèi)部 Office XML 代碼可以在標(biāo)注每一表格邊界的地方進(jìn)行修改。就 Latex 文檔而言,tex 代碼同樣可以在標(biāo)注表格邊界的地方進(jìn)行修改。這種方式可以為多個(gè)不同域創(chuàng)建高質(zhì)量的標(biāo)注數(shù)據(jù),如商業(yè)文件、官方名錄和科研論文等,這些數(shù)據(jù)對(duì)大規(guī)模表格分析任務(wù)大有裨益。
TableBank 數(shù)據(jù)集共包含 417,234 個(gè)高質(zhì)量標(biāo)注表格以及各域中對(duì)應(yīng)的的原始文檔。為驗(yàn)證 TableBank 的效果,研究者使用當(dāng)前最優(yōu)的端到端深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了多個(gè)強(qiáng)大的基線。表格檢測(cè)模型基于不同設(shè)置下的 Faster R-CNN 架構(gòu)(Ren 等人,2015 年),表結(jié)構(gòu)識(shí)別模型基于圖像-文本(image-to-text)的編碼器-解碼器框架。實(shí)驗(yàn)結(jié)果表明,布局和格式變化對(duì)表格分析任務(wù)的準(zhǔn)確率影響很大。此外,在某一特定域訓(xùn)練的模型在另一域中表現(xiàn)不佳。這表明,在 TableBank 數(shù)據(jù)集上建模和學(xué)習(xí)還有很大的進(jìn)步空間。
大致上,研究者構(gòu)建 TableBank 數(shù)據(jù)集時(shí)使用了兩種不同的文件類型:Word 文檔和 Latex 文檔。這兩種文件類型的源代碼中都包含 mark-up tag。這部分分三步詳細(xì)介紹了數(shù)據(jù)收集過程:文檔獲取、創(chuàng)建表格檢測(cè)數(shù)據(jù)集、創(chuàng)建表結(jié)構(gòu)識(shí)別數(shù)據(jù)集。
研究者從網(wǎng)上抓取 Word 文檔。這些文檔都是 .docx 格式,因此研究者可以通過編輯內(nèi)部 Office XML 代碼來添加邊框。研究者并未過濾文檔語言,因此這些文檔包含英語、中文、日語、阿拉伯語和其他語言。這使得該數(shù)據(jù)集在實(shí)際應(yīng)用中更多樣化、更穩(wěn)健。
Latex 文檔與 Word 文檔不同,因?yàn)榍罢咝枰渌Y源來編譯成 PDF 文檔。因此,研究者不能從網(wǎng)上抓取 tex 文檔,而是利用最大預(yù)印本數(shù)據(jù)庫 arXiv.org 中的文檔以及相應(yīng)的源代碼。借助 arXiv bulk data access,研究者下載了 2014 年至 2018 年論文的 Latex 源代碼。
直觀地講,借助每個(gè)文檔中的標(biāo)記語言,研究者可以通過添加邊框來操控源代碼。處理流程如圖 2 所示。就 Word 文檔而言,研究者通過編輯每個(gè)文檔中的內(nèi)部 Office XML 代碼來添加表格邊框。每個(gè) .docx 格式文件有一個(gè)壓縮包,解壓后的文件夾中有一個(gè) document.xml 文件。在 XML 文件中,該代碼片段介于標(biāo)記 <w:tbl> 和 </w:tbl> 之間,通常表示 Word 文件中的表格,如圖 3 所示。研究者修改 XML 文件中的代碼片段,使表格邊框可更改為與文檔其他部分不同的顏色。如圖 3 所示,研究者在 PDF 文檔中添加了一個(gè)綠色邊框,該表格得到完美識(shí)別。最后,研究者從 Word 文檔中獲得了 PDF 頁面。
圖 2:數(shù)據(jù)處理流程。
圖 3:通過 Office XML 代碼中的 <w:tbl> 和 </w:tbl> 標(biāo)記來識(shí)別和標(biāo)注表格。
表結(jié)構(gòu)識(shí)別旨在確定表格的行列布局結(jié)構(gòu),尤其適用于掃描圖像等非數(shù)字化文檔格式的表格。現(xiàn)有表結(jié)構(gòu)識(shí)別模型通常用于識(shí)別布局信息和單元格的文本內(nèi)容,而文本內(nèi)容識(shí)別并非這一工作的重心。所以,研究者將任務(wù)定義為:給定一個(gè)圖像格式的表格,生成表示表格行列布局和單元格類型的 HTML 標(biāo)簽序列。通過這種方式,研究者可以從 Word 和 Latex 文檔的源代碼中自動(dòng)構(gòu)建表表結(jié)構(gòu)識(shí)別數(shù)據(jù)集。就 Word 文檔而言,研究者只需將原始 XML 信息從文檔格式轉(zhuǎn)換成 HTML 標(biāo)簽序列即可。而對(duì)于 Latex 文檔,研究者首先使用 LaTeXML toolkit 從 Latex 中生成 XML,然后將其轉(zhuǎn)換為 HTML 格式。如圖 4 中的簡(jiǎn)單示例,研究者使用 <cell_y> 表示含有文本的單元格,<cell_n> 表示沒有文本的單元格。在過濾噪聲后,研究者基于 Word 和 Latex 文檔創(chuàng)建了 145,463 個(gè)訓(xùn)練實(shí)例。
圖 4:表格轉(zhuǎn) HTML 示例,其中 <cell_y> 表示含有文本的單元格,<cell_n> 表示沒有文本的單元格。
表格檢測(cè)
該研究使用 Faster R-CNN 作為表格檢測(cè)基線模型,其架構(gòu)如下圖所示:
圖 5:用于表格檢測(cè)的 Faster R-CNN 模型。
該研究使用圖像-文本模型作為表結(jié)構(gòu)識(shí)別的基線模型,其整體架構(gòu)如下圖所示:
圖 6:用于表結(jié)構(gòu)識(shí)別的圖像-文本模型。
表 1:TableBank 數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)。
表 2:使用 ResNeXt-{101,152} 作為骨干網(wǎng)絡(luò)對(duì) Word 和 Latex 數(shù)據(jù)集的評(píng)估結(jié)果。
表 3:圖像-文本模型在 Word 和 Latex 數(shù)據(jù)集上的評(píng)估結(jié)果(BLEU)。
表 4:生成 HTML 標(biāo)注序列和真值序列之間的精確匹配(exact match)數(shù)量。
圖 7:使用 a)partial-detection、b)un-detection 和 c)mis-detection 進(jìn)行表格檢測(cè)的示例。
論文:TableBank: Table Benchmark for Image-based Table Detection and Recognition
論文鏈接:https://arxiv.org/pdf/1903.01949.pdf
Node-RED 基于web瀏覽器的可視化拖拽Scada軟件
Node-RED Windows系統(tǒng)下安裝教程
Node-RED教程 – Windows系統(tǒng)下開機(jī)自啟
Node-RED教程 – 怎樣安裝節(jié)點(diǎn)插件
Node-RED教程-程序代碼的導(dǎo)入導(dǎo)出
Node-RED頁面(dashboard)教程
01 – excel表格生成及下載
02 – Modbus讀取數(shù)據(jù)存入csv文件
03 – 三菱MC協(xié)議讀寫
04 – Modbus讀寫及建立從站示例
05 – ModbusTCP 多個(gè)從站讀取數(shù)據(jù)寫入MySQL數(shù)據(jù)庫
06 – Modbus從站的建立
07 – 通過網(wǎng)址url鏈接讀寫modbus從站
08 – ui界面生成表格
09 – 動(dòng)態(tài)生成圖表
10 – 自定義表格
11 – 帶有命令的UI表格
12 – HMI示例01
13 – 登錄界面及登錄自動(dòng)退出UI
14 – Modbus讀取數(shù)據(jù)寫入mysql并可查詢顯示曲線圖
15 – 獲取國(guó)際空間站的位置并頁面地圖顯示
16 – 頁面顯示CPU負(fù)載率
17 – 文本轉(zhuǎn)語音示例
18 – SCADA畫面裝配線
19- Test HMI上下料
20 – 帶監(jiān)控畫面語音提示的水位控制系統(tǒng)
21 – modbus讀取數(shù)據(jù)寫入execl文件中每天一個(gè)文件
22 – modbus讀取數(shù)據(jù)寫入mysql并可根據(jù)日期查詢并顯示曲線圖
23 – Node-RED與歐姆龍 CP1H通訊
24 – Node-RED與匯川H5U通訊
25 – Node-RED與臺(tái)達(dá)PLC AS228T通訊
26 – Node-RED與緯創(chuàng)PLC VC1-0806MAT通訊
27 – Node-RED與西門子S7-1200通訊
28 – Node-RED與信捷XLH-24A16L通訊
37 – Node-RED與歐姆龍PLC進(jìn)行以太網(wǎng)連接讀取地址或多個(gè)讀取
38 – Node-RED教程-發(fā)送電子郵件
39 – Node-RED教程 與MySQL交互示例
40 – Node-RED教程-modbus輪詢通訊
01-抓取錯(cuò)誤
01 – 節(jié)點(diǎn)執(zhí)行完成后的處理
01 – 輸出payload值
02 – 輸出完整消息
03 – 輸出到控制臺(tái)
04 – 輸出到節(jié)點(diǎn)狀態(tài)
05 – 使用 JSONata 格式化輸出
01 – 啟動(dòng)時(shí)觸發(fā)流程
02 – 定時(shí)觸發(fā)流程
03 – 在指定時(shí)間觸發(fā)流程
01 – 選項(xiàng)卡內(nèi)的鏈接
02 – 跨選項(xiàng)卡鏈接
03 – Link call 調(diào)用
01 – 處理狀態(tài)消息輸出
01 – 設(shè)定payload值
02 – 設(shè)置任意屬性值
03 – 使用 JSONata 設(shè)置值
04 – 使用環(huán)境變量賦值
05 – 設(shè)置流程上下文
06 – 刪除消息屬性
07 – 移動(dòng)消息屬性
01 – 延遲
02 – 通過消息屬性延遲消息
03 – 重置或刷新待處理消息
04 – 減慢消息通過流程的速度
05 – 減慢每個(gè)topic的消息傳輸速率
06 – 帶釋放的簡(jiǎn)單隊(duì)列
01 – 從外部命令獲取標(biāo)準(zhǔn)輸出
02 – 從外部命令獲取錯(cuò)誤輸出
03 – 以spawn模式運(yùn)行外部命令
01 – 發(fā)送消息到輸出端口
02 – 發(fā)送多條消息
03 – 異步發(fā)送消息
04 – 記錄事件
05 – 處理錯(cuò)誤
06 – 在上下文中存儲(chǔ)數(shù)據(jù)
07 – 顯示狀態(tài)信息
08 – 使用外部模塊
09 – 設(shè)置和關(guān)閉
10 – 異步設(shè)置
01 – 縮放輸入值
02 – 縮放輸入值并四舍五入為整數(shù)
03 – 限制輸入值
04 – 縮放并循環(huán)輸入值
01 – 選擇輸出端口
02 – 檢查所有規(guī)則
03 – 在第一個(gè)匹配后停止
04 – 根據(jù)類型選擇輸出端口
05 – 使用JSONata進(jìn)行開關(guān)規(guī)則設(shè)定
06 – 使用JSONata設(shè)置開關(guān)值
07 – 重新創(chuàng)建消息序列
08 – 基于屬性路由消息
09 – 基于上下文值路由消息
01 – 使用Mustache語法
02 – 將結(jié)果解析為JSON
03 – 將結(jié)果解析為YAML格式
01 – 間隔輸出兩個(gè)值
02 – 如果在定義的時(shí)間內(nèi)未收到消息則觸發(fā)一個(gè)流程
03 – 在流程停止發(fā)送時(shí)發(fā)送占位符消息
04 – 使用觸發(fā)節(jié)點(diǎn)進(jìn)行超時(shí)處理
01 – 創(chuàng)建HTTP端點(diǎn)
02 – 處理查詢參數(shù)
03 – 處理URL參數(shù)
04 – 訪問HTTP請(qǐng)求頭部信息
05 – 向流程發(fā)送數(shù)據(jù)
06 – 將文件發(fā)布到流程中
07 – 處理Cookie
01 – 連接到TCP輸出服務(wù)器
02 – 連接到TCP輸入服務(wù)器
03 – 向TCP連接的客戶端發(fā)送回復(fù)
01 – 使用UDP協(xié)議傳輸數(shù)據(jù)
01 – 連接到WebSocket輸入服務(wù)器
02 – 連接到WebSocket輸出服務(wù)器
01 – 使用默認(rèn)列名將CSV解析為消息序列
02 – 使用默認(rèn)列名將CSV解析為數(shù)組
03 – 使用指定的列名將CSV解析為消息序列
04 – 將第一行中的列名解析為消息序列的CSV
05 – 將JavaScript對(duì)象轉(zhuǎn)換為CSV格式
06 – 將JavaScript對(duì)象轉(zhuǎn)換為CSV格式
07 – 將JavaScript對(duì)象數(shù)組轉(zhuǎn)換為帶有列名標(biāo)題的CSV格式
08 – 在輸入消息中指定列名
09 – 當(dāng)設(shè)置重置屬性時(shí)發(fā)送列名
10 – 使用連接節(jié)點(diǎn)連接解析的CSV消息序列
01 – 使用CSS選擇器提取HTML元素?cái)?shù)組
02 – 通過CSS選擇器提取HTML元素序列
03 – 使用消息中指定的CSS選擇器提取HTML元素?cái)?shù)組
04 – 使用連接節(jié)點(diǎn)連接提取的HTML元素序列
01 – 將JSON字符串轉(zhuǎn)換為JavaScript對(duì)象
02 – 將JavaScript對(duì)象轉(zhuǎn)換為JSON字符串
03 – 驗(yàn)證輸入的JSON字符串
01 – 將JavaScript對(duì)象轉(zhuǎn)換為XML
02 – 將XML轉(zhuǎn)換為JavaScript對(duì)象
03 – 使用options屬性控制轉(zhuǎn)換
01 – 將JavaScript對(duì)象轉(zhuǎn)換為YAML
02 – 將YAML轉(zhuǎn)換為JavaScript對(duì)象
01 – 基于數(shù)字的分組模式
02 – 基于時(shí)間的分組模式
03 – 連接模式
01 – 自動(dòng)合并模式
02 – 手動(dòng)合并模式
03 – 序列遞減模式
01 – 對(duì)數(shù)組的 payload進(jìn)行排序
02 – 對(duì)消息序列進(jìn)行排序
01 – 拆分payload消息
01 – 從文本中讀取字符串
02 – 使用指定格式讀取數(shù)據(jù)
03 – 按行分割讀取數(shù)據(jù)
04 – 創(chuàng)建消息流程
01 – 監(jiān)視文件的變化
02 – 監(jiān)視目錄中的變化
01 – 將字符串寫入文本文件
02 – 將字符串寫入由屬性指定的文件
03 – 刪除文件
04 – 按指定格式寫入數(shù)據(jù)
教程地址: han-link.cn/3707.html
#工業(yè)#
一下html中文件標(biāo)簽和文本標(biāo)簽的使用
目的是學(xué)會(huì)使用,所以借助工具可以省好多時(shí)間
1.文件標(biāo)簽:構(gòu)成html最基本的標(biāo)簽
html:html文檔的根標(biāo)簽
head:頭標(biāo)簽。用于引入html文檔的一些屬性。引入外部的一些資源
title:標(biāo)題標(biāo)簽
body:體標(biāo)簽
<!DOCTYPE html>:html5中定義該文檔是html
2.文本標(biāo)簽:和文本有關(guān)的標(biāo)簽
注釋:<!-- 注釋內(nèi)容 –->
<h1> 到<h6>:標(biāo)題標(biāo)簽自帶換行的效果
<p>:表示段落的標(biāo)簽
<br>:換行標(biāo)簽<br/>和<br>的寫法都不會(huì)報(bào)錯(cuò)
<hr>:顯示一條水平線(也是一個(gè)自閉和標(biāo)簽)水平線有一些屬性我們可以控制它的樣式。hr里面表示高度是size而不是height.對(duì)齊方式默認(rèn)是居中的。
<b>:字體加粗
<i>:斜體
<font>:字體標(biāo)簽(通過屬性來修改字體的字號(hào),大小,顏色,以及字體的樣式)
<center>:文本居然標(biāo)簽
這里講下網(wǎng)頁下面的版權(quán)標(biāo)簽是如何寫出來的。
3.圖片標(biāo)簽:用來展示圖片的(圖片也是一個(gè)自閉合標(biāo)簽)
屬性:src:用來指定圖片的位置
什么都不寫默認(rèn)就是./的形式
../表示上一級(jí)目錄
4.列表標(biāo)簽:
有序列表:ol,li(li表示的是列表的每一項(xiàng))
無序列表:ul,li
5.鏈接標(biāo)簽:
a:定義一個(gè)超鏈接
屬性:
href:指定訪問資源的URL(統(tǒng)一資源定位符,就是路徑的表示形式)
target:(是目標(biāo)的意思)指定打開資源的方式
_self:在當(dāng)前頁面打開
_blank:在空白頁面打開
6.表格標(biāo)簽:在HTML中的表格只有行的概念,沒有列的概念,將表格以行的形式進(jìn)行分割,然后再對(duì)行進(jìn)行操作。
table:定義表格
width:表格的寬度
border:邊框
cellpadding:單元格內(nèi)容左對(duì)齊(定義內(nèi)容和單元格的距離)
cellspacing:邊框合并(定義單元格之間的距離,如果指定為0,單元格的線會(huì)合為一條)
bgcolor:背景色
align:表格的對(duì)齊樣式
tr:定義行
bgcolor:背景色
align:表格的對(duì)齊樣式(是用來修改文本的對(duì)齊方式的)
td:定義單元格
colspan:合并列
rowspan:合并行
th:定義表頭單元格
<caption>:表格標(biāo)題
<thread>:表示表格的頭部分
<tbody>:表示表格的體部分
<tfoot>:表示表格的腳部分
7.塊標(biāo)簽:div和span是結(jié)合css使用的
span:文本信息在一行顯示,行內(nèi)標(biāo)簽,內(nèi)聯(lián)標(biāo)簽(意思就是它不會(huì)換行)
div:是會(huì)換行的。每一個(gè)div占滿一整行。塊級(jí)別的標(biāo)簽
8.語義化標(biāo)簽:html5中為了提高程序的可讀性,提高了一些標(biāo)簽
<header>
<footer>
*請(qǐng)認(rèn)真填寫需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。