從圖像中檢測(cè)和識(shí)別表格，北航&amp;微軟提出新型數(shù)據(jù)集TableBank

研究中，來自北航和微軟亞研的研究者聯(lián)合創(chuàng)建了一個(gè)基于圖像的表格檢測(cè)和識(shí)別新型數(shù)據(jù)集 TableBank，該數(shù)據(jù)集是通過對(duì)網(wǎng)上的 Word 和 Latex 文檔進(jìn)行弱監(jiān)督而建立的。該數(shù)據(jù)集包含 417K 個(gè)高質(zhì)量標(biāo)注表格，通過此數(shù)據(jù)集作者利用深度神經(jīng)網(wǎng)絡(luò) SOTA 模型建立了數(shù)個(gè)強(qiáng)大的基線，從而助力更多研究將深度學(xué)習(xí)方法應(yīng)用到表格檢測(cè)與識(shí)別任務(wù)中。目前 TableBank 已開源。

TableBank 開源地址：https://github.com/doc-analysis/TableBank

表格通常以結(jié)構(gòu)化的方式展示基本信息，因而表格檢測(cè)和識(shí)別是諸多文件分析應(yīng)用中的一項(xiàng)重要任務(wù)。如圖 1 所示，由于表格的布局和格式不同，其檢測(cè)和識(shí)別是個(gè)難題。常規(guī)表格分析技術(shù)通常以文件的布局分析為基礎(chǔ)。但這些技術(shù)中的大多數(shù)都無法泛化，究其原因，它們依賴于手工構(gòu)建的特征，而后者對(duì)布局變化不具備穩(wěn)健性。最近，計(jì)算機(jī)視覺領(lǐng)域深度學(xué)習(xí)的快速發(fā)展極大地推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)且基于圖像的表格分析方法。基于圖像的表格分析的優(yōu)勢(shì)體現(xiàn)在其對(duì)文件類型的穩(wěn)健性，并對(duì)文件是頁面掃描圖像還是原始數(shù)字文件格式不做任何假設(shè)。因此，大型端到端深度學(xué)習(xí)模型能夠取得更好的效果。

圖 1：不同布局和格式的表格電子文件。

現(xiàn)有的基于深度學(xué)習(xí)的表格分析模型通常對(duì)使用數(shù)千個(gè)人工標(biāo)注訓(xùn)練實(shí)例獲得的預(yù)訓(xùn)練目標(biāo)檢測(cè)模型進(jìn)行微調(diào)，但它依然難以在現(xiàn)實(shí)世界應(yīng)用程序中擴(kuò)展。例如，我們發(fā)現(xiàn)，在類似圖 1a、1b 和 1c 中的數(shù)據(jù)上訓(xùn)練出的模型在圖 1d 中表現(xiàn)不佳，其原因在于表格布局和顏色大不相同。因此，擴(kuò)大訓(xùn)練數(shù)據(jù)是使用深度學(xué)習(xí)構(gòu)建開放域表格分析模型的唯一途徑。深度學(xué)習(xí)模型比傳統(tǒng)模型復(fù)雜得多，現(xiàn)在的很多標(biāo)準(zhǔn)深度學(xué)習(xí)模型擁有數(shù)億自由參數(shù)，且需要更多標(biāo)注訓(xùn)練數(shù)據(jù)。在實(shí)踐中，人工標(biāo)注大型訓(xùn)練數(shù)據(jù)成本高昂且缺乏靈活性，這是實(shí)際部署深度學(xué)習(xí)模型的關(guān)鍵瓶頸。眾所周知，ImageNet 和 COCO 是兩個(gè)流行的圖像分類和目標(biāo)檢測(cè)數(shù)據(jù)集，兩者均以眾包的方式構(gòu)建，但花費(fèi)高昂且耗日持久，需要數(shù)月甚至數(shù)年時(shí)間來構(gòu)建大型基準(zhǔn)數(shù)據(jù)集。幸運(yùn)的是，網(wǎng)絡(luò)上存在大量數(shù)字文件，如 Word 和 Latex 源文件。對(duì)這些在線文件進(jìn)行一些表格標(biāo)注方面的弱監(jiān)督則是有益的。

為解決對(duì)標(biāo)準(zhǔn)開放域表格基準(zhǔn)數(shù)據(jù)集的需求，該研究提出一種新穎的弱監(jiān)督方法，可自動(dòng)創(chuàng)建 TableBank 數(shù)據(jù)集，TableBank 要比現(xiàn)有的表格分析人工標(biāo)注數(shù)據(jù)集大幾個(gè)量級(jí)。與傳統(tǒng)弱監(jiān)督訓(xùn)練集不同，該研究提出的弱監(jiān)督方法可以同時(shí)獲得大規(guī)模和高質(zhì)量的訓(xùn)練數(shù)據(jù)。現(xiàn)在，網(wǎng)絡(luò)上有大量電子文檔，如 Word（.docx）和 Latex（.tex）文件。這些在線文檔的源代碼中包含表格的 mark-up tag。直觀地講，借助每個(gè)文檔中的標(biāo)記語言，研究者可以通過添加邊框來操控這些源代碼。就 Word 文檔而言，內(nèi)部 Office XML 代碼可以在標(biāo)注每一表格邊界的地方進(jìn)行修改。就 Latex 文檔而言，tex 代碼同樣可以在標(biāo)注表格邊界的地方進(jìn)行修改。這種方式可以為多個(gè)不同域創(chuàng)建高質(zhì)量的標(biāo)注數(shù)據(jù)，如商業(yè)文件、官方名錄和科研論文等，這些數(shù)據(jù)對(duì)大規(guī)模表格分析任務(wù)大有裨益。

TableBank 數(shù)據(jù)集共包含 417,234 個(gè)高質(zhì)量標(biāo)注表格以及各域中對(duì)應(yīng)的的原始文檔。為驗(yàn)證 TableBank 的效果，研究者使用當(dāng)前最優(yōu)的端到端深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了多個(gè)強(qiáng)大的基線。表格檢測(cè)模型基于不同設(shè)置下的 Faster R-CNN 架構(gòu)（Ren 等人，2015 年），表結(jié)構(gòu)識(shí)別模型基于圖像-文本（image-to-text）的編碼器-解碼器框架。實(shí)驗(yàn)結(jié)果表明，布局和格式變化對(duì)表格分析任務(wù)的準(zhǔn)確率影響很大。此外，在某一特定域訓(xùn)練的模型在另一域中表現(xiàn)不佳。這表明，在 TableBank 數(shù)據(jù)集上建模和學(xué)習(xí)還有很大的進(jìn)步空間。

數(shù)據(jù)收集

大致上，研究者構(gòu)建 TableBank 數(shù)據(jù)集時(shí)使用了兩種不同的文件類型：Word 文檔和 Latex 文檔。這兩種文件類型的源代碼中都包含 mark-up tag。這部分分三步詳細(xì)介紹了數(shù)據(jù)收集過程：文檔獲取、創(chuàng)建表格檢測(cè)數(shù)據(jù)集、創(chuàng)建表結(jié)構(gòu)識(shí)別數(shù)據(jù)集。

文檔獲取

研究者從網(wǎng)上抓取 Word 文檔。這些文檔都是 .docx 格式，因此研究者可以通過編輯內(nèi)部 Office XML 代碼來添加邊框。研究者并未過濾文檔語言，因此這些文檔包含英語、中文、日語、阿拉伯語和其他語言。這使得該數(shù)據(jù)集在實(shí)際應(yīng)用中更多樣化、更穩(wěn)健。

Latex 文檔與 Word 文檔不同，因?yàn)榍罢咝枰渌Y源來編譯成 PDF 文檔。因此，研究者不能從網(wǎng)上抓取 tex 文檔，而是利用最大預(yù)印本數(shù)據(jù)庫 arXiv.org 中的文檔以及相應(yīng)的源代碼。借助 arXiv bulk data access，研究者下載了 2014 年至 2018 年論文的 Latex 源代碼。

表格檢測(cè)

直觀地講，借助每個(gè)文檔中的標(biāo)記語言，研究者可以通過添加邊框來操控源代碼。處理流程如圖 2 所示。就 Word 文檔而言，研究者通過編輯每個(gè)文檔中的內(nèi)部 Office XML 代碼來添加表格邊框。每個(gè) .docx 格式文件有一個(gè)壓縮包，解壓后的文件夾中有一個(gè) document.xml 文件。在 XML 文件中，該代碼片段介于標(biāo)記 <w:tbl> 和 </w:tbl> 之間，通常表示 Word 文件中的表格，如圖 3 所示。研究者修改 XML 文件中的代碼片段，使表格邊框可更改為與文檔其他部分不同的顏色。如圖 3 所示，研究者在 PDF 文檔中添加了一個(gè)綠色邊框，該表格得到完美識(shí)別。最后，研究者從 Word 文檔中獲得了 PDF 頁面。

圖 2：數(shù)據(jù)處理流程。

圖 3：通過 Office XML 代碼中的 <w:tbl> 和 </w:tbl> 標(biāo)記來識(shí)別和標(biāo)注表格。

表結(jié)構(gòu)識(shí)別

表結(jié)構(gòu)識(shí)別旨在確定表格的行列布局結(jié)構(gòu)，尤其適用于掃描圖像等非數(shù)字化文檔格式的表格。現(xiàn)有表結(jié)構(gòu)識(shí)別模型通常用于識(shí)別布局信息和單元格的文本內(nèi)容，而文本內(nèi)容識(shí)別并非這一工作的重心。所以，研究者將任務(wù)定義為：給定一個(gè)圖像格式的表格，生成表示表格行列布局和單元格類型的 HTML 標(biāo)簽序列。通過這種方式，研究者可以從 Word 和 Latex 文檔的源代碼中自動(dòng)構(gòu)建表表結(jié)構(gòu)識(shí)別數(shù)據(jù)集。就 Word 文檔而言，研究者只需將原始 XML 信息從文檔格式轉(zhuǎn)換成 HTML 標(biāo)簽序列即可。而對(duì)于 Latex 文檔，研究者首先使用 LaTeXML toolkit 從 Latex 中生成 XML，然后將其轉(zhuǎn)換為 HTML 格式。如圖 4 中的簡(jiǎn)單示例，研究者使用 <cell_y> 表示含有文本的單元格，<cell_n> 表示沒有文本的單元格。在過濾噪聲后，研究者基于 Word 和 Latex 文檔創(chuàng)建了 145,463 個(gè)訓(xùn)練實(shí)例。

圖 4：表格轉(zhuǎn) HTML 示例，其中 <cell_y> 表示含有文本的單元格，<cell_n> 表示沒有文本的單元格。

基線

表格檢測(cè)

該研究使用 Faster R-CNN 作為表格檢測(cè)基線模型，其架構(gòu)如下圖所示：

圖 5：用于表格檢測(cè)的 Faster R-CNN 模型。

表結(jié)構(gòu)識(shí)別

該研究使用圖像-文本模型作為表結(jié)構(gòu)識(shí)別的基線模型，其整體架構(gòu)如下圖所示：

圖 6：用于表結(jié)構(gòu)識(shí)別的圖像-文本模型。

實(shí)驗(yàn)

表 1：TableBank 數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)。

表 2：使用 ResNeXt-{101,152} 作為骨干網(wǎng)絡(luò)對(duì) Word 和 Latex 數(shù)據(jù)集的評(píng)估結(jié)果。

表 3：圖像-文本模型在 Word 和 Latex 數(shù)據(jù)集上的評(píng)估結(jié)果（BLEU）。

表 4：生成 HTML 標(biāo)注序列和真值序列之間的精確匹配（exact match）數(shù)量。

圖 7：使用 a）partial-detection、b）un-detection 和 c）mis-detection 進(jìn)行表格檢測(cè)的示例。

論文：TableBank: Table Benchmark for Image-based Table Detection and Recognition

論文鏈接：https://arxiv.org/pdf/1903.01949.pdf

ode-RED 簡(jiǎn)介

Node-RED 基于web瀏覽器的可視化拖拽Scada軟件

Node-RED Windows系統(tǒng)下安裝教程

Node-RED教程 – Windows系統(tǒng)下開機(jī)自啟

Node-RED教程 – 怎樣安裝節(jié)點(diǎn)插件

Node-RED教程-程序代碼的導(dǎo)入導(dǎo)出

Node-RED頁面（dashboard）教程

Node-RED 實(shí)例

01 – excel表格生成及下載

02 – Modbus讀取數(shù)據(jù)存入csv文件

03 – 三菱MC協(xié)議讀寫

04 – Modbus讀寫及建立從站示例

05 – ModbusTCP 多個(gè)從站讀取數(shù)據(jù)寫入MySQL數(shù)據(jù)庫

06 – Modbus從站的建立

07 – 通過網(wǎng)址url鏈接讀寫modbus從站

08 – ui界面生成表格

09 – 動(dòng)態(tài)生成圖表

10 – 自定義表格

11 – 帶有命令的UI表格

12 – HMI示例01

13 – 登錄界面及登錄自動(dòng)退出UI

14 – Modbus讀取數(shù)據(jù)寫入mysql并可查詢顯示曲線圖

15 – 獲取國(guó)際空間站的位置并頁面地圖顯示

16 – 頁面顯示CPU負(fù)載率

17 – 文本轉(zhuǎn)語音示例

18 – SCADA畫面裝配線

19- Test HMI上下料

20 – 帶監(jiān)控畫面語音提示的水位控制系統(tǒng)

21 – modbus讀取數(shù)據(jù)寫入execl文件中每天一個(gè)文件

22 – modbus讀取數(shù)據(jù)寫入mysql并可根據(jù)日期查詢并顯示曲線圖

23 – Node-RED與歐姆龍 CP1H通訊

24 – Node-RED與匯川H5U通訊

25 – Node-RED與臺(tái)達(dá)PLC AS228T通訊

26 – Node-RED與緯創(chuàng)PLC VC1-0806MAT通訊

27 – Node-RED與西門子S7-1200通訊

28 – Node-RED與信捷XLH-24A16L通訊

37 – Node-RED與歐姆龍PLC進(jìn)行以太網(wǎng)連接讀取地址或多個(gè)讀取

38 – Node-RED教程-發(fā)送電子郵件

39 – Node-RED教程與MySQL交互示例

40 – Node-RED教程-modbus輪詢通訊

常用

catch抓取

01-抓取錯(cuò)誤

complete完成的處理

01 – 節(jié)點(diǎn)執(zhí)行完成后的處理

debug調(diào)試

01 – 輸出payload值

02 – 輸出完整消息

03 – 輸出到控制臺(tái)

04 – 輸出到節(jié)點(diǎn)狀態(tài)

05 – 使用 JSONata 格式化輸出

inject觸發(fā)

01 – 啟動(dòng)時(shí)觸發(fā)流程

02 – 定時(shí)觸發(fā)流程

03 – 在指定時(shí)間觸發(fā)流程

link鏈接

01 – 選項(xiàng)卡內(nèi)的鏈接

02 – 跨選項(xiàng)卡鏈接

03 – Link call 調(diào)用

status狀態(tài)

01 – 處理狀態(tài)消息輸出

function功能函數(shù)

change更改

01 – 設(shè)定payload值

02 – 設(shè)置任意屬性值

03 – 使用 JSONata 設(shè)置值

04 – 使用環(huán)境變量賦值

05 – 設(shè)置流程上下文

06 – 刪除消息屬性

07 – 移動(dòng)消息屬性

delay延時(shí)

01 – 延遲

02 – 通過消息屬性延遲消息

03 – 重置或刷新待處理消息

04 – 減慢消息通過流程的速度

05 – 減慢每個(gè)topic的消息傳輸速率

06 – 帶釋放的簡(jiǎn)單隊(duì)列

exec執(zhí)行

01 – 從外部命令獲取標(biāo)準(zhǔn)輸出

02 – 從外部命令獲取錯(cuò)誤輸出

03 – 以spawn模式運(yùn)行外部命令

function函數(shù)

01 – 發(fā)送消息到輸出端口

02 – 發(fā)送多條消息

03 – 異步發(fā)送消息

04 – 記錄事件

05 – 處理錯(cuò)誤

06 – 在上下文中存儲(chǔ)數(shù)據(jù)

07 – 顯示狀態(tài)信息

08 – 使用外部模塊

09 – 設(shè)置和關(guān)閉

10 – 異步設(shè)置

range范圍

01 – 縮放輸入值

02 – 縮放輸入值并四舍五入為整數(shù)

03 – 限制輸入值

04 – 縮放并循環(huán)輸入值

switch開關(guān)節(jié)點(diǎn)

01 – 選擇輸出端口

02 – 檢查所有規(guī)則

03 – 在第一個(gè)匹配后停止

04 – 根據(jù)類型選擇輸出端口

05 – 使用JSONata進(jìn)行開關(guān)規(guī)則設(shè)定

06 – 使用JSONata設(shè)置開關(guān)值

07 – 重新創(chuàng)建消息序列

08 – 基于屬性路由消息

09 – 基于上下文值路由消息

template格式化

01 – 使用Mustache語法

02 – 將結(jié)果解析為JSON

03 – 將結(jié)果解析為YAML格式

trigger觸發(fā)

01 – 間隔輸出兩個(gè)值

02 – 如果在定義的時(shí)間內(nèi)未收到消息則觸發(fā)一個(gè)流程

03 – 在流程停止發(fā)送時(shí)發(fā)送占位符消息

04 – 使用觸發(fā)節(jié)點(diǎn)進(jìn)行超時(shí)處理

network網(wǎng)絡(luò)

http

01 – 創(chuàng)建HTTP端點(diǎn)

02 – 處理查詢參數(shù)

03 – 處理URL參數(shù)

04 – 訪問HTTP請(qǐng)求頭部信息

05 – 向流程發(fā)送數(shù)據(jù)

06 – 將文件發(fā)布到流程中

07 – 處理Cookie

tcp

01 – 連接到TCP輸出服務(wù)器

02 – 連接到TCP輸入服務(wù)器

03 – 向TCP連接的客戶端發(fā)送回復(fù)

udp

01 – 使用UDP協(xié)議傳輸數(shù)據(jù)

websocket

01 – 連接到WebSocket輸入服務(wù)器

02 – 連接到WebSocket輸出服務(wù)器

parser解析

csv

01 – 使用默認(rèn)列名將CSV解析為消息序列

02 – 使用默認(rèn)列名將CSV解析為數(shù)組

03 – 使用指定的列名將CSV解析為消息序列

04 – 將第一行中的列名解析為消息序列的CSV

05 – 將JavaScript對(duì)象轉(zhuǎn)換為CSV格式

06 – 將JavaScript對(duì)象轉(zhuǎn)換為CSV格式

07 – 將JavaScript對(duì)象數(shù)組轉(zhuǎn)換為帶有列名標(biāo)題的CSV格式

08 – 在輸入消息中指定列名

09 – 當(dāng)設(shè)置重置屬性時(shí)發(fā)送列名

10 – 使用連接節(jié)點(diǎn)連接解析的CSV消息序列

html

01 – 使用CSS選擇器提取HTML元素?cái)?shù)組

02 – 通過CSS選擇器提取HTML元素序列

03 – 使用消息中指定的CSS選擇器提取HTML元素?cái)?shù)組

04 – 使用連接節(jié)點(diǎn)連接提取的HTML元素序列

json

01 – 將JSON字符串轉(zhuǎn)換為JavaScript對(duì)象

02 – 將JavaScript對(duì)象轉(zhuǎn)換為JSON字符串

03 – 驗(yàn)證輸入的JSON字符串

xml

01 – 將JavaScript對(duì)象轉(zhuǎn)換為XML

02 – 將XML轉(zhuǎn)換為JavaScript對(duì)象

03 – 使用options屬性控制轉(zhuǎn)換

yaml

01 – 將JavaScript對(duì)象轉(zhuǎn)換為YAML

02 – 將YAML轉(zhuǎn)換為JavaScript對(duì)象

sequence序列

batch批量

01 – 基于數(shù)字的分組模式

02 – 基于時(shí)間的分組模式

03 – 連接模式

join合并

01 – 自動(dòng)合并模式

02 – 手動(dòng)合并模式

03 – 序列遞減模式

sort排序

01 – 對(duì)數(shù)組的 payload進(jìn)行排序

02 – 對(duì)消息序列進(jìn)行排序

split拆分

01 – 拆分payload消息

storage存儲(chǔ)

read file讀取文件

01 – 從文本中讀取字符串

02 – 使用指定格式讀取數(shù)據(jù)

03 – 按行分割讀取數(shù)據(jù)

04 – 創(chuàng)建消息流程

watch監(jiān)視

01 – 監(jiān)視文件的變化

02 – 監(jiān)視目錄中的變化

write file寫入文件

01 – 將字符串寫入文本文件

02 – 將字符串寫入由屬性指定的文件

03 – 刪除文件

04 – 按指定格式寫入數(shù)據(jù)

教程地址: han-link.cn/3707.html

#工業(yè)#

一下html中文件標(biāo)簽和文本標(biāo)簽的使用

目的是學(xué)會(huì)使用，所以借助工具可以省好多時(shí)間

1.文件標(biāo)簽：構(gòu)成html最基本的標(biāo)簽

html:html文檔的根標(biāo)簽

head：頭標(biāo)簽。用于引入html文檔的一些屬性。引入外部的一些資源

title：標(biāo)題標(biāo)簽

body：體標(biāo)簽

<!DOCTYPE html>:html5中定義該文檔是html

2.文本標(biāo)簽：和文本有關(guān)的標(biāo)簽

注釋:<!-- 注釋內(nèi)容 –->

<h1> 到<h6>:標(biāo)題標(biāo)簽自帶換行的效果

<p>：表示段落的標(biāo)簽

<br>：換行標(biāo)簽<br/>和<br>的寫法都不會(huì)報(bào)錯(cuò)

<hr>：顯示一條水平線（也是一個(gè)自閉和標(biāo)簽）水平線有一些屬性我們可以控制它的樣式。hr里面表示高度是size而不是height.對(duì)齊方式默認(rèn)是居中的。

<b>：字體加粗

<i>：斜體

<font>:字體標(biāo)簽（通過屬性來修改字體的字號(hào)，大小，顏色，以及字體的樣式）

<center>:文本居然標(biāo)簽

這里講下網(wǎng)頁下面的版權(quán)標(biāo)簽是如何寫出來的。

3.圖片標(biāo)簽：用來展示圖片的（圖片也是一個(gè)自閉合標(biāo)簽）

屬性:src:用來指定圖片的位置

什么都不寫默認(rèn)就是./的形式

../表示上一級(jí)目錄

4.列表標(biāo)簽：

有序列表:ol,li(li表示的是列表的每一項(xiàng))

無序列表:ul,li

5.鏈接標(biāo)簽：

a:定義一個(gè)超鏈接

屬性：

href:指定訪問資源的URL(統(tǒng)一資源定位符，就是路徑的表示形式)

target：（是目標(biāo)的意思）指定打開資源的方式

_self:在當(dāng)前頁面打開

_blank:在空白頁面打開

6.表格標(biāo)簽：在HTML中的表格只有行的概念，沒有列的概念，將表格以行的形式進(jìn)行分割，然后再對(duì)行進(jìn)行操作。

table:定義表格

width:表格的寬度

border:邊框

cellpadding:單元格內(nèi)容左對(duì)齊（定義內(nèi)容和單元格的距離）

cellspacing:邊框合并(定義單元格之間的距離，如果指定為0，單元格的線會(huì)合為一條)

bgcolor:背景色

align:表格的對(duì)齊樣式

tr:定義行

bgcolor:背景色

align:表格的對(duì)齊樣式(是用來修改文本的對(duì)齊方式的)

td:定義單元格

colspan:合并列

rowspan:合并行

th:定義表頭單元格

<caption>:表格標(biāo)題

<thread>:表示表格的頭部分

<tbody>:表示表格的體部分

<tfoot>:表示表格的腳部分

7.塊標(biāo)簽：div和span是結(jié)合css使用的

span:文本信息在一行顯示，行內(nèi)標(biāo)簽，內(nèi)聯(lián)標(biāo)簽(意思就是它不會(huì)換行)

div:是會(huì)換行的。每一個(gè)div占滿一整行。塊級(jí)別的標(biāo)簽

8.語義化標(biāo)簽：html5中為了提高程序的可讀性，提高了一些標(biāo)簽

在線咨詢

上一篇：黑金風(fēng)精美動(dòng)態(tài)大氣商務(wù)PPT模板｜免費(fèi)分享
下一篇：vim技巧：把外部shell命令執(zhí)行結(jié)果寫入文件，將文件轉(zhuǎn)出html格式

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營(yíng)銷服務(wù)商

從圖像中檢測(cè)和識(shí)別表格，北航&amp;amp;微軟提出新型數(shù)據(jù)集TableBank

數(shù)據(jù)收集

文檔獲取

表格檢測(cè)

表結(jié)構(gòu)識(shí)別

基線

表結(jié)構(gòu)識(shí)別

實(shí)驗(yàn)

ode-RED 簡(jiǎn)介

Node-RED 實(shí)例

常用

catch抓取

complete完成的處理

debug調(diào)試

inject觸發(fā)

link鏈接

status狀態(tài)

function功能函數(shù)

change更改

delay延時(shí)

exec執(zhí)行

function函數(shù)

range范圍

switch開關(guān)節(jié)點(diǎn)

template格式化

trigger觸發(fā)

network網(wǎng)絡(luò)

http

tcp

udp

websocket

parser解析

csv

html

json

xml

yaml

sequence序列

batch批量

join合并

sort排序

split拆分

storage存儲(chǔ)

read file讀取文件

watch監(jiān)視

write file寫入文件

您的項(xiàng)目需求

從圖像中檢測(cè)和識(shí)別表格，北航&微軟提出新型數(shù)據(jù)集TableBank