者:CV君
本篇文章盤點WACV2021圖像分割相關論文,包括摳圖、實例、全景、語義分割,自然災害評估等相關應用。值得關注的是有一篇文本摳圖,在以往工作中很少或從未研究過的。
共計 11 篇。如有遺漏,歡迎補充。
下載包含這些論文的 WACV 2021 所有論文:https://mp.weixin.qq.com/s/CT8rBf3NWXIlR1o-wiLjLg
[1].Weakly Supervised Instance Segmentation by Deep Community Learning
文中作者引入一個用于弱監(jiān)督實例分割的深度社區(qū)學習框架,該框架基于一個端到端可訓練的深度神經(jīng)網(wǎng)絡,在目標檢測、實例掩碼生成和目標分割多個任務之間有主動交互。加入兩種有經(jīng)驗的目標定位技術:class-agnostic bounding box regression 和 segmentation proposal generation,且是在沒有完全監(jiān)督的情況下進行的。
所提出的算法在不進行后處理情況下,在標準基準數(shù)據(jù)集上實現(xiàn)了比現(xiàn)有弱監(jiān)督方法大幅提高的性能。
作者 | Jaedong Hwang, Seohyun Kim, Jeany Son, Bohyung Han
單位 | 首爾大學;ETRI
論文 | https://arxiv.org/abs/2001.11207
主頁 | https://cv.snu.ac.kr/research/WSIS_CL/
視頻 | https://v.qq.com/x/page/r3222vgdwcc.html
#WACV 2021##航空影像##實例分割#
[2].MSNet: A Multilevel Instance Segmentation Network for Natural Disaster Damage Assessment in Aerial Videos
MSNet:用于航空視頻自然災害評估的多級實例分割網(wǎng)絡
本文研究通過航空視頻分析,有效評估颶風、洪水或火災等自然災害后的建筑物損失問題。
做出了兩個主要貢獻:
第一個貢獻是一個新的數(shù)據(jù)集,包括來自社交媒體用戶生成的航拍視頻,并帶有實例級的建筑損傷掩碼標注。為利用航拍視頻評估建筑物損傷的模型的定量評估提供了第一個基準。
第二個貢獻是一個新的模型:MSNet,包含了新的區(qū)域 proposal 網(wǎng)絡設計和一個無監(jiān)督的分數(shù)細化網(wǎng)絡,用于邊界盒和掩模分支的置信度分數(shù)校準。
實驗表明,新的模型和新的數(shù)據(jù)集與以前的方法相比,取得了最先進的結果。
作者表示將發(fā)布數(shù)據(jù)、模型和代碼。
作者 | Xiaoyu Zhu, Junwei Liang, Alexander Hauptmann
單位 | 卡內(nèi)基梅隆大學
論文 | https://w.url.cn/s/AC2eIwl
代碼 | https://github.com/zgzxy001/MSNET
[3].Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal and Clustered Embeddings
作者 | Marco Toldo, Umberto Michieli, Pietro Zanuttigh
單位 | 意大利帕多瓦大學
論文 | https://arxiv.org/abs/2011.12616
主頁 | https://lttm.dei.unipd.it/paper_data/UDAclustering/
代碼 | https://github.com/LTTM/UDAclustering
視頻 | https://v.qq.com/x/page/d322263w97s.html
[4].Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection
提出 Detection Aware 3D Semantic Segmentation (DASS) 網(wǎng)絡來解決當前架構的局限性。
DASS 可以在保持高精度鳥瞰(BEV)檢測結果的同時,將幾何相似類的 3D語義分割結果提高到圖像 FOV 的 37.8% IoU。
作者 | Ozan Unal, Luc Van Gool, Dengxin Dai
單位 | 蘇黎世聯(lián)邦理工學院;魯汶大學
論文 | https://arxiv.org/abs/2009.10569
[5].Multi Projection Fusion for Real-Time Semantic Segmentation of 3D LiDAR Point Clouds
本次工作,作者提出全新的 multi-projection 融合框架,通過使用球面和鳥瞰投影,利用 soft voting 機制對結果進行融合,實現(xiàn)點云語義分割。所提出的框架在 SemanticKITTI 數(shù)據(jù)集上的mIoU達到了 55.5,高于最先進的基于single projection 的方法 RangeNet++ 和 PolarNet,比前者快1.6倍,比后者快3.1倍。同時具有更高的 throughput(吞吐量)。
對于未來工作方向,作者稱將兩種 projections 結合成單一的多視圖統(tǒng)一模型,并研究在框架內(nèi)使用兩種以上的 projections 。
作者 | Yara Ali Alnaggar, Mohamed Afifi, Karim Amer, Mohamed Elhelw
單位 | Nile University;
論文 | https://arxiv.org/abs/2011.01974
[6].Shape From Semantic Segmentation via the Geometric Renyi Divergence
作者 | Tatsuro Koizumi, William A. P. Smith
單位 | 約克大學
論文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Koizumi_Shape_From_Semantic_Segmentation_via_the_Geometric_Renyi_Divergence_WACV_2021_paper.pdf
視頻 | https://v.qq.com/x/page/q3222gjy5kv.html
[7].Boosting Monocular Depth With Panoptic Segmentation Maps
作者 | Faraz Saeedan, Stefan Roth
單位 | 達姆施塔特工業(yè)大學
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Saeedan_Boosting_Monocular_Depth_With_Panoptic_Segmentation_Maps_WACV_2021_paper.pdf
[8].Reducing the Annotation Effort for Video Object Segmentation Datasets
為進一步改進視頻目標分割的性能,需要更大、更多樣化、更具挑戰(zhàn)性的數(shù)據(jù)集。然而用像素掩碼對每一幀進行密集標注并不能擴展到大型數(shù)據(jù)集。
因此作者使用深度卷積網(wǎng)絡,從較便宜的邊界框標注中自動創(chuàng)建像素級的偽標簽,并研究這種偽標簽能在多大程度上承載訓練最先進的VOS方法。令人欣喜的是,僅在每個對象的單個視頻幀中添加一個手動標注的掩碼,足以生成偽標簽,用來訓練VOS方法,并達到與完全分割視頻訓練時幾乎相同的性能水平。
基于此,為 TAO 數(shù)據(jù)集的訓練集創(chuàng)建像素偽標簽,手動標注驗證集的一個子集。得到了新的TAO-VOS基準,公布在 https://www.vision.rwth-aachen.de/page/taovos(近期公開)
作者 | Paul Voigtlaender, Lishu Luo, Chun Yuan, Yong Jiang, Bastian Leibe
單位 | 亞琛工業(yè)大學;清華大學
論文 | https://arxiv.org/abs/2011.01142
代碼 | https://www.vision.rwth-aachen.de/page/taovos
備注 | WACV 2021
視頻 | https://v.qq.com/x/page/r322244sxt0.html
[9].Part Segmentation of Unseen Objects using Keypoint Guidance
作者開發(fā)了一種端到端學習方法,利用關鍵點位置引導遷移學習過程,將 pixel-level 目標部分分割從完全標記的目標集遷移到另一個弱標記的目標集。對于部分分割來說,作者證明非參數(shù)化的模板匹配方法比像素分類更有效,特別是對于小的或不太頻繁的部分。
為驗證所提出方法的通用性,作者引入了兩個新的數(shù)據(jù)集,共包含 200 只四足動物,同時具有關鍵點和部分分割標注。并證明所提出方法在訓練過程中使用有限的部分分割標簽,可以在新型物體部分分割任務上以較大的優(yōu)勢優(yōu)于現(xiàn)有模型。
作者 | Shujon Naha, Qingyang Xiao, Prianka Banik, Md. Alimoor Reza, David J. Crandall
單位 | 印第安那大學藝術科學學院
論文 | https://openaccess.thecvf.com/content/WACV2021/papers/Naha_Part_Segmentation_of_Unseen_Objects_Using_Keypoint_Guidance_WACV_2021_paper.pdf
數(shù)據(jù)集 | http://vision.sice.indiana.edu/animal-pose-part/
Towards Enhancing Fine-Grained Details for Image Matting
提出一個關于圖像摳圖問題的新觀點,明確地將這個任務分為兩個部分:一個是提取高級語義線索的語義部分,另一個是提供精細細節(jié)和低級紋理線索的紋理補償部分。
基于這一點,提出一種新的深度圖像摳圖方法,明確定義了兩條路徑:編碼器-解碼器語義路徑和無下采樣紋理補償路徑。進一步提出了一個新的損失項,幫助網(wǎng)絡緩解不準確的trimap問題,更好地檢測那些 "純 "背景部分。
所提出的方法在具有挑戰(zhàn)性的Adobe Composition1k測試數(shù)據(jù)集上實現(xiàn)了新的最先進的性能。
作者 | Chang Liu, Henghui Ding, Xudong Jiang
單位 | 南洋理工大學
論文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Liu_Towards_Enhancing_Fine-Grained_Details_for_Image_Matting_WACV_2021_paper.pdf
ATM: Attentional Text Matting
本次研究,作者嘗試解決從圖像背景中提取字符(通常為WordArts)的 Text Matting(文本摳圖)問題。與傳統(tǒng)的圖像摳圖問題不同,文本摳圖的難度要大得多,因為它的前景有三個特性:小、多目標、結構和邊界復雜。
方案是提出一個兩階注意力文本摳圖 pipeline,作者稱是首個文本摳圖方法。構建了一個文本摳圖圖像合成引擎,并合成了一個具有多樣性大規(guī)模的高質(zhì)量文本摳圖數(shù)據(jù)集。
在合成和真實圖像數(shù)據(jù)集上進行了大量實驗,證明所提出方法比最先進的圖像摳圖方法在文本摳圖任務上的優(yōu)越性。
作者 | Peng Kang, Jianping Zhang, Chen Ma, Guiling Sun
單位 | 美國西北大學;加拿大麥吉爾大學;南開大學
論文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Kang_ATM_Attentional_Text_Matting_WACV_2021_paper.pdf
代碼 | https://github.com/TextMatting/TextMatting
編輯:CV君
轉載請聯(lián)系本公眾號授權
. x(?=y):先行斷言,匹配x并且x后面有個y,y不作為匹配結果的一部分
2. (?<=y)x:后行斷言,匹配x并且x前面有個y,y不作為匹配結果的一部分
*請認真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。