數據科學 - 動作識別數據集簡介

運籌OR帷幄』原創

作者：周巖

編者按：動作識別的研究主要基于對視頻數據的識別，其中主要包含動作識別（如手勢識別，運動識別等），目標識別和姿態預測幾個子方向。所有這些方向的研究都離不開有代表性的視頻數據。不同于圖像識別領域有MNIST和ImageNet等十分成熟常用的數據集，動作識別領域的數據集比較有限，而且通常所占用的硬盤空間比較大，因此在開展相關研究之前，仔細選擇一個合適的數據集顯得十分必要。

動作識別（Action Recognition）是最近計算機視覺領域比較火的一個Topic，近年來有越來越多的相關文章出現在CVPR、ICCV和NIPS等機器學習和計算機視覺頂會上。這里就有一個Github的repo（https://github.com/jinwchoi/awesome-action-recognition）總結和整理了動作識別領域的相關研究工作和數據資源。

動作識別的研究主要基于對視頻數據的識別，其中主要包含動作識別（如手勢識別，運動識別等），目標識別和姿態預測幾個子方向。所有這些方向的研究都離不開有代表性的視頻數據。不同于圖像識別領域有MNIST和ImageNet等十分成熟常用的數據集，動作識別領域的數據集比較有限，而且通常所占用的硬盤空間比較大，因此在開展相關研究之前，仔細選擇一個合適的數據集顯得十分必要。

獲取對自己研究合適的視頻數據集可能需要花大量的帶寬資源和硬盤資源下載，本文就動作識別領域目前有的公開數據集進行了深入研究，詳細了介紹了一下各個數據集的特點，讀者可以在本文的幫助下，根據自身的需要選擇合適的數據集下載。

1、經典數據集

KTH(http://www.nada.kth.se/cvap/actions/):

經典的動作識別數據集，也是目前文章中使用率較高的數據集之一。數據集一共包含2391組數據，其中包含6個動作，每個動作由25個人物在4個不同的場景下完成，因此一共有600個視頻序列，每個視頻又可以分割成4個子序列。KTH數據集的動作比較規范，同時采用固定鏡頭，數量對于目前的模型訓練來說也比較豐富，所以對應單純進行動作識別的任務可以說是非常好用的數據集了。同時，KTH在GitHub的處理的開源程序有很多，可以隨時根據自己的需要進行參考。

Weizmann(http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html):

另一組比較經典的數據集，數據同樣是固定鏡頭下的10個典型動作的視頻，同時數據集提供了一些帶有其他物體的動作作為干擾，可以測試模型的魯棒性。

官方同時提供了去除背景的程序，但是數據集的數據量比較少的90組常規數據和21組魯棒測試數據，對于目前的模型訓練來說顯得有些不足，不過對于本來就需要用小數據的模型比如遷移學習或者One-short Learning來說或許是適合的數據集。

Inria XMAS(http://4drepository.inrialpes.fr/public/viewgroup/6)：
這組數據主要提供了同一個動作在多組鏡頭角度下的視頻數據，可以說是簡單的動態背景。數據集提供了11名演員每人3次的13個日常動作，演員們自由選擇位置和方向。這個數據集的下載比較特殊，需要通過wget來下載。

UCF sports action dataset( https://www.crcv.ucf.edu/data/UCF_Sports_Action.php):

一個主要關于運動的數據集，這個數據集也是質量比較高的數據集，主要為13個常規的運動動作。但是美中不足的同樣是每種數據的數量都比較少，不過這個數據集出了一些后續的數據集比如UCF-50（http://crcv.ucf.edu/data/UCF50.php）和UCF-101（http://crcv.ucf.edu/data/UCF101.php）等。

Hollywood human action dataset.(https://www.di.ens.fr/~laptev/actions/):

根據好萊塢電影鏡頭剪輯出來的數據集，這個數據集包含475個視頻，數據量上有一定的保證，但是這個數據集有個特點就是電影鏡頭往往不是單一的動作，而且很多動作同時混合在一起，同時背景由于鏡頭切換會有非連續的情況出現，或許這樣的情況會對模型的訓練造成影響。另外這組數據還在后續提供了更大數據量的數據集：https://www.di.ens.fr/~laptev/actions/hollywood2/。

總結：以上就是對經典數據集的介紹，經典數據集的數據量普遍比較少，而且場景也相對簡單，而且提出的時間通常在2000前后，視頻的分辨率也普遍偏低，更詳細的介紹可以參考2014年的一篇綜述文章：A survey on vision-based human action recognition。

2、中等規模的數據集

HMDB（http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads）：

這個數據集一共有51個類別，平均每個類別有100-200組數據。從數據量和類別上來看可以看到是具有比較豐富的數據的，但是這個數據集也是由一些電影鏡頭和日常的攝像機拍攝的視頻為主，所以背景相對復雜，同樣有動態鏡頭和切換鏡頭的視頻。因此這個數據集更適合目標識別和目標檢測。

SVW（http://cvlab.cse.msu.edu/project-svw.html ）：這個數據集的特點是適合多種形式的任務，可以作為目標檢測也可以作為動作識別。目前這個數據官方提供了matlab程序來分割視頻（不過親身實踐后發現程序有一些bug需要調試），數據集一共包含30個種類的數據，經過分割后會有更多的類別可供動作識別來用。這個數據的背景也有一些是移動狀態下的，但是總體來說對于識別是中等規模數據集中比較合適的。

總結：中等規模的數據集普遍具有相對與經典數據集更多的數據量，而且在類別上也更多，這也體現了隨著計算規模的發展，可以建立的預測模型越來越復雜，可以處理更復雜的任務。

3、適用于深度學習的大規模數據集

ActivityNet（https://github.com/activitynet）：Google在2016年出品的數據集，數據的來源主要是Youtube，帶有很強的深度學習背景，數據量很大，需要通過官方提供的程序自行下載，官網提供的數據僅為數據的Youtube地址。由于數據主要來源于Youtube，所以這個數據集相對更復雜，更適合目標檢測。但是通過動作檢測提取后的數據更適合動作識別數據集。

20BN-jester（https://20bn.com/datasets/jester/v1#download）：手勢識別數據集，視頻的背景比較固定，動作也更單純，所以更適合直接應用與動作識別。同時，數據量和類別也很充足，更值得一提的是，數據是以jpeg存儲的，所以在讀取數據時甚至可以不通過OpenCV這樣的框架就可以處理數據。另外，網站還提供了基于物體的動作識別，這兩組數據對于實際的應用場景會更有意義。

NTU RGB+D（http://rose1.ntu.edu.sg/datasets/actionrecognition.asp）：

該數據集提供了豐富的數據量，并且視頻的背景相對固定，很適合進行動作識別，同時數據的特點是同時提供了RGB，深度和骨骼視頻。數據集的全部數據高達1.3TB，并且后續有更豐富的數據集提供（"NTU RGB+D 120"），但是這個數據的下載需要通過網站申請賬號，但是一天之內會有回復（仔細填寫一般都可以通過）。

總結：大規模數據集的特點主要是數據量比較大，類別也更多，并且網站上普遍不能提供直接的下載，而是通過提供類似爬蟲程序的方式下載。這類數據主要以近3-5年出現的數據集為主數據的大小普遍在GB甚至TB級，需要用深度模型和更強算力的機器來建立模型處理。

4、特定場景的數據集

以上都是一些比較有名的開源數據集，常常用來做算法的benchmark。那么針對一些實際的應用場景，我們往往還需要一些特殊的數據集。這樣的小眾數據集有很多，我們不一一來收集做介紹，這里只是舉例介紹其中的一個。

Distracted Driver Detection是一個司機狀態檢測數據集，包含10個狀態，共22425張圖。大小4G。（數據文末回復關鍵詞可見）

數據集地址：

https//www.kaggle.com/c/state-farm-distracted-driver-detection/data

每年很多的交通事故的發生都是因為司機沒有專注于自動駕駛，因此一個好的輔助駕駛系統不僅要關注車外的情況，也要時刻關注車內駕駛員的情況。

這一個數據集來自kaggle平臺，包含了10種狀態，如下：

c0:safe driving

c1:texting-right

c2:talking on the phone-right

c3:texting-left

c4:talking on the phone-left

c5:operating the ratio

c6:drinking

c7:reaching behind

c8:hair and makeup

c9:talking on passenger

一些樣本如下，每一類約2000多張圖像，共22425張圖。

最后總結：

這篇文章主要對動作識別領域的一部分數據集做了一些基本的介紹和探討，很多數據也沒有實際的處理和應用，所以并不夠深入，但是也希望這篇文章能起到一個拋磚引玉的作用，更詳細的介紹可以直接去數據集的官網閱讀說明并下載研究。如何組織好自己的數據為算法提供支撐是做研究的關鍵一步，最后小編希望大家可以通過這些數據做出更精彩的成果。

023年12月29日，嵐山區行政審批服務局發布日照市嵐山通用機場有限公司日照市嵐山通用機場建設工程環境影響報告書第一次信息公開

根據《環境影響評價公眾參與辦法》（部令第4號）、《關于發布<環境影響評價公眾參與辦法>配套文件的公告的相關要求》（生態環境部公告2018年第48號），對日照市嵐山通用機場有限公司日照市嵐山通用機場建設工程環境影響評價進行公眾參與信息公示，使項目建設可能影響區域內的公眾對項目建設情況有所了解，并通過公示了解社會公眾對建設項目的態度和建議，接受社會公眾的監督。

一、建設項目概況

項目名稱：日照市嵐山通用機場建設工程

建設地點：日照市嵐山區安東衛街道玉泉二路以南，多島海大道以西，繡針河以東。

建設單位：日照市嵐山通用機場有限公司

建設內容：總投資19789萬元，跑道基準點坐標點為N35°05′14.36″，E119°18′2.04″，跑道真方位164°~344°。機場等級為A2類通用機場，飛行區等級為2B，主要建設內容為：一條長950米、寬30米跑道，跑道東側平行設置長950米、寬10.5米的滑行道；機坪總面積22425平方米、布設機位16個；機坪及滑行道與跑道間設置4條長52米、寬10.5米聯終道；航站區建筑物總建筑面積10695平方米，相應的供電、通信、消防救援、給排水等相關配套工程，以及飛行區圍界、場區道路等附屬設施。

二、建設單位名稱和聯系方式

建設單位：日照市嵐山通用機場有限公司

聯系人：牟總聯系電話：18006335001

三、環境影響報告書編制單位名稱

編制單位：綠之緣環境產業集團有限公司

四、公眾意見表鏈接

建設項目環境影響評價公眾意見表網絡鏈接：http://www.mee.gov.cn/xxgk2018/xxgk/xxgk01/201810/t20181024_665329.html

五、提交公眾意見表的方式和途徑

（1）電子版公眾意見表，提交建設單位郵箱：18006335001@163.com；

（2）紙版公眾意見表，提交日照市嵐山通用機場有限公司，聯系人牟總。

來源：日照市嵐山區人民政府網站