正確的數據格式是進行數據分析的基礎,最近SPSSAU后臺收到了很多小伙伴有關上傳數據格式的提問——
正確的數據格式是怎樣的?
特定方法所需的數據格式是怎樣的?
如何上傳帶數據標簽的數據?
為什么數據上傳后與預期不一致無法正常顯示?——多數由于存在合并單元格
為什么上傳提示“無有效數據”?——多數由于數據未放在sheet1中
為解答這些普遍存在的困惑,本文將對數據分析常用方法中具有代表性的分析方法所需的數據格式進行系統梳理和詳細說明,幫助研究者更有效地開展數據分析工作。
下面本文將分模塊介紹以下30+常用方法數據格式,大家可以先收藏,等后續分析要用到哪種方法再來對照查看該方法的數據格式即可。
一、規范格式說明
?1、原始數據格式
我們在進行數據分析時,最常見的數據格式是原始數據格式。
下圖是一份常見的原始數據,它的特點是:一行代表一個樣本,一列代表一個變量。調查有多少樣本,就需要錄入多少行數據;如果調查了500個樣本,那么就需要錄入500行數據。每一行代表每個樣本收集的所有數據,每一列代表每個變量的所有數據。
絕大多數分析方法都是使用原始數據格式上傳分析的,例如SPSSAU中計量經濟研究模塊、機器學習模塊、空間計量模塊中的絕大多數方法都是上傳原始數據格式即可。
?2、加權數據格式
除原始數據格式外,還有一些分析方法還會使用到加權數據格式,在醫學/實驗研究中,很多時候只有匯總數據,即帶加權項的數據,如卡方檢驗等。下圖為卡方檢驗的加權數據,加權數據格式的特點是:基本只針對全部為定類數據的研究時使用,且只提供匯總數據,不提供原始數據。
上傳提示“無有效數據”或上傳數據與預期不一致怎么辦?
如果提示無有效數據等,請按以下幾步檢查。
第一:如果EXCEL上傳,數據應該放在第一個工作表里面,如果不是請調整后再上傳。
第二:EXCEL數據中不能合并單元格,如果有合并單元格,請取消合并。
第三:數據第1行一定是標題,如果本該有標題但是為空,請處理后再上傳。
3、帶數據標簽的數據格式
如何上傳帶‘數據標簽’的數據文檔?如果說希望上傳數據的時候直接上傳數據標簽,而不是通過“數據處理->數據標簽”單獨設置。那么可以在上傳的EXCEL工作里面包括兩個工作表名稱,第1個是‘data’,第2個是‘tags’。‘data’里面放數據,‘tags’里面放置標簽,標簽的格式說明如下說明和圖示:
一共包括ABC共3列,分別是‘標題’、‘數字’和‘標簽’;
‘標題’列放置標題,標題僅在第一次出現時才會顯示,而且不能有完全相同一模一樣的標題,否則可能會出現解析會出錯;
‘數字列’放置數字;‘標簽列’放置對應數字的標簽信息;
進行數據分析時,單單掌握原始數據格式和加權數據格式還是不夠的,接下來從數據分析幾大模塊分別介紹一些典型的分析方法的數據格式。
二、差異性分析方法
數據分析常用的差異性分析方法有方差分析、t檢驗、卡方檢驗,數據格式如下說明。
?1、方差分析、t檢驗
方差分析和t檢驗都是常見研究不同組別之間差異性的方法,比如不同學歷時收入的差異。那么數據中就一定要包括不同組別X(如學歷)和分析項Y(如收入)。
有時候只有分析項(比如3個分析項),但是現在希望對比這3個分析項的差異,那么就需要對數據進行改造,自己加入一列‘組別’,然后把數據重疊起來得到分析項Y,類似如下圖:
提示:方差分析(單因素方差)與t檢驗的區別在于t檢驗只能對比兩類數據之間的差異,而方差分析可對比多組數據之間的差異,但二者數據格式類似。
2、卡方檢驗
卡方檢驗用于研究X與Y之間的差異性,并且X與Y均為定類數據。使用SPSSAU中的卡方檢驗進行研究時,支持常規數據格式和加權數據格式兩種形式。常規數據格式適用于原始數據,加權數據格式適用于只有匯總數據的情況。
加權數據格式說明如下:比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,數據信息只有6種組別的匯總項(即加權項),分別是40,10,20,30,20,50;相當于總共有170個樣本。整理為加權格式即只需要錄入6行即可。
除了卡方檢驗外,還有一些方法支持加權數據格式,如下:
3、配對t檢驗
配對數據的格式比較特殊,例如研究實驗組與對照組之間的差異,常見的配對數據研究方法比如配對樣本t檢驗、配對卡方、配對樣本檢驗等。數據格式如下圖:
配對數據一般是在實驗時使用,而且配對數據的特點為:行數一定完全相等并且只有兩列。
如果研究數據的行數不相等,那可能不是配對數據,如果還想對比差異,可能需要使用獨立t檢驗。
4、重復測量方差
重復測量數據是指同一批樣本(病例)在不同的時間點測量了多次數據,因此重復測量數據的特殊之處在于一定會有ID號(即樣本或者病例號),以及時間點數據。
如下圖:同一個ID會有多個時間點的數據,比如下面有12個樣本(12個ID號),并且測量5個時間點。那么就一定會有12*5=60行數據。同一個ID號會重復5次,同一個時間點會重復12次。
三、影響關系分析方法
影響關系研究時,最常用的方法就是各類回歸分析。絕大多數回歸分析的數據格式都是原始數據格式(即一列代表一個指標,一行代表一個樣本),但也有些比較特殊的。
1、多元線性回歸
多元線性回歸分析用于研究自變量X對因變量Y的影響關系情況,通常自變量個數不止一個,數據格式如下:
2、條件logit回歸
條件logit回歸時,配對編號ID用于標識ID,而且是配對,因此一個ID會出現多次,比如1:1配對,那么1個ID就會出現2次(1:2配對時,1個ID就會出現3次);因變量Y一定只能包括數字0和1,類似數據格式如下圖:
3、面板模型
面板模型是針對面板數據進行分析,面板數據是一種特殊的數據格式。比如當前研究100家公司5年的財務數據。100家公司,每家5年,最終會有100*5=500行數據。使用SPSSAU進行分析時,‘個體ID’就是下圖中的‘公司編號’,‘時間’就是下圖中的‘年份’。‘公司編號’一般是指上市公司的股票代碼,也或者只是個編號均可;‘年份’一般是指年或者時間點。‘公司編號’和‘年份’兩項共同用于告訴系統當前為面板數據,通常無其它意義。
4、Cox回歸
Cox回歸生存分析時,因變量包括兩項,分別是Y1生成時間和Y2生存狀態,Y2生存狀態一定只能包括2個數字分別是0和1,至于X或分層項的數據特征不固定,分層項在分析時為可選,沒有也沒關系,類似數據格式如下圖:
四、問卷題數據格式
問卷的數據格式比較特殊,如果是通過問卷星/問卷網/騰訊問卷在網上收集的問卷,可以直接下載CSV格式或者SPSS格式,下載后直接上傳到SPSSAU系統進行分析。具體網上問卷下載以及上傳方法可以參考幫助手冊說明:SPSSAU上傳數據
下面對線下收集的紙質問卷需要整理的數據格式進行說明,包括常見的單選、多選、量表題的數據格式。
1、單選題
單選題一列代表一個指標,一行代表一個樣本,數字代表被選項。例如下圖樣本1代表性別為選項2(女士),年齡為選項4(41-50歲)。
2、多選題
問卷研究時會使用到多選題,多選題的數據格式比較特殊,一列代表一個多選題的選項。比如一個多選題有4個選項,那么其數據中就會有4列,分別代表4個選項。而且使用數字1表示選中,數字0表示沒有選中。如下圖:
3、量表題
量表題與單選題類似,如下圖:
五、綜合評價方法
綜合評價時通常包括兩大方面:權重計算和綜合評價。權重計算最常用方法有AHP層次分析法、熵值法;綜合評價常用方法有模糊綜合評價、灰色關聯法、TOPSIS法和熵權TOPSIS法。分別進行說明。
1、AHP層次分析法
AHP層次分析法的數據格式(即判斷矩陣)最為特殊,如下圖,研究人員可修改指標項名稱,以及白色單元格內的數字即可。判斷矩陣是‘ 下三角 ’ 完全對稱矩陣,因此‘ 白色 ’ 底紋處的信息變化時,‘ 藍色 ’ 背景的信息會自動變化。
2、熵值法
熵值法用于指標的權重情況。1個指標占用1列數據。下圖中樣本編號只是個編號無實際意義,用于標識下樣本的ID號,一般是比如年份一類的數據信息,分析時并不需要使用。
如果是面板數據希望進行熵值法,其數據格式如下圖所示,比如有100家公司分別5年的指標數據,那么一共就有100*5=500行數據。數據格式上需要如此,但在分析時只需要放入‘指標列’數據即可。
3、模糊綜合評價
模糊綜合評價是對具有多種屬性的事物,綜合各因素作出一個總體評價。上傳的數據一般包括三個部分:指標項、指標項權重、評價項,數據格式如下圖:
4、灰色關聯法
灰色關聯法研究數據之間的關聯程度,即特征序列與母序列的關聯性情況。母序列單獨使用一列標識,每個特征序列都使用1列標識。下圖中樣本編號只是個編號無實際意義,用于標識下樣本的ID號,一般是比如年份一類的數據信息,分析時并不需要使用。
5、TOPSIS法&熵權TOPSIS法
TOPSIS法和熵權TOPSIS法用于研究指標與理想解的接近度情況。1個指標占用1列數據,1個研究對象為1行,但研究對象在分析時并不需要使用,SPSSAU默認會從上到下依次編號。
六、一致性檢驗方法
一致性檢驗用于判斷不同的模型或者分析方法在產出結果上是否具有一致性、模型的結果與實際結果是否具有一致性等。常用方法有Kappa一致性檢驗、ICC組內相關系數、Bland-Altman圖等。
1、Kappa一致性檢驗
Kappa一致性檢驗數據格式上,SPSSAU支持‘加權’和‘不加權’兩種格式。如果是‘加權’格式如下圖:A列和B列分別代表2個措施(醫生),單獨用一列標識對應醫生診斷的病例數量。‘加權’格式時,一定需要把權重加權項放入對應的框中才可以。如果是‘不加權’格式,那么沒有權重列。只需要兩列原始數據即可。
2、ICC組內相關系數
ICC組內相關系數通常可用于重測信度分析等,比如有3個醫生對于5個病人的智商打分一致性。那么需要有3個醫生的數據,1個醫生為1列即可,其格式類似于配對數據,如下圖所示:
3、Bland-Altman圖
例如當前有醫生使用兩種方法分別做一項實驗,現需要對第1種和第2種方法共兩種方法的測量數據進行一致性檢驗;如果有分組數據,例如研究不同性別,此時只需要把性別group放入對應框中即可,數據格式如下:
七、現狀政策類方法
現狀政策類分析主要用于分析政策實施的效果和影響,旨在評估特定政策或干預措施對目標群體或現象的實際作用,常用方法如DID雙重差分法、傾向得分匹配法等。
1、DID雙重差分法
如果是進行雙重差分DID分析,那么Treated地區(0代表A類地區即控制組,1代表B類地區即實驗組)和time政策實施前后(0代表實施前,1代表實施后))數據只能包括數字0或者1,并且有對應的被解釋變量Y,至于控制變量可有可無,由實際研究情況而定。
如果是多期DID數據,treated只能為數字0或1,數字0標識‘控制組’,數字1標識‘實驗組’;time只能為數字0或1,數字0標識‘before’(實驗前),數字1標識‘after(實驗后)。Treate*time即為交互項,可使用SPSSAU數據處理->生成變量->乘積得到,格式類似如下圖:
2、傾向得分匹配
傾向得分匹配時,研究變量一定只能包括數字0和1,特征項的數據特征并無特別要求,類似數據格式如下圖:
3、Dagum基尼系數
Dagum基尼系數是傳統基尼系數的升級,用于衡量和評估收入或財富分配的不平等程度。分析時一定需要有計算項(比如人均GDP),至于group項和時間項可有可無,但通常二者均會有。Group項一般為地區,時間項一般為年份。Group項放入后會進行組間PK,放入時間項時,會循環輸出不同時間項的計算結果。數據格式如下:
4、泰爾指數
泰爾指數是一種衡量‘不平均’的指數,比如用于衡量‘貧富差異’。如果是進行泰爾指數計算,通常會涉及group項,比如區域(華北、華南、華東、西南、東北)其層次最高,也或者區域的下一層次省份group(北京、天津、河北、上海、浙江等),以及具體最小單位粒度城市,及其對應的GDP/人口信息數據等。一行代表一個最小粒度1個時間點(通常1年)的數據。類似結果如下圖:
八、文本分析
文本分析是針對文本數據進行研究和分析使用,SPSSAU文本分析包括詞云分析、文本情感分析、文本聚類分析、社會網絡關系分析、LDA主題分析等。
如果是通過excel格式(包括csv/xls/xlsx格式)時,只需要1列數據,將文本全部放置于A列中,A列不需要有標題信息。每行(即每個單元格)存在1個分析文本。類似如下圖所示:
如果是txt文檔或者粘貼文本進行上傳,那么系統會自動過濾掉空行數據,并且以回車鍵作為每行(即每個分析文本)標志。
以上即為今天常用方法數據格式的全部內容,更多特殊分析方法的數據格式,可以在SPSSAU常見研究方法數據格式說明的幫助手冊進行查詢(幫助手冊頁面按Ctrl+F 查詢)
*請認真填寫需求信息,我們會在24小時內與您取得聯系。