Data Cleaning up by SPSS

神掌打通任督二脈‧易筋經以簡馭繁

符號意義:統雄快訣統雄快訣 延伸閱讀延伸閱讀 進階議題進階議題 警示訊息警示訊息

資料分析的程序

SPSS 簡介

sav:資料檔

變項檢視介面

資料檢視介面

sps:程式檔

spv/spo:輸出檔

樣本代表性檢定

量表信度檢定

單變項分析

雙變項分析

多變項分析

統計研討篇


資料分析的程序應包括:1.對象(樣本代表性)分析。2.測量工具(量表信度/效度)分析。3.理論建構檢定與分析:又包括:(1)整體分析(單變項分析)(2)交叉分析(雙變項分析)(3)進階理論模型建構(多變項分析)。SPSS的檔案、介面、與資料操作。SPSS的副檔名包括:sav:資料檔,sps:程式檔,spo:輸出檔。資料檔的介面有:變項檢視介面,資料檢視介面。下載SPSS範例,進行實作。


SPSS 範例檔案下載

以下介紹使用SPSS達成所有分析步驟的過程。

下載SPSS範例資料下載SPSS高等統計範例資料(右鍵下載)Analy-SPSS-Teaching.exe

下載SPSS範例資料下載SPSS多變項分析範例資料(右鍵下載)Analy-SPSS-Teaching-Multi.rar

下載SPSS範例資料下載SPSS統計與多變項習題資料(右鍵下載)Analy-SPSS-Multi_Ex.7z

下載SPSS範例資料下載SPSS範例資料(教材專區)Analy-SPSS-Teaching.exe

下載SPSS範例資料下載範例資料(教材專區):Analy-SPSS-Teaching-Multi.exe


SPSS 資料清理包括2部分:〈變項檢視〉與 〈資料檢視〉。

〈變項檢視〉清理

〈變項檢視〉所有欄位,都必須檢查相關設定。尤其以下欄位,特別容易出現錯誤。

〉類型

影響類別資料、或連續資料;若選「數字的」,可兩用。

〉小數

如果使用 Dummy Value ,不用小數。

〉標記

避免誤漏,以利報表閱讀。

〉值

避免誤漏,以利分析。

〉遺漏

設定自訂值,否則只有系統預設 Missing。

〉測量

影響類別資料、或連續資料;若選「尺度」,可兩用。

〈資料檢視〉清理

〈資料檢視〉之清理,如統雄老師以下之專文。


資料分析的基礎是研究方法的資料收集

本系列所附之SPSS統計與多變項習題資料(Analy-SPSS-Multi_Ex.7z)與  SPSS統計與多變項習題資料Analy-SPSS-Multi_Ex.7z)學習實作教材,也作為「資料分析的基礎是研究方法的資料收集」的印證。

教材的來源,是教育部遴選4校的合作研究,包括3所國立大學:臺×、交×、雲×,與世新大學。3所國立大學皆由特聘教授領軍,而世新由統雄老師擔任主持人。

在研究方法規畫過程中,3校習於長期習慣,與統雄老師的諸多改革建議並不相同。這是合作研究,故統雄老師都尊重國立3校的選擇。

在使用國立3校主導研究方法的資料集,有深度能力的分析者,應可發現以下的問題:

●可收集連續資料的變項,卻收集為類別資料,降低可分析深度,且不可逆。

●連續資料轉為類別資料,應以「陡階檢驗」為之,主觀分類易造成未來列聯表出現細格為0狀況。

●同一變項,所收集資料類型卻同時包括連續資料的變項、與類別資料。

●變項的Dummy Value 虛擬值,未具數線觀念。

●missing value 迷失值/遺漏值設定不周全、不完整。

●對「行為測量」有誤解,以為使用「態度量表」問受訪者,就是行為測量。其實還是態度測量,而非可物理化測量的真正行為測量。

這些都限制資料分析的深度,資料也不易持續可作長期比較分析之用。

另外,如將自變項放在前面,也是相對較不理想的設計。

故研究資料如係外來資料,必須先經過「資料清理」程序。

資料清理實作

資料清理實作教材,來源為2所頂尖大學、多位講座教授主導之研究,唯當前研究生態,光環組織之研究,在實質上、研究方法的程度上,相當比例均未達應有標準,資料集內的問題甚多,舉例如下。

類別資料與連續資料混淆

習題資料的 gb4_n 項:平日網路使用時間(分組)

其「值」的選項設定為:

前1~6,為1~6小時,是為連續資料。

而接續的選項為;

7:7-8小時

8:9-10小時

9:11-15小時

10:超過15小時

亦即 7~10 變成具備「等序」性質的類別資料。

固然 1~10 的資料,還是可「視為」「準」連續資料,以連續資料統計工具分析,但失去了資料的精致深度,與可能可觀察的廣度。 

主觀/不當分組

以上的例子,也存在因主觀、或不當分組的因素。

為何7、8 選項的級距是2小時?第9項又變成5小時?均是主觀認定的結果。

在實務上,如果有特殊原因,一定要分組,也應該使用「陡階檢定」等方法分組。 

未設定迷失(遺漏)值/區間設定法

以上的例子,還有一個選項:

99:未答

卻未在「變數檢視」「遺漏」欄中,設定99為迷失(遺漏)值,由於99遠大於「最大真實值」的10,故會造成分析嚴重的錯誤。

最佳的設定法,是將迷失(遺漏)值設為區間:

11 - 99

同時可以避免發生人為輸入不存在選項的錯誤。

故在統計分析前,均應先作資料清理。也建議學習者,在資料集內,再找出問題。

研究生態:社會相信?還是理性抉擇?

研究是一種有門檻的行為。

當我們懂一件事情的時候,我們會有理性抉擇、會依據證據判斷好壞。

我們不懂一件事情的時候,我們經常以社會相信、也就是形象光環決定。

研究方法與資料分析的品質差異,希望習作者也能在實作中深深體會。

回頁首 Up to page head 至相關主題 Go to related pages
上一頁 Back to previous page 回頁首 Up to page head 下一頁 Go to nex page  

統雄數學神掌系列目錄
分享意見反映
統計教學的內涵與取向
高考統計考題的解析
微積分精華篇
微積分思想篇
微積分進階精華篇
統計/數學符號與其英語讀法
資料型態與視覺呈現
敘述統計
機率論與機率分配
推論統計學精華篇
t分配與 t檢定
推論統計‧理論建構
資料分析程序與SPSS基礎
SPSS 資料清理
SPSS 轉換:Recode 重新編碼
SPSS 轉換:Compute 建構新變項
SPSS 選擇觀察值_SPSS 資料庫管理
樣本代表性檢定
單變項:類別_二元資料/百分比分析-詮釋
單變項:類別_二元資料/百分比推論-應用
單變項分析:連續資料_描述與估計推論
單變項連續資料的視覺檢視:變項清理與啟發
卡方分析(雙向)
多向卡方分析
列聯表樞紐分析
單向卡方分析
變異數分析(單因子):詮釋
變異數分析(單因子):應用
簡單迴歸/相關分析:詮釋
簡單迴歸/相關分析:應用
對數/邏輯相關分析
測量工具信度/效度分析
量表信度 檢定
量表效標關聯效度 檢定
探索式因素分析 (EFA):詮釋與實作
探索式因素分析 (EFA):應用進階
因素效度分析_CFA:詮釋
因素效度分析_CFA:應用
多變項分析精華篇
多元迴歸分析:詮釋
多元迴歸分析:應用
一般線性模型精華篇
廣義線性模型
雙因子/多因子變異數分析
調節模型與交互作用詮釋
調節模型分析與建構
SPSS 統計圖應用:調節模型檢定
共變數分析/詮釋
共變模型建構/應用
因果模型與因果邏輯
中介模型分析
因徑/SEM:模型詮釋與因果邏輯
因徑/SEM:探索式因徑模型建構
因徑/SEM:驗證式結構方程解析
多變項分析實例SEM
多變項分析實例SEM+調節篇
因徑/結構方程SEM:反省
無母數統計
統計研討篇
專題-卜豐投針實驗
專題-機率與統計悖論
1類知識計量工具
2類知識計量工具
3類知識計量工具
非等機率知識體系建構
TX空時座標建構
一般取用測量
信仰取用測量
研究方法/民調市調系列
請點這裡看所有留言分類 Please click here to view categories of comments
同類別內相關主題