
在「公主招親」實驗中,我們回答了「繡球公主是把終身託付命運?還是公主其實有選擇權呢?」的問題,也就是「抽樣原理」的基礎。我們再把實驗發現,整理成以下簡潔的提要。進一步解說,請閱本系列後續單元。
1.抽樣的目的
從樣本推論母群。
以少數猜測全體:以簡馭繁、知微見著。
在「公主招親」實驗中,我們證明了不需要打開看恐怖箱,也可以靠抽選少數樣本,猜中恐怖箱的內容。
猜中,就是能夠從樣本「推論」母群-即全體的現象。
但是,並不是每個人都可以猜中、每組樣本都可以推論。
可以推論有3前提:具備隨機性/等機率性、達到最適樣本數、正確的抽樣的技術。
2.抽樣可推論的前提1-隨機性/等機率性
樣本必須符合隨機性,才可以推論。
「隨機性」的中譯非常難懂,其定義就是:每個樣本都有平均被抽中的機會。
那實務上如何達成隨機性呢?具體的條件就是:掌握完整的母群清冊(Sampling frame)。
母群清冊是指所有樣本的集合,在「公主招親」實驗中,恐怖箱就是母群清冊。
第1位抽恐怖箱的男士,因為並非所有的樣本都在恐怖箱內,亦即母群清冊不完整、不符合隨機性,所以絕對抽不準,沒有推論能力。
基於「科學中文化」的觀點,統雄老師建議,將「隨機性」改翻譯為「等機率性」。
3.抽樣可推論的前提2-樣本數
與樣本數有關。
隨樣本數增加而提升準確性。
不可太少。
第2位抽恐怖箱的男士,也絕對抽不準,就是樣本太少的緣故。
但,什麼叫做「太少」?
就是統計上的「顯著性考驗」,沒有達到顯著水準,就反映樣本數太少,觀察值可能與母群真實值不同;亦即:觀察樣本的「大」,不一定母群「大」;觀察的樣本「小」,不一定母群「小」。
「顯著性考驗」只是考驗樣本數夠不夠進行推論,而不是「重不重要」!未達顯著性就是觀察錯誤,樣本統計值是誤差造成的,沒有繼續討論的必要。而到達顯著性,才可就樣本的統計值推論、詮釋其意義。
所以,再次提醒:推論統計不是狹義的(Euclid-Newton)數學,測量對象的特質不一樣、預測的目的不一樣。統計測量的對象應符常態分配或機率性質,預測的目的是區間預測、或推論母群的性質。
4.抽樣可推論的前提3-抽樣的技術
抽樣的技術(是否均勻,如吃八寶飯的方法)可能影響推論的準確性和效益。
可能在同樣母群清冊條件下,樣本數多而準確性低。在「公主招親」實驗中,我們可能可以發現這個現象。
如果這個現象這次沒有發生,統雄老師可以重設恐怖箱,再示範一次。
5.抽樣的效益/成本比
樣本數在達到一定數量後不再會提升準確性。
成本卻會繼續增加。
不必太多。
抽樣的目的既然是以簡馭繁,就要重視效益。
所以在「公主招親」實驗中,成為駙馬的條件是必須抽出樣本最少。
6.區間預測與點預測
統計工具原則上只能作到區間預測,但統雄老師如何做到點預測呢?
這還是由「機率比較」、排除低機率事件而達成的。
在類別有限(100以下)、且類別間為等機率,則樣本數為類別數之倍,有高機率抽到各種類別。這就是統雄老師的第一猜測。
統雄老師又加了3個低機率但仍有可能的情形:
(1)抽4個者運氣太好,全抽中4種。
(2)抽4個者運氣太不好,只抽中1種。
(3)抽8個者運氣太壞,只抽中3種。
在過去20餘年實驗中,只有(1)曾出現一次。
其他的718種情形(如抽8個者運氣更壞,只抽中2種。)機率都非常小,這是統雄老師能將區間預測、接近點預測的原因。
但特別應注意的是:「統計的機率趨近為0,就不是0」這和物理測量的「趨近為0,等於0」在思想上是相反的。
在不確定的未來實驗中,還是存在推翻統雄老師預測的可能性。
隨機性/等機率性的實務應用
理論統計經常假設抽樣是符合隨機性/等機率性的。
但實務上,高比例都是非隨機性/非等機率性、或是未證明是隨機性/等機率性的,也就是這樣抽樣後的推論,是沒有意義的。
證明隨機性/等機率性的實務條件如下。
7.母群的類型
小團體:如學校學生、公會會員…常有明確的成員清冊。
公眾:如臺北市市民、臺灣區網路使用者…經常沒有明確的成員清冊。
8.清冊的類型
實體:如印刷名冊、資料庫檔案…等。
虛擬:如隨機撥號法(RDD)之規則、Google 衛星…等。




