電腦,科學,政治,哲學: 統計

《How to lie with Statistics》（註一）是本不錯的消閒讀物，書中雖欠缺統計學的嚴謹討論，但作者的妙筆卻帶出了不少統計學的盲區。

可惜，今天很多做民調、做市場研究的‘專家’，不要說嚴謹的統計學，就連這本消閒讀物的水平都沒有，信民調，就等如信希特勒是個充滿愛心的人一樣，荒謬！

我有位朋友，他的學歷非常不簡單，首先是電腦系一級榮譽畢業，繼而是甚麼名牌MBA。但其思考能力，我就實不敢恭維，在一次閒談中，我們討論到香港六合彩，他說六合彩開了這麼多期，應可從統計上總結出一些下注方向。

這時，我對這朋友的認識尚淺，而我亦有粗淺地研究過類似問題，我以為他有甚麼真知卓見，於是就洗耳恭聽。

‘我們做民調，做幾十個樣本經已很厲害，很準確了，何況現在有這麼多期的結果！’

我的天，他不單對預測六合彩全無概念，最嚴重的是全弄錯了最基本的‘隨機抽樣’的概念！甚至可以說連‘統計’是甚麼都弄錯了。

今次，我便由統計說起。

想像一下我們若要知道全香港七百多萬人的身高，完全準確的唯一方法，就是為全部七百多萬人度身高。少了一個，也不能說是完全準確！

先不說這是否實際可行，就算真的可以為全港人度了體高，這七百多萬條的原始數據又有甚麼用呢？試想想，我們的腦袋又可以記下多少條數據呢？‘統計’的意思，正正就是要總結出一些數據的特性出來，常用的‘統計’有中央趨勢（central tendency）和離散度（spread）。

最為常人認識的平均（average）（註二），就是中央趨勢的一種。而範圍（range）就是離散度的例子。當我們說香港人平均身高為1.65米，18歲以上的身高範圍是1.2至2.1米。這幾個數字便總結了這七百多萬條數據的某些特性。

正如上文所說，要這些‘統計’完全準確，必需有齊七百幾萬條數據，缺一條也不能說是完全準確。但技術上，這是接近沒可能的，所以，實際上我們是會使用‘估算子’（estimator）。

何謂‘估算子’，這就是當我們不能獲取全部數據時，基於部份的觀察，而對數據的‘統計’作出一些‘估算’。例如，你經已為100名香港人度了體高，那麼，你計算出這100項數據的平均數，然後，你便用這個數來‘估計’全港人的平均體高。

以樣本的平均數去估計全體的平均數，就是一種‘無偏估計子’（unbiased estimator ）。限於篇幅，不能詳細討論了，但要留意的是，unbiased並非必然，很多時候我們是有需要使用biased estimator的。

我們必需明白，抽樣調查就是一種‘估算’而不是‘真理’。統計學便開發出很多條件和數學模型來規範和處理這些‘估算’。例如，若你幸運（或不幸）接觸到的100個樣本，都是在1.8米以上的，平均數是1.9米，你就總結香港人的平均體高就是1.9米，這樣合理嗎？

所以，我們會著重‘隨機’抽樣，100個樣本平均身高是1.9米，不可能嗎？若你是在籃球隊找樣本，就一點也不是奇事。‘隨機’（random），就是要亂抽，民調要做到random其實難度很高，因為，會回答問卷的，可能經已是某一特定社群的人。

分析數據時，這些都應考慮進去，而對於有關結果是應這樣傳譯的。例如，有人做了聲稱是random選出的一百個人的體高資料，樣本的平均數是1.7米，那麼，我們也可以‘合理’地估算香港人的平均體高是1.7米。但還要加上一個誤差的機率。

一百個樣本的平均數是1.7米，並沒有任何邏輯關係說明香港人的平均體高就是1.7米。這是一種‘合理’的估算而已。統計學便有一組的理論公式和方法去解說這個問題。假若香港人的真實高度的平均數是1.8米，那麼，若隨機抽樣100人，而其平均數是1.7米的機會是多少，而1.6米又或是1.9米的機會是多少。

如此這般，嚴謹的統計結果應是這樣說的：‘據這100個樣本的統計結果，有95%的信心水平（confidence level）香港人的身高的平均估計為1.6至1.8米’。

留意，這句並沒有說香港人的身高平均必然在1.6至1.8米之間，相反正正說明就是有不在這範圍的可能性，但機會祗是約5%而已！更值得留意的是，是可以收窄範圍的，例如可以說成是介乎1.65 至1.75米間，但這樣信心水平便可能下降到80%！反之亦然。（註三）

可能你們都給我悶死了，嚴謹的學術理應如此，但這些都不是常識，更不是一般人可接受的！

註一：Darrell Huff，‘How to lie with Statistics’ISBN 0-393-31072-8

註二：一般人所理解的平均其實是算術平均（arithmetic mean），平均數其實還可以有多種不同可能的。

註三：所有數字都是舉例，並不是真實數字。

電腦,科學,政治,哲學

2008年9月10日星期三

統計

沒有留言:

網誌存檔

關於我自己

電腦,科學,政治,哲學

2008年9月10日 星期三

統計

沒有留言:

網誌存檔

關於我自己

2008年9月10日星期三