2014-06-18

貝式定理

教育部降低數學時數這事,讓人感到痛心。當經濟成本成為教育的基本思考模式,這個國家基本上註定要走好長一段衰敗的日子。做這個決定的人,這個業要好好背!說到數學是實用的,我想起貝氏定理,一個機率課程中的學習重點也叫做條件機率。

各位思考一下這個式子,這就是貝氏定理的基本形,懂這個觀念就受用無窮了。






這公式看起來嚇人,其實數學就是解讀這些符號的意義,簡單說明一下就可了解,不用太過恐慌。有數學恐慌症的人忍一下,接下來我們用想像的就可以。

這個公式 P 指的是英文 Probability就是機率。A代表發生了A事件。B代表發生了B事件。
那麼P(A)就是指發生A的機率,P(B)就是指發生B的機率。P(A|B)就是指發生B又發生A的機率。

然後我們看等式右邊,右邊告訴我們,如果要知道P(A|B)就要知道
P(A)就是指發生A的機率
P(B)就是指發生B的機率
還有P(B|A)就是指發生A又發生B的機率。

生活上我們常遇到這樣的陳述,例如

屋漏偏逢連夜雨 -- 如果我們想算"屋漏偏逢連夜雨"的機率,就是P(連夜雨 | 屋漏)
船遲又遇打頭風 -- 如果我們想算"船遲又遇打頭風"的機率,就是P(打頭風 | 船遲)
積善之家必有餘慶 -- 如果我們想算"積善之家必有餘慶"的機率,就是P(有餘慶 | 積善之家)

如果一個班級有男20人,女30人。每一個人都有座號。我們可以問座號是單數又女生的機率是多少 -- P(女生 | 座號單數)

二三子:夫子,可以問P(A | A)嗎?

當然可以,這就是再發生的機率。像說,台北發生七級大地震,再發生一次相同的大地震的機率是多少 -- P(七級大地震在台北 | 七級大地震在台北)

我中了大樂透,再中一次的機率是多少 -- P(我中了大樂透 | 我中了大樂透)

真人真事
妳在家裡面發現老公的內褲不見了,老公外遇的機率是多少 -- P( 老公外遇 | 老公內褲不見)
妳發現老公的衣服有香水味,老公外遇的機率是多少 -- P(老公外遇 | 老公衣服有香水味)
答案其實很低…通常是跟狐朋狗友風花雪月玩玩便是。

所以妳就要問會去風花雪月的場所的男人,會有外遇的機率 -- P(老公外遇 | 老公會去風花雪月的場所)

*到此,我們其實在學習問對的問題。只有能問出對的問題才表示我們懂了這個問題。大家有沒有覺得數學其實很實用的。*

所以,所謂的條件機率就是指,當我們得到新的資訊時,我們要調整已經評估過的機率。像說,我們知道這個社會中老公外遇的機率是30%。也就是100對夫婦有30對的老公會外遇。這也是我們評估自己老公的外遇的機率。但如果你在路上看到自己的老公跟其它女性走在一起(新的資訊),外遇機率的評估就要從新估算了,而這個機率就是

P(老公外遇  |  跟其它女性走在一起)

說明到這裡,對貝氏定理的公式是不是就不那麼艱澀難懂!接下來不可免的,我們要提到Monty Hall三門問題。題目是這樣…

有三道門讓來賓選擇,其中有一道門後是車子,其它兩道門是羊。只要選中就可以帶走門後的東西。當來賓選擇其中一道門後,主持人會把另外兩道門中是羊的那一道打開給來賓看,然後問來賓換不換?請問,選擇"換"得到車子的機會大,還是選擇"不換"得到車子的機會大。

這個問題很直觀的,得到車子的機率是1/2跟換不換門沒有關係。連數學大師也認為是1/2,跟換不換門沒有關係。直觀就是一種用自己的經驗,認知,習慣看待事情的方法。我們稱其為業力!因為"直觀"就會得到不變的結果。很多事都要經過分析,要洞查其內在的因素。

夫子:所以答案是要換,換了門,得到車子的機會就會變成2/3。

我們用貝氏定理來算算看
主持人開了門,就是一個新的資訊,讓我們重新評估自己選到車的機率。所以我們要問出對的問題才能算。

一開始不管我們選那一個門得到大獎的機率是1/3,這是事件A--得大獎。

如果我們問,換了門又得到大獎的機率P(A | 換門),要算這個式子就要知道P(A)--事件A大獎的機率和P(換門) -- 換門的機率。這個問題在這裡就產生了矛盾,我們就是要知道換門得大獎的機率,現在卻需要知道換門的機率!如果可以知道換門的機率,那就不用問換門得大獎的機率了。這個問題問的不對!

如果我們問,主持人選三號門而得大獎的機率是多少 -- P( A |  主持人選三號門)。要算這個式子就要知道 P(A)--事件A得大獎的機率和P(主持人選三號門) -- 主持人選三號門的機率。我們是否可以算 P(主持人選三號門) -- 主持人選三號門的機率。這問題是合羅輯的,可以算算。直觀來看主持人選三號門的機率是由"得大獎且主持人選三號門" + "沒得大獎且主持選三號門"
也就是

P(主持人選三號門)  =
P(得大獎且主持人選三號門) + P(沒得大獎且主持選三號門) = 1/3*1/2 + 1/3*1 = 1/2

P( A |  主持人選三號門) =
P( 主持人選三號門 | A ) * P(A) / P(主持人選三號門) = (1/2 * 1/3) / (1/2) =1/3

啊哈!
P( A |  主持人選三號門) 其實就是指我們一開始就選到了大獎的門,我們不該換的機會。

那如果是我們一開始始就選到了沒有大獎的門呢!就是
P(沒有大獎 | 主持人選三號門) --> 因為一開始沒選到大獎的門,所以一定要換門的!
P(沒有大獎 | 主持人選三號門)  = 1 - P(  A |  主持人選三號門 ) = 2/3

當然我們也可以再用貝氏定理再算一次

P(沒有大獎 | 主持人選三號門) =
P( 主持人選三號門 | 沒有大獎) * P(沒有大獎) / P(主持人選三號門) = (1/2*2/3)/ (1/2) = 2/3

所以一定要換的啊!因為我們一開始有2/3的機率選不到大獎!

我們看看下表

Monty Hall





我們用電腦隨機產生了60次的三道門。1代表車子,0代表羊,藍線代表換門中大獎車子的機會,紅色代表不換門中大獎車子的機會。如果每次都選第一個門,且不換門,那得到車子是1/3。這也代表選中羊的機會是2/3,這就是不換門的機率。現在,我們來思考換門會如何,如果我們一開始選到車子的門,當主持人打開羊門時,我們換門就會失去車子。如果一開始我們選到羊門,當主持人打開羊門,我們換門就會得到車子。既然我們選到羊門的機率是2/3,當然我們要換門,因為有2/3的機率換門會得到車子。

從上表我們可以發現選中羊門的機率是高的,但選中羊門只要換門就一定會中車子。這樣看來,最好第一次要選到羊門才是好事,這不就是所謂賽翁失馬焉知非福!我們都被訓練成去理解達到目標的機率,很少去想達不到目標的機率。Monty Hall問題就是去理解我們失敗的機率有多高。

基於此,我們再看看達不到目標的機率的例子。

現在的醫院都是靠新的科技和機器在檢驗人的疾病。但不論什麼樣的檢測都有可能有偽陽性(沒有被檢查為有),偽陰性(有被檢查為沒有)的誤檢。我們更可以大膽的宣告,沒有一個方法可以百分之百檢驗出人的疾病!如果沒有辨法百分之百檢驗,就存在機率的問題了。

存在機率的問題,我們就要問
當我們被檢查為有某種疾病時,有多少機率是真的有?
當我們被檢查為沒有某種疾病時,有多少機率是真的沒有?

我們假設,現在有一種檢查 "得了就會死" 的疾病的方法,檢出率為99%,但同時對於偽陽性,也就是沒有卻檢出為有的機率為5%。當你被檢為陽性時,你真得就有這個疾病嗎?

我們可以用貝氏定理來算一下
P( 真的得病 | 檢為陽性 )=
P( 檢為陽性 | 真的得病)*P(真的得病) / P(檢為陽性)
現在我們沒有的訊息是P(真的得病)的機率,我們假設一下,一個社會中得到 "得了就會死" 病的人數是6%,這個就是 P(真的得病)

P(檢為陽性) - 被檢為陽性的機率當然包含 "有病檢為陽性" + "沒有病檢為陽性" =6%*99% + 94% * 5% = 10.64%

P( 真的得病 | 檢為陽性 ) = 99%*6% / 10.64% = 55.827%

怎麼會這樣?跟投銅板差不多…

問題就是偽陽性!社會中得到這個病的機率是6%也就是說1000人中有60人會得,有940人不會得。99%的檢出率,看起來很高,但也只有針對得病的60人而言,60*99%=59.4人。相對的940人會有5%的人被檢出為有,940*5%=47人。59.4比上47,這個比例不算明顯。

依賴機器、科技和技術的醫學,各位可以好好檢驗看看,有多少可信!

最後,我們知道,台灣是科技量產大國,因為量產,所以東西便宜。東西要便宜成本就要低,成本要低,良率就要高。對於工程量產的良率,常常有人說要把量產良率提高到80%很容易,但要到90%就很難了。為什麼?

我們應該由貝氏定理的角度來思考。以良品而言,80%到90%,提升了12.5%。但對不良品而言,是20%到10%,減少了50%,這個比例改變是大且困難的!當良率越高,就越難提升,每一次的提升都是減少不良品約50%,但良品卻只提升1~2%。這就是困難的原因,良率越高,代表未知越少,以機率來說,未知越少,越難找到未知。越難找到未知,就越難減少不良品。

貝氏定理剛好詮釋了工程未知的極限。






ads2

如何順其當然聽自然

想當然,自然聽自然。
聽自然,當然想當然。