機率統計-- 使用R 軟體 - SlideShare
文章推薦指數: 80 %
因此,機率與統計可以說是一體的兩面,當我們知道某個基本事件的先驗機率1時,我們可以根據此一機率計算某個組合事件發生的機率。
例如我們可以知道兩顆公平的骰子同時 ...
SlideShareusescookiestoimprovefunctionalityandperformance,andtoprovideyouwithrelevantadvertising.Ifyoucontinuebrowsingthesite,youagreetotheuseofcookiesonthiswebsite.SeeourUserAgreementandPrivacyPolicy.
SlideShareusescookiestoimprovefunctionalityandperformance,andtoprovideyouwithrelevantadvertising.Ifyoucontinuebrowsingthesite,youagreetotheuseofcookiesonthiswebsite.SeeourPrivacyPolicyandUserAgreementfordetails.
Upload
Home
Explore
Login
Signup
Successfullyreportedthisslideshow.
Activateyour30dayfreetrial tounlockunlimitedreading.
機率統計--使用R軟體
43
Share
鍾誠陳鍾誠
•
Jan.13,2014
•
43likes
•
33,565views
DownloadNow
Download
NextSlideShares
Youarereadingapreview.
Activateyour30dayfreetrial tocontinuereading.
ContinueforFree
UpcomingSlideShare
第一場預測
Loadingin…3
×
Facebook
Twitter
LinkedIn
Size(px)
Starton
ShowrelatedSlideSharesatend
Share
Email
Topclippedslide
1
1of334
機率統計--使用R軟體
Jan.13,2014
•
43likes
•
33,565views
43
Share
DownloadNow
Download
Downloadtoreadoffline
Education
第1章.機率統計簡介
第2章.機率的概念
第3章.隨機變數
第4章.機率分布
第5章.期望值與動差生成函數
第6章.聯合分布
第7章.抽樣與敘述統計
第8章.中央極限定理
第9章.平均值的估計與檢定
第10章.再論估計與檢定
第11章.變異數分析
第12章.迴歸分析
第13章.主成分分析與因子分析
Readmore
鍾誠陳鍾誠
Follow
助理教授
at
國立金門大學
第1章.機率統計簡介
第2章.機率的概念
第3章.隨機變數
第4章.機率分布
第5章.期望值與動差生成函數
第6章.聯合分布
第7章.抽樣與敘述統計
第8章.中央極限定理
第9章.平均值的估計與檢定
第10章.再論估計與檢定
第11章.變異數分析
第12章.迴歸分析
第13章.主成分分析與因子分析
Readmore
Education
第一場預測
RLadiesTaipei
Big-dataanalytics:challengesandopportunities
台灣資料科學年會
資料科學的第一堂課DataScienceOrientation
RyanChung
R統計軟體簡介
PersonLin
吳齊軒/漫談R的學習挑戰與R語言翻轉教室
台灣資料科學年會
不會寫程式的人友善上手機器學習-淺談Azuremachinelearningstudio
RLadiesTaipei
新手村-資料探索
RLadiesTaipei
R統計軟體-安裝與使用
PersonLin
[DSC2016]系列活動:許懷中/R語言資料探勘實務
台灣資料科學年會
CollaborationwithStatistician?矩陣視覺化於探索式資料分析
台灣資料科學年會
第一場預測
RLadiesTaipei
Big-dataanalytics:challengesandopportunities
台灣資料科學年會
資料科學的第一堂課DataScienceOrientation
RyanChung
R統計軟體簡介
PersonLin
吳齊軒/漫談R的學習挑戰與R語言翻轉教室
台灣資料科學年會
不會寫程式的人友善上手機器學習-淺談Azuremachinelearningstudio
RLadiesTaipei
新手村-資料探索
RLadiesTaipei
R統計軟體-安裝與使用
PersonLin
[DSC2016]系列活動:許懷中/R語言資料探勘實務
台灣資料科學年會
CollaborationwithStatistician?矩陣視覺化於探索式資料分析
台灣資料科學年會
MoreRelatedContent
YouMightAlsoLike
曾韵/沒有大數據怎麼辦?會計師事務所的小數據科學
台灣資料科學年會
初學R語言的60分鐘
Chen-PanLiao
那些你知道的,但還沒看過的BigData風景─致Hadooper
FredChiang
「資料視覺化」有志一同場次at2016台灣資料科學年會
台灣資料科學年會
李育杰/TheGrowthofaDataScientist
台灣資料科學年會
[系列活動]資料探勘速遊-Session4case-studies
台灣資料科學年會
[系列活動]MachineLearning機器學習課程
台灣資料科學年會
[系列活動]手把手教你R語言資料分析實務
台灣資料科學年會
手把手教你R語言資料分析實務/張毓倫&陳柏亨
台灣資料科學年會
[系列活動]給工程師的統計學及資料分析123
台灣資料科學年會
[系列活動]DataexplorationwithmodernR
台灣資料科學年會
[系列活動]智慧製造與生產線上的資料科學(製造資料科學:從預測性思維到處方性決策)
台灣資料科學年會
[系列活動]機器學習速遊
台灣資料科學年會
[系列活動]無所不在的自然語言處理—基礎概念、技術與工具介紹
台灣資料科學年會
AIandMachineLearningDemystifiedbyCarolSmithatMidwestUX2017
CarolSmith
交⼤資訊⼯程學系備審資料⾱詠祥
鍾誠陳鍾誠
smallpt:GlobalIlluminationin99linesofC++
鍾誠陳鍾誠
西洋史(你或許不知道但卻影響現代教育的那些事)
鍾誠陳鍾誠
區塊鏈(比特幣背後的關鍵技術)--十分鐘系列
鍾誠陳鍾誠
區塊鏈(比特幣背後的關鍵技術)--十分鐘系列
鍾誠陳鍾誠
梯度下降法(隱藏在深度學習背後的演算法)--十分鐘系列
鍾誠陳鍾誠
用十分鐘理解《微分方程》
鍾誠陳鍾誠
系統程式--前言
鍾誠陳鍾誠
系統程式--附錄
鍾誠陳鍾誠
系統程式--第12章系統軟體實作
鍾誠陳鍾誠
系統程式--第11章嵌入式系統
鍾誠陳鍾誠
系統程式--第10章作業系統
鍾誠陳鍾誠
系統程式--第9章虛擬機器
鍾誠陳鍾誠
系統程式--第8章編譯器
鍾誠陳鍾誠
系統程式--第7章高階語言
鍾誠陳鍾誠
系統程式--第6章巨集處理器
鍾誠陳鍾誠
系統程式--第5章連結與載入
鍾誠陳鍾誠
系統程式--第4章組譯器
鍾誠陳鍾誠
系統程式--第3章組合語言
鍾誠陳鍾誠
系統程式--第1章系統軟體
鍾誠陳鍾誠
系統程式-第二章
鍾誠陳鍾誠
nand2tetris舊版投影片--第五章計算機結構
鍾誠陳鍾誠
nand2tetris舊版投影片--第四章機器語言
鍾誠陳鍾誠
nand2tetris舊版投影片--第三章循序邏輯
鍾誠陳鍾誠
nand2tetris舊版投影片--第二章布林算術
鍾誠陳鍾誠
RelatedBooks
Freewitha30daytrialfromScribd
Seeall
MaybeYouShouldTalktoSomeone:ATherapist,HERTherapist,andOurLivesRevealed
LoriGottlieb
(4.5/5)
Free
BoundariesUpdatedandExpandedEdition:WhentoSayYes,HowtoSayNoToTakeControlofYourLife
HenryCloud
(4/5)
Free
NeverSplittheDifference:NegotiatingAsIfYourLifeDependedOnIt
ChrisVoss
(4.5/5)
Free
Uninvited:LivingLovedWhenYouFeelLessThan,LeftOut,andLonely
LysaTerKeurst
(4.5/5)
Free
TheGiftsofImperfection:LetGoofWhoYouThinkYou'reSupposedtoBeandEmbraceWhoYouAre
BrenéBrown
(4.5/5)
Free
Girl,WashYourFace:StopBelievingtheLiesAboutWhoYouAresoYouCanBecomeWhoYouWereMeanttoBe
RachelHollis
(3.5/5)
Free
AStolenLife:AMemoir
JayceeDugard
(4.5/5)
Free
The7HabitsofHighlyEffectivePeoplePersonalWorkbook
StephenR.Covey
(4/5)
Free
Dry:AMemoir
AugustenBurroughs
(4.5/5)
Free
Girl,StopApologizing:AShame-FreePlanforEmbracingandAchievingYourGoals
RachelHollis
(3.5/5)
Free
The7HabitsofHighlyEffectivePeople:PowerfulLessonsinPersonalChange:25thAnniversaryInfographicsEdition
StephenR.Covey
(4/5)
Free
DeclutteringattheSpeedofLife:WinningYourNever-EndingBattlewithStuff
DanaK.White
(4.5/5)
Free
The7HabitsofHighlyEffectivePeople
StephenR.Covey
(4/5)
Free
TheSubtleArtofNotGivingaF*ck:ACounterintuitiveApproachtoLivingaGoodLife
MarkManson
(4.5/5)
Free
HowMayIServe
KarenMathews
(3.5/5)
Free
ChangesThatHeal:FourPracticalStepstoaHappier,HealthierYou
HenryCloud
(4/5)
Free
RelatedAudiobooks
Freewitha30daytrialfromScribd
Seeall
DadonPills:FatherhoodandMentalIllness
ChrisGethard
(5/5)
Free
HowtoNoticeandNameEmotions
EmmaMcAdam
(4.5/5)
Free
HowtoHostaVikingFuneral:TheCaseforBurningYourRegrets,ChasingYourCrazyIdeas,andBecomingthePersonYou'reMeanttoBe
KyleScheele
(5/5)
Free
MasterofInformation:SkillsforLifelongLearningandResistingMisinformation
MeredithButts
(4.5/5)
Free
OneDegreeofConnection:NetworkingYourNetwork
LauraMignott
(4/5)
Free
IGuessIHaven'tLearnedThatYet:DiscoveringNewWaysofLivingWhentheOldWaysStopWorking
ShaunaNiequist
(4.5/5)
Free
TheunBalancedLife:10PrinciplesforaMoreBalancedLife
PierreQuinn
(5/5)
Free
You'reCuteWhenYou'reMad:SimpleStepsforConfrontingSexism
CelesteHeadlee
(4/5)
Free
TheFourKeystoSustainableSuccess
PatriciaGrabarekPhD
(4.5/5)
Free
FeedingtheSoul(BecauseIt'sMyBusiness):FindingOurWaytoJoy,Love,andFreedom
TabithaBrown
(5/5)
Free
MemoryCraft:ImproveYourMemorywiththeMostPowerfulMethodsinHistory
LynneKelly
(4.5/5)
Free
BeyondSmallTalk:HowtoHaveMoreDynamic,CharismaticandPersuasiveConversations
KingPatrick
(4.5/5)
Free
AlreadyEnough:APathtoSelf-Acceptance
LisaOlivera
(4.5/5)
Free
ReshapeYourBodyImage
StacieGarland
(4/5)
Free
MakingSenseofAnxietyandStress:AComprehensiveStressManagementToolkit
SaarimAslam
(4.5/5)
Free
EmpathUp!:HowtoEmbracetheGiftofEmpathy
CherylHutchinson
(4.5/5)
Free
機率統計--使用R軟體
1.
機率統計--使用R軟體
陳鍾誠
2013年3月
2.
機率統計--使用R軟體
1.前言
1.序
2.授權聲明
2.機率與統計
1.簡介
2.機率理論
3.統計理論
4.應用
5.R軟體實作:簡介與基本操作
6.參考文獻
3.機率的概念
1.樣本空間
2.事件
3.機率的詮釋方法
4.機率公理
5.機率模型
6.條件機率
7.獨立事件
3.
8.貝氏定理
9.條件獨立
10.習題:牙疼的診斷問題
4.隨機變數
1.隨機變數簡介
2.離散與連續
3.機率密度函數(ProbabilisticDensityFunction)
4.累加分配函數(CumulativeDistributionFunction)
5.隨機變數的代數運算
6.結語
5.機率分布
1.簡介
2.伯努力試驗(Bernoullitrial)
3.二項分布(Binomialdistribution)
4.幾何分布(Geometricdistribution)
5.負二項分布
6.布瓦松分布(Poissondistribution)
7.均勻分布(Uniformdistribution)
8.常態分布(NormalDistribution)
9.附件:離散型機率分布表格整理
10.附件:連續型機率分布表格整理
4.
6.期望值與動差生成函數
1.期望值
2.變異數
3.期望值的函數
4.k階動差(KthOrdinaryMoment)
5.動差生成函數
6.結語
7.聯合分布
1.聯合密度函數
2.邊際密度函數
3.聯合分配的期望值
4.共變異數(Covariance,協方差)
5.相關係數(Correlation)
6.多變數聯合分布的情況
7.結語
8.抽樣與敘述統計
1.隨機抽樣
2.單組樣本的敘述統計
3.繪製統計圖
4.共變異數、兩組樣本的相關度統計
9.中央極限定理
5.
1.大數法則
2.柴比雪夫不等式
3.中央極限定理簡介
4.中央極限定理的用途
5.R程式範例:驗證中央極限定理
6.結語
7.參考文獻
10.平均值的估計與檢定
1.信賴區間
2.常態分布的信賴區間
3.平均值的信賴區間
4.T分佈與平均值的檢定
5.檢定的概念
6.檢定的圖形
7.習題
8.參考文獻
11.再論估計與檢定
1.檢定的分類
2.右尾檢定、左尾檢定與雙尾檢定
3.比例p的檢定
4.中位數M的檢定
6.
5.兩組樣本的平均值檢定
6.變異數服從甚麼分布?
7.兩組樣本的變異數檢定
8.兩組樣本的比例檢定
9.兩組樣本的中位數檢定
10.結語
11.參考文獻
12.變異數分析(ANOVA)
1.簡介
2.檢定兩樣本群的平均值是否相同
3.變異數分析(AnalysisofVariance,ANOVA)
4.兩兩之間的均值比較
5.結語
6.參考文獻
13.迴歸分析
1.簡介
2.R軟體中的lm()函數
3.單一自變數的迴歸分析:完全線性,無誤差值
4.單一自變數的迴歸分析:有誤差值
5.數學原理
6.兩組自變數的迴歸分析:完全線性,無誤差值
7.
7.兩組自變數的迴歸分析:有誤差值
8.結語
9.參考文獻
14.主成分分析與因子分析
1.簡介
2.主成分分析範例1(Rank=2)
3.主成分分析範例2(Rank=3)
4.主成分分析範例3(Rank=3加上隨機誤差)
5.因子分析
6.結語
7.參考文獻
15.附錄A:常見的機率分布
1.二項分布(Binomialdistribution)
2.負二項分布(Netativebinomialdistribution)
3.幾何分布(Geometricdistribution)
4.超幾何分布(Hypergeometricdistribution)
5.布瓦松分布(Poissondistribution)
6.均勻分布(Uniformdistribution)
7.常態分布(NormalDistribution)
8.
前言
序
機率統計是「自然科學」與「社會科學」都共同需要的數學語言,傳統上許多學校都會採用商用的SPSS
或SAS等軟體作為課程實作的工具。
但是這些軟體都是商用軟體,學生在家中很難合法安裝。
事實上,開放原始碼領域的「R軟體」比起SPSS或SAS毫不遜色,而且具有相當多的開放資源,已經成
為學習機率統計的重要工具。
在本書中,我們將使用「R軟體」進行機率統計的實作,讓學習者能以
「實作印證理論」,加深學習的效果。
R軟體當中預設就包含了各式各樣的機率模型,以及各種統計工具,可以讓讀者一邊學習,一邊用簡單的
指令進行機率統計的實驗。
透過這種學習方式,讀者可以透過程式實際體會理論的意義。
舉例而言,當我
們看到常態分配的機率模型時,我們可以直接使用下列指令來畫出常態分布,並且用程式產生符合常態分
布模型的樣本,以便進行某種互動式的學習,用實驗體會常態分布的意義。
我很喜歡用武俠小說中的「氣宗與劍宗」與學術中的「理論與實務」相對比。
氣宗的人一開始就學習一堆
理論,直到內力充足以後才慢慢了解實務操作;而劍宗的人則是直接拿起劍就找人比試,在不了解理論的
情況下直接出招,一開始進步很快,但到後來就會發現內功不夠深厚,遇到高手時總要吃虧的。
雖然我的求學過程比較像是氣宗的教育方式,但是最後寫出來的書卻往往像是劍宗的教材,或許這就是一
種內心矛盾的反射,因為理論念得多了,就發現自己在實務上一竅不通,所以寫出來之後往往從實務出
9.
發,最後才回到理論進行印證。
在本書中,我們將採用「理論=>實務=>理論=>實務...」的循環,交替的說明原理與實務,我們會先給大家
看一大堆「圖片」、「影片」甚至是「程式」,然後再回過頭來講解原理,透過這種方式,希望大家都能
達到「氣劍合一」的境界。
陳鍾誠2012/10/23於金門大學資訊工程系
授權聲明
本書由金門大學創建,期中部分內容與圖片來自維基百科,因此採用創作共用:姓名標示、相同方式分
享之授權。
若您想要修改本書產生衍生著作時,至少應該遵守下列授權條件:
1.標示原作者姓名為陳鍾誠衍生自維基百科的作品。
2.採用創作共用:姓名標示、相同方式分享的方式公開衍生著作。
10.
機率與統計
簡介
在現實的生活當中,有許多我們無法準確描述的現象,這些現象的出現包含了某種程度的隨機性。
舉例而
言,我們無法精確的預知明天是否會下雨、股票會漲或者會跌、匯率會如何波動,人會不會生病等等。
但是當這些現象出現的總體量很多的時候,我們就可以「統計」出該事件發生的「機率」,於是我們的天
氣預報可以預測明天下雨的機率、我們也可以統計出股票漲跌的機率、人們生病的機率、或者某人買了一
張彩券後中獎的機率等等。
因此,機率與統計可以說是一體的兩面,當我們知道某個基本事件的先驗機率1時,我們可以根據此一機
率計算某個組合事件發生的機率。
例如我們可以知道兩顆公平的骰子同時出現6點的機率是1/36,而連
續投擲公平的銅版五次,每次都是正面的機率為1/32等。
但是當我們不知道基本事件的發生機率時,我們該怎麼辦呢?此時統計的價值就顯現出來了,我們可以先
進行很多次的實驗,以便透過計算的方式算出某個「事件」的機率,這種統計方法就稱為「敘述統計」。
接著我們可以根據這個統計的結果,推論出某些衍生事件的機率,或者推算出此一事件是否「可信」,這
樣的統計就稱為「推論統計」。
如果用更數學化的語言來說,我們可以透過已知的「母體模型」,以及某些「母體參數」計算某個事件的
機率,或者用電腦隨機產生這些事件。
這種用參數與模型產生隨機事件的過程,可以用電腦的方是透過程
11.
式模擬產生,此時電腦其實是以機率的角度在模擬母體的運作方式,這樣的電腦模擬方法稱為「蒙地卡羅
法」。
但是如果我們是在是先取得一群樣本之後,開始計算樣本的某個統計量是多少,這種計算就稱為「敘述統
計」。
如果我們進一步透過「敘述統計」的「統計量」去推估「母體的某個參數值應該是多少?」,這樣
的推估方法就稱為「推論統計」。
下圖顯示了「母體、參數、樣本與統計量」之間的關係。
12.
機率與統計之關係
如果我們精確知道母體的機率模型與參數,我們就完全掌握了母體的機率分布,這就是從機率角度的看
13.
法。
但是在很多情況下我們無法清楚的知道母體的模型與參數,此時我們就可以採用「抽樣的方式」,從
母體中取得或觀察到某些「樣本」,再透過這些樣本去計算出某些「敘述統計量」,接著再用這些統計量
去推估母體的參數。
機率理論
舉例而言,假如我們已經某個銅版是公平的,也就是兩面的機率都是1/2,那麼我們就可以直接透過「機
率法則」計算某個序列,例如連續五次都投出正面的機率為
。
但是如果我們不知到銅版「正反面的機率」,那麼我們就必須改用「統計的方法」,例如連續投擲該銅版
一千次,然後計算「正面與反面各為多少次」,接著再透過這些「正反面次數的統計量」,去推估某事件
的出現機率。
假如我們投擲該銅版一千次的結果,發現正面出現508次,反面出現492次,那麼我們就可以推估「正面
的機率為0.508」,而「反面出現的機率為0.492」,接著再去推估連續出現五次正面的機率為
。
當然,機率的模型並不是都像擲骰子或銅版那樣簡單的,有時機率模型本身就有點困難。
舉例而言,布瓦
松(Poisson)分布是用來描述「一段連續時間內」某個隨機事件發生的次數,其離散機率密度函數如下所
示。
14.
如果沒有學過機率的話,相信一般人很難看懂該機率分布的意義。
因此在本書的後序章節中,我們將會先
介紹機率的法則與模型,以便讓讀者能先對這些機率模型所代表的意義有清楚的認識,然後再進入「敘述
統計」與「推論統計」的數學世界,希望透過這樣的方法,讀者能更清楚的理解整個機率統計的數學理
論,並且能用R程式的實作來印證這些理論。
統計理論
同樣的,統計理論也不只是算算出現次數這麼簡單的。
舉例而言,當我們想知道某一組統計量是否「合
理」時,我們會採用「信賴區間」的方式描述該組統計量的合理的母體參數範圍,以下是一個範例。
請計算出以下列樣本序列的「平均值之95%信賴區間」:
3.61465704.14405932.57269555.23255812.0635500
2.62946602.85418272.48163121.58368513.2193062
2.82053063.50372042.61071314.18705882.4506509
2.48492444.53438390.76069343.52196751.7019120
這樣的計算顯然不是簡單的「計算出現次數」而已。
要能進行「信賴區間」的計算,顯然我們必須學習更
多的數學理論,才能知道如何計算,也才能清楚的掌握計算結果的意義。
應用
15.
機率統計的應用涵蓋面非常的廣,從社會科學到自然科學都會用到,這是一門有著極強實用性的數學,很
少數學像機率統計一樣有著如此強大的實用性。
在社會科學當中,我們會用機率統計來檢驗某個抽樣調查是否可信,某個抽樣調查顯示了何種意義等等?
甚至像是社會科學領域的經典,塗爾幹的自殺論當中,即是採用機率統計的方法檢驗哪些因子會造成自殺
現象的增加或減少等等,這些都是機率統計在社會科學上很明顯的應用案例。
在自然科學當中,學習生物或醫學的研究者也會透過機率統計來計算並研究某個藥物是否對特定疾病具有
療效,或者某個檢測結果是否顯示該病人已經得到某種疾病。
而學習電腦的程式設計者則可以透過機率統
計模型進行「蒙地卡羅式的隨機模擬」,以便計算某個現象的機率。
或者透過像「貝氏網路」這樣的機率
模型以進行事件的機率計算,甚至是透過像「隱馬可夫鏈算法」(HiddenMarkovModel)或EM學習法
(Expectation-MaximizationAlgorithm)等方法來學習某個機率模型與參數,以便讓程式能根據輸入樣本得到
預測某些事件的能力。
這些都是機率統計在自然科學上典型的應用案例。
R軟體實作:簡介與基本操作
簡介
R軟體是專門為了機率統計而設計的一種開放原始碼軟體,是免費的自由軟體。
市面上有許多與R類似的商用軟體,像是SPSS,SAS,MINITAB,S-PLUS等,但是這些軟體是要花錢買
的。
16.
R軟體所使用的程式語言,被稱為R語言。
R語言與S-PLUS所使用的語言很類似,兩者都衍生自貝爾實驗室RickBecker,AllanWilks,JohnChambers
所創造的S語言,R語言基本上是GNU所實作的S語言版本。
筆者篆寫此文時,R所採用的S語言演化到了第四版,因此稱為S4。
安裝
R軟體的官方網站為http://www.r-project.org/,其中有個相當重要的子網站稱為CRAN(ComprehensiveR
ArchiveNetwork),其網址為http://cran.r-project.org/,您可以從這個網站中下載R軟體。
舉例而言,筆者使用的是Windows作業系統,因此可以從以下網址下載到最新版的R軟體。
http://cran.r-project.org/bin/windows/base/
17.
R軟體下載頁面
舉例而言,筆者點選時為DownloadR2.15.2forWindows這個連結,這會下載位於下列網址的檔案:
http://cran.r-project.org/bin/windows/base/R-2.15.2-win.exe
下載完畢後,請啟動該安裝檔,然後不斷按「下一步」就可以完成安裝了,過程非常簡單。
以下網址中的Youtube影片介紹了R軟體的下載、安裝、套件、網站、電子書等等,有興趣的朋友可以看
看。
http://www.youtube.com/watch?v=AipnE4s8sKk
基本操作
為了說明R軟體的用法,並用以學習機率統計的概念,本系列文章將運用R來說明機率統計的理論,讓
程式人可以透過實作學會機率統計,並且學會R軟體中的S語言。
為了避免太過枯燥,我們將不會先介紹R的基本語法,而是先用一系列的操作,讓讀者體會R的能力,
然後再慢慢回到語言的教學上面。
以下是筆者用R軟體取樣後會出樣本統計圖的畫面,簡單的幾個指令就可以得到統計結果,是不是很棒
呢?
18.
圖、R軟體執行畫面
第一個指令?rnorm是要求R軟體查詢rnorm這個指令,R軟體會顯示以下的說明網頁,您可以看到rnorm
指令是與常態分部(TheNormalDistribution)有關的。
19.
圖、R軟體的說明網頁
在R軟體中,對於任何一個機率分布xxxx,都會實作出以d,p,q,r為字首的四種函數,例如對於常態分布
NormalDistribution(簡寫為norm)而言,就有dnorm,pnorm,qnorm,rnorm等四個函數,功能分別如下所示:
函數
說明
語法
dnorm
常態分布的機密度函數
dnorm(x,mean=0,sd=1,log=FALSE)
pnorm
常態分布的機分布函數
pnorm(q,mean=0,sd=1,lower.tail=TRUE,log.p=FALSE)
qnorm
常態分布的分位數函數
qnorm(p,mean=0,sd=1,lower.tail=TRUE,log.p=FALSE)
rnorm
常態分布隨機樣本函數
rnorm(n,mean=0,sd=1)
上表中的mean代表平均數,sd代表StandardDeviation(標準差),n是隨機產生的樣本個數,x是隨機變數
值,q是累積值,p是機率值,n則是產生的樣本數。
您可以發現函數中,有些參數後面有=的指定(像是mean=0,sd=1,log=FALSE,....),有些卻沒有(像是x,q,
p,n)等,這些指定代表預設值,也就是如果您不指定這些參數的値,那麼將會自動代入預設值。
所以rnorm(100)代表rnorm(100,mean=0,sd=1)的意思,也就是該函數會產生平均數為mean=0,標準差
20.
為sd=1的隨機樣本共100個。
關於這些函數的更詳細的說明如下表所示。
字
函數意義
範例
說明
d
機率密度函數
dnorm(1.96)
P(X=x)
p
累積機率函數
pnorm(1.96)=0.975
P(X≤x)
qnorm(0.975)=1.96
q系列為p系列的反函數;所以qnorm(pnorm(1.96))=
首
(CDF)
q
計算百分位數
1.96
r
抽樣函數
rnorm(100)
傳回100個標準常態分布的樣本向量
看懂這些函數之後,讓我們再度列出上圖的操作指令,仔細觀察看看每一個指令的意義。
?rnorm
21.
x=rnorm(10000,mean=5,sd=4)
hist(x)
指令x=rnorm(10000,mean=5,sd=4)代表我們要用平均值為5,標準差為4的常態分布,隨機產生10000個
樣本,然後將這些樣本存到x陣列當中。
指令hist(x)代表要用這些樣本畫出統計的直方圖(Histogram),於是就畫出了圖中的那個長條狀圖形。
現在、請讀者試著看看下列操作,看看您是否能夠讀懂這些操作的意義。
rnorm(10,3,2)
>x
[1]2.58102130.53991275.00050205.34026932.79007233.96380885.2119685
[8]2.22098822.99359437.0308419
>a=dnorm(1.96)
>a
[1]0.05844094
>b=pnorm(1.96)
>b
[1]0.9750021
>c=qnorm(b)
22.
>c
[1]1.96
>d=rnorm(10)
>d
[1]-0.32913677
0.77788306-1.80862496
0.16694598-0.65656254-1.76305925
[7]
0.19651748-0.07898685
0.73970933
1.18237502
>
參考文獻
維基百科:機率論
Wikipedia:ProbabilityTheory
機率密度函數PDF(連續)--http://en.wikipedia.org/wiki/Probability_density_function
機率質量函數PMF(離散)--http://en.wikipedia.org/wiki/Probability_mass_function
http://en.wikipedia.org/wiki/Statistics
http://en.wikipedia.org/wiki/Descriptive_statistics
http://en.wikipedia.org/wiki/Inferential_statistics
http://en.wikipedia.org/wiki/Bayesian_Inference
http://en.wikipedia.org/wiki/Correlation
http://en.wikipedia.org/wiki/Analysis_of_variance
http://en.wikipedia.org/wiki/Design_of_experiments
23.
http://en.wikipedia.org/wiki/Regression_analysis
http://en.wikipedia.org/wiki/Student%27s_t-test
24.
機率的概念
樣本空間
機率論中,樣本空間是一個實驗或隨機試驗所有可能結果的集合,而隨機試驗中的每個可能結果稱為樣本
點。
通常用S、Ω或U表示。
例如,如果拋擲一枚硬幣,那麼樣本空間就是集合{正面,反面}。
如果投擲
一個骰子,那麼樣本空間就是{1,2,3,4,5,6}。
事件
一個事件是由樣本空間中的一個子集合,例如令A為骰子的點數為{1,3,5}的事件,其機率可以寫為
P(A)=P({1,3,5})。
機率的詮釋方法
某個事件的發生率,機率很低代表該事件不太可能出現(很罕見,但是並非不會出現),機率很高代表該事
件非常可能發生。
機率的詮釋方式可以分為下列三種方式。
詮釋1.個人方式:(PersonalApproach):完全按照個人直覺的解釋方式(不客觀)。
25.
詮釋2.相對頻率方式(RelativeFrequencyApproach):
說明:f為實驗中事件A出現的次數,n為實驗進行的次數。
此方法乃是基於實驗觀察的結果的方
式。
詮釋3.古典方式(ClassicalApproach):
說明:n(A)為事件A可能出現的次數N(S)為實驗可能進行的次數。
此方法乃是將將實驗的可能出
像(outcome)假設為等可能發生(equalylikely)。
機率公理
一般人學習數學的時候都是從直覺概念開始的,例如我們小學的時候透過算幾個蘋果學到加法,然後用好
幾排的蘋果學到乘法,接著就會背誦九九乘法表,然後在中學的時候導入變數的觀念,於是學會了聯立方
程式的解法。
但是數學家們看數學往往是從公理系統開始的,透過公理系統進行推論以建立定理,然後推論出整個數學
體系。
讓我們學習一下數學家的想法,先來看看機率的公理系統有何特色。
以下三條法則是機率的基本公理:
26.
公理(1).
公理(2).
公理(3).
公理(1)中的S代表機率的樣本空間,也就是所有可能發生的事件所形成的集合,這個集合的發生機率為
1,意義是沒有任何事件落在樣本空間之外。
公理(2)中的A代表任一事件,而
則代表任何事件的發生機率必須是正的,沒有負的機率
值。
公理(3)中的A1,A2代表任兩個事件,如果A1與A2沒有交集,那麼其聯集發生的機率將會是其機率的
總和,也就是
。
當這個公理系統確定下來之後,我們就可以透過這些法則進行一些基本的推論,舉例而言,我們應該可以
很容易的證明以下這些定理。
定理1.
定理2.
27.
定理3.
但是,這些定理又代表甚麼意義呢?其實從下列凡氏圖上可以很清楚的看得出來這些定理的直覺意義。
圖、兩個集合A,B的凡氏圖
28.
基本上,機率系統是建構在集合論之上的一門數學系統,所以我們可以用集合論的凡氏圖來理解這些公理
與定理的意義。
下圖左方是兩個集合A,B所形成的凡氏圖,而右方則是三個集合A,B,C所形成的凡氏
圖。
圖、三個集合A,B,C的凡氏圖
習題:機率定理的證明
29.
習題1:
定理:證明
證明:
;根據公理(3)
;根據集合論
;根據公理1
;根據集合論與公理(3)
所以
習題2:
定理:證明P(A')=1-P(A);其中的A'代表A的補集,也就是
證明:
30.
因為
;根據A'的定義
;根據公理3
;根據公理3與公理1
所以
習題3:
定理:證明
證明:
因為
;根據集合論(用文氏圖可以理解其直覺意義)
;根據集合論(用文氏圖理解,只是為了方便)
;根據公理3
所以
31.
推論
;
所以
機率模型
因此、只要指定了所有可能事件的發生率,我們就可以完整的描述一個機率模型,舉例而言,日常生活中
最常見的機率模型,大概就是丟銅板和擲骰子了,以下是我們對這兩個機率系統的描述。
範例1:丟銅板
在投擲銅板的機率過程中,其樣本空間S={正,反},
而其中一個常見的隨機變數X,是用來計算銅板的正面數量,
此時,P(正)=0.5,而P(反)=0.5
範例2:擲骰子
32.
在投擲骰子的機率過程中,其樣本空間S={1點,2點,3點,4點,5點,6點},
此時,P(1點)=P(2點)=...=P(6點)=1/6。
所以,在一次擲骰子中,得到5點或者6點的機率,可以圖示如下。
圖、擲一次骰子5點或6點的機率
練習:R軟體與機率密度函數
我們可以透過R軟體進一步瞭解機率密度函數的意義,舉例而言,R當中有個sample()函數,我們只要
使用該函數就可以模擬擲骰子或銅板的過程。
您可以用「?函數」的方式查詢某函數的功能,因此當我們在R軟體中鍵入?sample時,R軟體會輸出
下列訊息:
>?sample
33.
startinghttpdhelpserver...done
然後就開啟下列的網頁畫面
34.
圖、sample函數的Help畫面
您可以看到sample函數的原型為sample(x,size,replace=FALSE,prob=NULL),於是可以用下列指令模擬
投擲骰子十次的行為。
>sample(1:6,10)
錯誤在sample(1:6,10):
cannottakeasamplelargerthanthepopulationwhen'replace=FALSE'
>sample(1:6,10,replace=TRUE)
[1]3244426333
>
您可以看到當我們用sample(1:6,10,replace=TRUE)的指令時,可以正確的模擬出投擲骰子十次的隨機過
程,得到3244426333這個序列,但是若我們沒有指定replace=T(TRUE),的時候,代表要採用取樣
後不放回的方式,但是這種方式最多只能做六次,所以就得到失敗的結果。
不過如果我們指定的樣本數k在六個以下,那麼sample(1:6,k)是會成功的,以下是一個範例:
>sample(1:6,6)
[1]264153
35.
同樣的,我們也可以用sample函數模擬投擲銅板的過程,只是由於同板只有兩個面(正面與反面),因此
我們可以用以下的方式模擬:
>face=c("正","反")
>sample(face,10,replace=TRUE)
[1]"正""反""正""反""反""正""反""正""正""反"
上述模擬中的第一個指令face=c("正","反"),代表我們要建立一個有兩個字串元素[正,反]的陣列。
然後
第二個指令sample(face,10,replace=TRUE)是用這樣的陣列去產生10個樣本(取後放回的方式)。
有時候,我們希望模擬的事物,其機率並非平均的,舉例而言,像是灌過鉛的骰子,或者是像台灣的廟裏
面常見的「擲茭」,其機率可能是不平均的,對這種情況我們就可以指定sample(x,size,replace=FALSE,
prob=NULL)這個函數的第四個參數,也就是prob來模擬。
舉例而言,假如「擲茭」的正面機率是0.6,而反面機率是0.4,那麼我們就可以用下列方式模擬「擲茭」
十次的過程。
>sample(face,10,replace=TRUE,c(0.6,0.4))
[1]"反""正""反""反""反""正""正""正""正""正"
習題
習題1:請模擬從班上隨機抽學生一萬次,看看誰與你最有緣(抽到次數最多)
36.
解答:假設班上有59人,那麼編為1到59號,於是我們可以用下列程式,進行1萬次抽樣,並繪出統
計圖。
>x=sample(1:59,10000,TRUE)
>hist(x,breaks=0.5:60)
執行結果
37.
圖、最有緣的同學統計圖
習題2:感受中央極限定理
>x=sample(1:6,10000,T)
38.
>y=sample(1:6,10000,T)
>z=sample(1:6,10000,T)
>hist(x,breaks=0.5:7)
>hist(y,breaks=0.5:7)
>hist(z,breaks=0.5:7)
>hist(x+y,breaks=1.5:13)
>hist(x+y+z,breaks=2.5:19)
執行結果
39.
圖、x+y+z的分布圖
40.
條件機率
條件機率的定義:
在A事件出現的情況下,B事件出現的機率,稱為P(B|A)。
範例1:
舉例而言,假如我們已知某投擲骰子的結果為偶數(事件A=偶數),那麼結果為3點(事件B=3點)的
機率為多少?
這個條件機率可以用下列算式表示。
P(B|A)=P(3點|偶數)
範例2:
41.
當然、B不一定要是A的子集合,舉例而言,假如B為「不大於3點」的事件,那麼我們就可以將
條件機率表示如下:
P(B|A)=P(不大於3點|偶數)
獨立事件
獨立事件的定義:
事件A與B彼此獨立,則A,B兩事件同時出現的機率為
請注意數學中定義的意義,定義代表某種規定,是不需要證明的,只要不符合這種規定的,就不能用此一
名詞描述,也就是不符合此定義。
因此、並非所有的事件A,B都會是獨立的,但若事件A,B符合上述規定的話,我們就稱這兩個事件彼此
獨立。
舉例而言,假如對於一個公平的骰子而言,請問下列的A,B事件之間是否彼此獨立。
42.
範例1.兩事件不獨立的情況
問題:請問「A=偶數,B=3點」這兩個事件是否獨立
解答:
P(A)=3/6=1/2
P(B)=1/6
P(A∩B)=0
P(A)P(B)=1/2*1/6=1/12
由於P(AB)P(A)P(B),所以這兩個事件彼此不獨立。
範例2.兩事件獨立的情況
問題:請問「A=偶數,B=不大於4點」這兩個事件是否獨立
解答:
43.
P(A)=3/6=1/2
P(B)=4/6=2/3
P(A∩B)=P({2點,4點})=2/6=1/3
P(A)P(B)=1/2*2/3=1/3
由於P(A∩B)=P(A)P(B),所以這兩個事件彼此獨立。
習題:請證明以下定理:
定理1.若A,B彼此獨立,則
定理2.
彼此獨立<=>
定理3.乘法規則:
習題:請舉出一組獨立事件的範例
44.
貝氏定理
貝氏定理:
證明:
由條件機率的定義可得
,也可以得到
所以
於是得到
習題:
習題1.請驗證「A=偶數,B=3點」這兩個事件是否符合貝氏定理
習題2.請驗證「A=偶數,B=不大於4點」這兩個事件是否符合貝氏定理
45.
條件獨立
條件獨立的定義:
假如A與B在給定C的情況下條件獨立,那麼以下算式成立:
;
習題:請證明以下定理:
定理:
習題:牙疼的診斷問題
本問題來自人工智慧的經典教科書「ArtificialIntelligence:AModernApproach」第三版,475頁。
問題描述:當病人來看牙醫時,該病人可能有蛀牙或沒蛀牙,也可能有牙痛或沒有牙痛,而牙醫可能會找
到牙痛的原因或找不到。
46.
因此有下列三個隨機變數
X:(蛀)蛀牙與否(Cavity)Y:(痛)牙痛與否(Toothache)Z:(找)是否找到痛的牙(Catch)
假如這個問題個統計機率都已經知道了,如下表所示。
牙痛(Y=1)
不牙痛(Y=0)
找到(Z=1)
找不到(Z=0)
找到(Z=1)
找不到(Z=0)
蛀牙(X=1)
0.108
0.012
0.072
0.008
沒蛀牙(X=0)
0.016
0.064
0.144
0.576
請回答下列問題
問題1:請計算P(沒痛)=?
問題2:請計算P(找到|牙痛)=?
問題3:請問這是一個合理的機率分布嗎?
問題4:請計算P(找到|蛀牙)=?
問題5:請計算P(找到,牙痛)=?
問題6:請計算P(蛀|找到),P(蛀),P(找到),P(找到|蛀),然後驗證下列貝氏定理是否成立。
47.
P(找到|蛀)=P(蛀|找到)P(找到)/P(蛀)
解答
R的陣列是用以行為主的順序(ColumnMajorOrder),請看下列檔案中的說明:
http://cran.r-project.org/doc/manuals/R-lang.pdf
2.2.2Thedimattributeisusedtoimplementarrays.Thecontentofthearrayisstoredinavectorincolumnmajororderandthedimattributeisavectorofintegersspecifyingtherespectiveextentsofthearray.R
ensuresthatthelengthofthevectoristheproductofthelengthsofthedimensions.Thelengthofoneormore
dimensionsmaybezero.
所以我們必須用以行為主的順序(ColumnMajorOrder)將機率列舉出來,如下表所示:
蛀X
痛Y
找Z
P(X,Y,Z)
0
0
0
0.576
1
0
0
0.008
48.
0
1
0
0.064
1
1
0
0.012
0
0
1
0.144
1
0
1
0.072
0
1
1
0.016
1
1
1
0.108
而且R的陣列是從1開始算的,不像C語言是從0開始算的,因此還必須將上表修改如下:
蛀X
痛Y
找Z
P(X,Y,Z)
1
1
1
0.576
2
1
1
0.008
1
2
1
0.064
2
2
1
0.012
49.
1
1
2
0.144
2
1
2
0.072
1
2
2
0.016
2
2
2
0.108
>pp
,,1
[,1]
[,2]
[1,]0.5760.064
[2,]0.0080.012
,,2
[,1]
[,2]
[1,]0.1440.016
50.
[2,]0.0720.108
>p[1,1,1]
[1]0.576
>p[2,1,1]
[1]0.008
>p[1,2,1]
[1]0.064
>p[2,2,1]
[1]0.012
>p[1,1,2]
[1]0.144
>p[2,1,2]
[1]0.072
>p[1,2,2]
[1]0.016
>p[2,2,2]
[1]0.108
>dimnames(p)[[1]]=c("沒蛀","蛀")
>dimnames(p)[[2]]=c("沒痛","痛")
>dimnames(p)[[3]]=c("沒找","找")
51.
>p
,,沒找
沒痛
痛
沒蛀0.5760.064
蛀
0.0080.012
,,找
沒痛
痛
沒蛀0.1440.016
蛀
0.0720.108
解答1:P(沒痛)=0.8計算過程:
>p[,"沒痛",]
沒找
找
沒蛀0.5760.144
蛀
0.0080.072
>sum(p[,"沒痛",])
[1]0.8
52.
解答2:P(找到|牙痛)=0.62
>p[,,"找"]
沒痛
痛
沒蛀0.1440.016
蛀
0.0720.108
>sum(p[,,"找"])
[1]0.34
>sum(p[,"痛","找"])
[1]0.124
>sum(p[,"痛","找"])/sum(sum(p[,"痛",]))
[1]0.62
解答3:請問這是一個合理的機率分布嗎?(是的,因為總和為1,而且每個機率直都介於0到1之間)
>sum(p)
[1]1
>0<=p&p<=1
,,沒找
沒痛
痛
53.
沒蛀TRUETRUE
蛀
TRUETRUE
,,找
沒痛
痛
沒蛀TRUETRUE
蛀
TRUETRUE
問題4:請計算P(找到|蛀牙)=?
>
sum(p["蛀",,"找"])/sum(p["蛀",,])
[1]0.9
問題5:請計算P(找到,牙痛)=?
>sum(p[,"痛","找"])
[1]0.124
解答6:請計算P(蛀|找到),P(蛀),P(找到),P(找到|蛀),然後驗證下列貝氏定理是否成立。
54.
P(蛀|找到)=p(找到|蛀)*p(蛀)/p(找到)
說明:
P(蛀|找到)=0.5294118,P(蛀)=0.2,P(找到)=0.34,P(找到|蛀)=0.9
P(蛀|找到)=0.5294118=0.9*0.2/0.34==p(找到|蛀)*p(蛀)/p(找到)
>pab=sum(p["蛀",,"找"])/sum(p[,,"找"])#pab=P(蛀|找到)
>pba=sum(p["蛀",,"找"])/sum(p["蛀",,])#pba=P(找到|蛀)
>pa=sum(p["蛀",,])#pa=P(蛀)
>pb=sum(p[,,"找"])#pb=P(找到)
>pab
[1]0.5294118
>pba
[1]0.9
>pa
[1]0.2
>pb
[1]0.34
55.
>pba*pa/pb
[1]0.5294118
>pab-pba*pa/pb
[1]0
所以
p(蛀|找)
=sum(p["蛀",,"找"])/sum(p[,,"找"])
=pab
=pba*pa/pb
=p(找|蛀)*p(蛀)/p(找)
=sum(p["蛀",,"找"])/sum(p[,,"蛀"])*sum(p[,,"蛀"])/sum(p["找",,])
完整的操作過程
>pp
,,1
[,1]
[,2]
[1,]0.5760.064
56.
[2,]0.0080.012
,,2
[,1]
[,2]
[1,]0.1440.016
[2,]0.0720.108
>p[1,1,1]
[1]0.576
>p[2,1,1]
[1]0.008
>p[1,2,1]
[1]0.064
>p[2,2,1]
[1]0.012
>p[1,1,2]
[1]0.144
>p[2,1,2]
[1]0.072
>p[1,2,2]
57.
[1]0.016
>p[2,2,2]
[1]0.108
>dimnames(p)[[1]]=c("沒蛀","蛀")
>dimnames(p)[[2]]=c("沒痛","痛")
>dimnames(p)[[3]]=c("沒找","找")
>p
,,沒找
沒痛
痛
沒蛀0.5760.064
蛀
0.0080.012
,,找
沒痛
痛
沒蛀0.1440.016
蛀
0.0720.108
>p[,"沒痛",]
沒找
找
58.
沒蛀0.5760.144
蛀
0.0080.072
>p[,,"找"]
沒痛
痛
沒蛀0.1440.016
蛀
0.0720.108
>sum(p[,,"找"])
[1]0.34
>sum(p[,"痛","找"])
[1]0.124
>sum(p[,"痛","找"])/sum(sum(p[,"痛",]))
[1]0.62
>sum(p)
[1]1
>0<=p&p<=1
,,沒找
沒痛
痛
沒蛀TRUETRUE
蛀
TRUETRUE
59.
,,找
沒痛
痛
沒蛀TRUETRUE
蛀
TRUETRUE
>sum(p["蛀",,"找"])/sum(p["蛀",,])
[1]0.9
>sum(p["蛀",,"找"])/sum(p["蛀",,])
[1]0.9
>sum(p[,"痛","找"])/sum(p[,"痛",])
[1]0.62
>sum(p[,"痛","找"])
[1]0.124
>pab=sum(p["蛀",,"找"])/sum(p[,,"找"])#pab=P(蛀|找到)
>pba=sum(p["蛀",,"找"])/sum(p["蛀",,])#pba=P(找到|蛀)
>pa=sum(p["蛀",,])#pa=P(蛀)
>pb=sum(p[,,"找"])#pb=P(找到)
>pab
[1]0.5294118
>pba
60.
[1]0.9
>pa
[1]0.2
>pb
[1]0.34
>pba*pa/pb
[1]0.5294118
>pab-pba*pa/pb
[1]0
>
61.
隨機變數
隨機變數簡介
如果X指定給機率空間S中每一個事件e一個實數X(e),同時針對每一個實數r都有一個事件集合
與其相對應,其中
,那麼X被稱作隨機變數。
隨機變數是機率理論當中非常重要的一個概念,但是卻也非常容易被誤解,因為隨機變數其實是一種函
數,而非只是簡單的變數,以下是機變數的定義。
隨機變數(RandomVariable)
定義:隨機變數是以樣本空間S為定義域的實數值函數,可以寫為X(s),其中
換言之,隨機變數X是一個機率空間(probabilityspace)中的函數,可以寫為
數將S的某一子集合映射到實數領域R。
,該函
62.
圖、實數坐標軸上的隨機變數示意圖
舉例而言,投擲一個銅板時,可能出現正面或反面,此時的樣本空間S={正面、反面}。
假如這是一個公平的銅板,兩面的機率各為1/2,那麼我們就可以寫為P(正面)=1/2,P(反面)=1/2。
但是在這樣的描述當中,並沒有函數的慨念,因此不符合隨機變數的定義。
如果我們用一個函數X,代表銅板正面出現的次數,那麼X會將{正面、反面}映設到{1,0},這樣的函
數才符合隨機變數的定義。
我們可以寫為
面)=1,X(反面)=0。
,其中的樣本空間S={正面、反面},且X(正
63.
為何要這麼麻煩呢?為何我們不直接指定樣本空間中每一元素的機率就好了呢?
原因之一是,採用隨機變數概念的描述,才能將函數引入到機率模型中,這樣也才能更方便的描述一系列
的隨機試驗。
舉例而言,假如我們投擲兩個銅版,出現正面的個數為一個隨機變數,假如這個隨機變數稱為X2,那麼
X2的定義域(樣本空間)就是S2={正正、正反、反正、反反},那麼隨機變數X2就會將S2空間中的元素
映射到{2,1,0}這些實數值上,如下所示:
X2(正正)=2
X2(正反)=1
X2(反正)=1
X2(反反)=0
這樣我們就可以用「機率密度函數」來描述各個事件出現的機率,例如用P[X2=2]代表出現兩次正面的機
率,P[X2=1]代表出現一次正面的機率,而P[X2=0]代表沒有出現正面的機率。
範例:
隨機擲兩個骰子,整個事件空間可以由36個元素組成:
64.
這裡可以構成多個隨機變數,比如隨機變數X(獲得的兩個骰子的點數和)或者隨機變數Y(獲得的
兩個骰子的點數差),隨機變數X可以有11個整數值,而隨機變數Y只有6個。
;
;
在此,我們引入了一個新的概念,稱為「機率密度函數」,讓我們更仔細的看看這個概念的意義。
習題1:
問題:請定義擲茭(博杯)的隨機變數
說明:
a.有杯映射到1,沒杯映射到0
b.樣本空間為{正正、正反、反正、反反}
c.{正反、反正}稱為有杯
65.
解答:
X({正正})=0
X({正反})=1
X({反正})=1
X({反反})=0
補充:假如博杯正面積率為0.6,反面機率為0.4,而且兩個杯之間互相獨立,那麼假如根據機率公
理第三條,可以算出:
P({正正})=P(正)*P(正)=0.6*0.6=0.36
P({正反})=P(正)*P(反)=0.6*0.4=0.24
P({反正})=P(反)*P(正)=0.4*0.6=0.24
P({反反})=P(反)*P(反)=0.4*0.4=0.16
所以
P(X=1)=P({正反,反正})=P({正反})+P({反正})=0.24+0.24=0.48
66.
P(X=0)=P({正正,反反})=P({正正})+P({反反})=0.36+0.16=0.52
習題2:
問題:假如現在從你身上抽一滴血,請回答下列兩個問題。
1.請定義一個隨機變數X代表那滴血中的白血球數量。
提示:樣本空間S=此時此刻你身上的所有白血球={w1,w2,......,wn}
2.請算出一滴血液中有三顆白血球的機率,假設該滴血液占你總血量的1/1000。
解答1:
X(A)=|A|
說明:
A是一個事件,也就是白血球的樣本空間S的子集合,例如:A={w1,w5,w9}
|A|代表A集合的大小,也就是元素個數,舉例而言:
67.
如果A={w1,w5,w9},那麼|A|=3
如果B={w2,w8},那麼|B|=2
如果C={},那麼|C|=0
如果D=S,那麼|D|=n
解答2:
P(X=3)=P({A|X(A)=3})=P({{w1,w2,w3})+P({w1,w2,w4})+......
假如任一顆白血球被抽到的機率等於該滴血液佔全身血液的比率,由於該滴血液佔總血量的
1/1000,所以給顆白血球被抽到的機率為1/1000。
而且假設這些白血球沒有智慧,也不會聚合在一起,因此相互之間獨立,那麼由於每顆白血球被抽
到的機率為1/1000,因此P(w1)=P(w2)=....P(wn)=1/1000。
那麼初步想法是P(w1w3)=P(w1)*P(w3)=1/1000*1/1000。
但是上述的想法有個小問題,那就是該情況代表其它白血球都沒被抽到,因此所謂的P(w1w3)真正
的意思應該是
68.
所以P(X=3)應該算法如下:
推而廣之,P(X=k)的機率之算法如下:
事實上,這個題目的機率分布就是下一章的二項分布,如下所示:
而且、當n趨近於無限大時,這個分布將會趨近於布瓦松分布,如下所示:
其中的λ之意義為,在單位時間(或單位面積、體積)內,事件的出現次數平均為λ次。
69.
離散與連續
如果隨機變數X的取值是有限的或者是可數無窮盡的值,則稱X為離散隨機變數,如下所示:
如果X由全部實數或者由一部分區間組成,則稱X為連續隨機變數,連續隨機變數的值是不可數及無窮
盡的。
例如:擲骰子和丟銅版,都是離散型的隨機變數。
而常態分布或均等分布,則是連續型的隨機變數之分
布。
機率密度函數(ProbabilisticDensityFunction)
機率密度函數(ProbabilisticDensityFunction,PDF)
定義:機率密度函數則是一個符合機率公理的的函數P,當我們寫P[X=x]時,意味著x是一個特定
實數,其機率定義如下:
70.
其中的
乃是一個S的子集合,定義為
舉例而言,P[X=2]代表
。
的機率。
讓我們來看看更多的機率密度函數的範例。
範例1:
在投擲銅板的機率過程中,其樣本空間S={正,反},
而其中一個常見的隨機變數X,是用來計算銅板的正面數量,
也就是X(正)=1,X(反)=0。
此時,P[X=1]=P({正})=0.5,而P[X=0]=P({反})=0.5
範例2:
71.
在投擲兩個銅板的機率過程中,其樣本空間S={正正,正反,反正,反反},
而其中一個常見的隨機變數X,是用來計算銅板的正面數量,
也就是X(正正)=2,X(正反)=X(反正)=1,X(反反)=0。
P[X=2]=P({正正})=0.25P[X=1]=P({正反,反正})=0.5P[X=0]=P({反反})=0.25
範例3:
在投擲骰子的機率過程中,其樣本空間S={1點,2點,3點,4點,5點,6點},
而其中一個常見的隨機變數X,是用來計算點數的,
也就是X(1點)=1,X(2點)=2,...X(6點)=6。
此時,P[X=1]=P[X=2]=...=P[X=6]=1/6。
範例4:
在投擲骰子的機率過程中,其樣本空間S={1點,2點,3點,4點,5點,6點},
72.
而其中一個不常見的隨機變數Y,是用來辨認偶數點的,
也就是Y(1點)=0,Y(2點)=1,Y(3點)=0,Y(4點)=1,Y(5點)=0,Y(6點)=1。
此時,P[Y=1]=P[Y=0]=1/2。
累加分配函數(CumulativeDistributionFunction)
有了上述的「隨機變數」與「機率密度函數」之後,我們就可以很容易的定義「累加分配函數」這種在
「實數值」上的概念了。
累加分配函數(CumulativeDistributionFunction,CDF)
定義:累加分配函數F(x)代表所有小於x的機率密度函數之累加值
離散情況:
連續情況:
73.
為了方便起見,我們經常會將P[X=1]簡寫成P(1)或f(1),P[X=x]簡寫成P(x)或f(x)。
所以上面公
式中的P(x)是離散情況中機率密度函數P[X=x]的簡寫,而f(x)是連續情況中P[X=x]的簡寫。
隨機變數的代數運算
在單一個樣本空間S中,可以有很多不同的隨機變數X,Y,...,因為將S映射到R的函數有很多,例如:
1.X(s)其中
2.Y(s)其中
3....
在機率統計中,我們經常看到隨機變數可以像數值一樣進行+,-,*等運算。
舉例而言,假如X,Y均為隨
機變數,那麼「X+Y」,「X-Y」,「X*Y」等都是隨機變數。
但是在前文中,我們看到了隨機變數其實被定義為一個「實數值函數」
等運算就是在函數上所進行的運算,這些運算的函意到底是甚麼呢?
3X的意義
,那麼這些+,-,*
74.
隨機變數3X代表的是一個函數Z=3X,其中Z函數對每一個元素s的映射值均為X的3倍,也就是:
Z(s)=3*X(s)
範例:
問題:令X為擲骰子點數的隨機變數,也就是X(k點)=k(k=1..6),那麼隨機變數3X代表的是Z(k
點)=3*X(k點)=3k這個函數。
根據這樣的表示方法,如果Z=3X,那麼請計算下列機率值。
1.請問P[Z=3]=?,(答案為1/6)
2.請問P[Z=1]=?,(答案為0)
3.請問P[Z=18]=?,(答案為1/6)
4.請問P[Z=5]=?,(答案為0)
範例:
問題:令X為丟銅板所得正面次數的隨機變數,也就是X(正)=1,X(反)=0,那麼隨機變數Z=3X代表
75.
的是Z(正)=3,Z(反)=0這個函數。
X+Y的意義
隨機變數X+Y代表的是一個函數Z=X+Y,其中Z函數對每一個元素s的映射值均為X+Y的映射值總
和,也就是:Z(s)=X(s)+Y(s)
範例:
令X,Y均為為擲骰子點數的隨機變數,也就是X(k點)=Y(k點)=k(k=1..6),那麼X+Y代表的是隨機變
數Z(k點)=2k這個隨機變數。
範例:
問題:令X為擲骰子點數的隨機變數,Y為丟銅板所得正面次數的隨機變數,那麼X+Y這個隨機變
數代表甚麼意義呢?
解答:這兩個隨機變數的定義域不同,因此不能相加,但是若我們將定義域擴展為聯合分布,那麼
就可以相加。
在這個範例中,X與Y兩者的定義域SX,SY並不相同,因此必須用聯合隨機分布的概念,也就是同
76.
時投擲一顆骰子與一個銅板,才能有效說明X+Y的意義。
對於定義域不同的兩個隨機變數而言,其樣本空間可用兩者的「笛卡兒」乘積代表,也就是SX={1
點,....,6點},而SY={正,反}。
此時X+Y所在的樣本空間,必須解釋為{1點,....,6點}與{正,反}兩者的笛卡兒乘積,總共有12種
可能,聯合分布的樣本空間S如下所示。
S=
={(1點,正),(1點,反),(2點,正),(2點,反),....(6點,正),(6點,反)}
因此,Z=X+Y所代表的隨機變數,其實是一個Z函數,該函數將
的X作用在
上,而Y作用在
映射到實數R中,其中
上,也就是:Z(s)=Z(x,y)=X(x)+Y(y)
所以,P(Z=2)也可以寫成P(X+Y=2),也就是P({(1點,正),(2點,反)}),因此P(Z=2)的機率為2/12=1/6。
XY的意義
隨機變數XY代表的是一個函數Z=XY,其中Z函數對每一個元素s的映射值均為XY的映射值乘積,
也就是:
Z(s)=X(s)Y(s)
範例:
77.
問題:令X為擲骰子點數的隨機變數,Y為丟銅板所得正面次數的隨機變數,那麼XY這個隨機變
數代表甚麼意義呢?
解答:這兩個隨機變數的定義域不同,因此不能相加,但是若我們將定義域擴展為聯合分布,那麼
就可以相加。
同上一個範例,X與Y兩者的定義域
並不相同,樣本空間仍然用其「笛卡兒」乘積代
表。
={(1點,正),(1點,反),(2點,正),(2點,反),....(6點,正),(6點,反)}
S=
因此,Z=XY所代表的隨機變數,其實是一個Z函數,該函數將
的X作用在
上,而Y作用在
映射到實數R中,其中
上。
所以,P(Z=2)也可以寫成P(XY=2),也就是P({(2點,正)}),因此P(Z=2)的機率為1/12。
X^k的意義
隨機變數
方,也就是:
代表的是一個函數
,其中Z函數對每一個元素s的映射值均為X(s)的k次
78.
範例:X為投擲1顆骰子點數的隨機變數,且定義
,請問隨機變數P(Z=4)的機率為何?
解答:
所以P(Z=4)相當於P(X=2)=P({2點})=1/6
但必須注意的是Z的定義域雖仍然為({1點,....,6點}),但是值域卻為1,4,9,16,25,36。
結語
隨機變數X,Y,Z,...乃是一種作用於樣本空間S的實函數,此種函數會將樣本點映射到實數中,例如:
代表函數X將樣本空間中的元素s映射到某個實數值x。
利用隨機變數映射完成之後,就可以比較大小,因此可以計算「機率密度函數」與「累加分配函數」,這
樣就能利用加總或積分去計算某個區間內的機率,讓機率模型得以進行數學性的運算。
我想這是為甚麼數學家要將隨機變數定義成實函數的原因之一吧!
79.
機率分布
簡介
在程式設計領域,「設計模式」是一些經常被使用到的物件樣式,而在數學領域,也同樣存在著某些「常
見模式」,在機率統計領域,這些「常見模式」就是機率分布。
機率分布可以分為「離散型」與「連續型」兩類,離散型的機率分布通常只會有整數型的值,而連續型的
機率分布則在整個實數軸上都可能產生樣本。
伯努力試驗(Bernoullitrial)
所有的離散型機率分布,幾乎都是從「伯努力試驗」這個概念開始的,讓我們先來瞭解一下何謂「伯努力
試驗」。
伯努利試驗是一項只有兩種可能結果的隨機試驗,可以用下列機率分布描述:
換句話說、伯努力試驗是一種YESorNO(1or0)的試驗。
舉例而言,像是「丟銅版、生男生女、一地區
80.
某天最高溫是否超過30度、擲骰子是否超過2點」等等,都可以用伯努力實驗描述。
伯努力試驗的概念很簡單,以下是一些範例:
範例1:
丟一個公正銅板,用隨機變數X將正面映射為1,反面映射為0,那麼就可以用P[X=1]=0.5,
P[X=0]=0.5表示這個機率模型。
在R軟體中,Sample函數可以用來模仿柏努力試驗。
舉例而言,以下是範例一的丟銅板試驗,指令sample(0:1,10,replace=T,prob=c(0.5,0.5))代表連續進行10次
柏努力試驗,成功失敗機率各為0.5。
>sample(0:1,10,replace=TRUE,prob=c(0.5,0.5))
[1]1011010101
>sample(0:1,10,replace=T)
[1]0111001110
說明:X(反面)=0,X(正面)=1,第一個參數0:1分別代表{反面、正面}的映射結果,而第二個參數代表只投
擲一次,第三個參數replace代表樣本取後是否放回,這在頭銅板的範例必須用replace=TRUE,因為這次
81.
投正面之後不代表下次不能再出現正面,而prob則是指定的機率分布,如果不指定則代表採用平分的機
率分布,以這個例子就是各為0.5的方式。
範例2:
假如用機率描述生男生女這件事,X({生男})=1,X({生女})=0,且生男生的機率為0.53,生女生的機率
為0.47,那麼就可以用P[X=1]=0.53,P[X=0]=0.47表示這個機率模型。
>sample(0:1,10,replace=T,prob=c(0.47,0.53))
[1]0110110110
二項分布(Binomialdistribution)
如果我們進行n次的伯努力試驗,每一次的實驗都可以用隨機變數描述,P(ti=1)=p,P(ti=0)=1-p,而且這
些試驗{t1,t2,....,tn}之間是獨立的,那麼我們就可以用二項分布來描述n次實驗的可能機率分布。
由於這n次實驗相互獨立,假如(t1t2...tn)代表這個實驗的一個可能出像,因此P(t1t2....tn)=P(t1)P(t2)
....P(tn)。
令X代表一個可以將(t1t2...tn)映射到伯努力試驗成功(Yes)次數的函數,那麼、n次實驗中出現k次1
的機會,可以用以下算式表示。
82.
舉例而言,投擲公正銅板5次,得到3次正面的機率為
,其中
p=0.5。
範例:
假如生男生的機率為0.53,生女生的機率為0.47,而且每位母親生男生女的事件之間都是獨立的。
某母親A想要生3個小孩,請問至少有一個男生的機會為多少。
用機率描述生男生女這件事,X({生男})=1,X({生女})=0,那麼可以計算至少生一個男生的機率如下:
,其中p=0.53,(1-p)=
0.47。
讓我們用R軟體計算一下
>dbinom(1,3,0.53)+dbinom(2,3,0.53)+dbinom(3,3,0.53)
83.
[1]0.896177
>sum(dbinom(c(1,2,3),3,0.53))
[1]0.896177
>x=c(1,2,3)
>x
[1]123
>p=dbinom(x,3,0.53)
>p
[1]0.3512310.3960690.148877
>sum(p)
[1]0.896177
二項分布的圖形
>par(mfrow=c(2,2))
>x=0:5
>b5=dbinom(x,5,0.5)
>plot(x,b5,type="h")
>b3=dbinom(x,5,0.3)
>plot(x,b3,type="h")
>b7=dbinom(x,5,0.7)
>plot(x,b7,type="h")
84.
>b1=dbinom(x,5,0.1)
>plot(x,b1,type="h")
85.
習題
1.請問丟10個公平的銅板,有三個正面的機會是多少?
2.請問丟n個公平的銅板,正面次數<=k的機率是多少?
3.請問丟10個公平的銅板,得到正面次數的期望值為何?
幾何分布(Geometricdistribution)
如果我們連續進行一系列的伯努力試驗,直到成功才停止,那麼我們需要進行多少次實驗呢?
關於這種「直到成功才停止」的問題,可以用幾何分布來描述,以下是幾何分布的定義。
舉例而言,假如我們連續投擲公正銅版,直到出現正面才停止,那麼我們需要投擲k次才會得到第一個正
面的機率,就會是
,其中的p=0.5。
範例:
假如生男生的機率為0.53,生女生的機率為0.47,而且每位母親生男生女的事件之間都是獨立的。
86.
某位母親決定要一直生小孩,直到有一個女孩為止,請問她在生小孩個數不大於三個就能完成任務
的機率為多少?
用機率描述生男生女這件事,X({生女})=1,X({生男})=0,那麼就可以累加下列算式以計算結果。
讓我們用R軟體計算一下,必須注意的是,R軟體中的幾何分布dgeom的定義為
,也就是用失敗次數當x,因此其公式與上面的有所不同,必須修改如下:(其中的x代表失敗次數)。
>dgeom(0,0.47)
[1]0.47
>dgeom(1,0.47)
[1]0.2491
>sum(dgeom(c(0,1,2),0.47))
[1]0.851123
87.
習題
1.請問丟公平的銅板時,得到第1次正面時投擲次數k的機率分布為何?該分布的期望值為何?
2.請問丟公正的骰子時,得到第1次6點時投擲次數k的機率分布為何?該分布的期望值為何?
負二項分布
如果我們對「幾何分布」進行擴充,改成「持續進行試驗直到取得r次成功為止」,那麼其機率分布又該
如何描述呢?
這樣的機率分布就稱為負二項分布,其公式如下:
舉例而言,假如我們連續投擲公正銅版,直到出現三次正面才停止,那麼我們需要投擲k次才會得到第一
個正面的機率,就會是
,其中的p=0.5。
讓我們用R軟體計算一下,必須注意的是,R軟體中的負二項分布dbinom的定義為Γ(x+n)/(Γ(n)x!)p^n
(1-p)^x,也就是用n=r,x=k-r-1的代換方式。
其中的x同樣代表失敗次數,而n代表成功次數,Γ(n)代表排列數,所以Γ(x+n)/(Γ(n)x!)其實也就是
88.
(x+n-1)!/((n-1)!x!),也就是
的意思。
R的操作範例
>dnbinom(0,3,0.5)
[1]0.125
>dnbinom(1,3,0.5)
[1]0.1875
>dnbinom(0:10,3,0.5)
[1]0.1250000000.1875000000.1875000000.1562500000.1171875000.082031250
[7]0.0546875000.0351562500.0219726560.0134277340.008056641
>n=3
>x=1
>p=0.5
>gamma(x+n)/(gamma(n)*prod(1:x))*p^n*(1-p)^x
[1]0.1875
>choose(x+n,n)*p^n*(1-p)^x
[1]0.25
>choose(x+n-1,x)*p^n*(1-p)^x
[1]0.1875
89.
範例:
假如生男生的機率為0.53,生女生的機率為0.47,而且每位母親生男生女的事件之間都是獨立的。
某位母親決定要一直生小孩,直到有三個女孩為止,請問她在生小孩個數不大於5個就能完成任務
的機率為多少?
用機率描述生男生女這件事,X({生女})=1,X({生男})=0,那麼就可以累加下列算式以計算結果。
,其中p=0.47,r=3。
但是由於R是用失敗次數
>dnbinom(3,3,0.47)
[1]0.1545686
>dnbinom(4,3,0.47)
[1]0.122882
>p=dnbinom(c(3,4,5),3,0.47)
>p
[1]0.154568570.122882010.09117845
90.
>sum(p)
[1]0.368629
負二項分布的圖形
>par(mfrow=c(2,2))
>nb5=dnbinom(x,5,0.5)
>plot(nb5,type="h")
>nb7=dnbinom(x,5,0.7)
>plot(nb7,type="h")
>nb2=dnbinom(x,5,0.2)
>plot(nb2,type="h")
>nb9=dnbinom(x,5,0.9)
>plot(nb9,type="h")
91.
布瓦松分布(Poissondistribution)
在離散機率分布當中,布瓦松分布算是相當特別的一個,因為「布瓦松分布」是描述「連續區域內出現幾
個樣本」的分布。
舉例而言,像是舀一瓢水會撈到的草履蟲數量,或者抽一滴血會抽到的白血球數量等
等。
布瓦松分布的公式如下所示,其中的
代表每單位區域內會出現的樣本平均數。
要瞭解布瓦松分布,得從二項分布的極限開始想起,以下是三種不同
參數的布瓦松分布圖:
92.
圖、布瓦松分布
來源:http://en.wikipedia.org/wiki/Poisson_distribution
事實上、布瓦松分布是二項分布在n趨近無限大的極限情況。
93.
圖、布瓦松分布是二項分布n趨近無限大的極限情況
來源:http://en.wikipedia.org/wiki/File:Binomial_versus_poisson.svg
為了說明布瓦松分布與二項分布之間的關係,讓我們用以下的白血球範例來看看隱藏在這兩個分布背後的
關係:
範例:抽血時白血球數量的問題
問題:假如現在從你身上抽一滴血,請回答下列兩個問題。
1.請定義一個隨機變數X代表那滴血中的白血球數量。
提示:樣本空間S=此時此刻你身上的所有白血球={w1,w2,......,wn}
2.請算出一滴血液中有三顆白血球的機率,假設該滴血液占你總血量的1/1000。
解答1:
X(A)=|A|
說明:
94.
A是一個事件,也就是白血球的樣本空間S的子集合,例如:A={w1,w5,w9}
|A|代表A集合的大小,也就是元素個數,舉例而言:
如果A={w1,w5,w9},那麼|A|=3
如果B={w2,w8},那麼|B|=2
如果C={},那麼|C|=0
如果D=S,那麼|D|=n
解答2:
P(X=3)=P({A|X(A)=3})=P({{w1,w2,w3})+P({w1,w2,w4})+......
假如任一顆白血球被抽到的機率等於該滴血液佔全身血液的比率,由於該滴血液佔總血量的
1/1000,所以給顆白血球被抽到的機率為1/1000。
而且假設這些白血球沒有智慧,也不會聚合在一起,因此相互之間獨立,那麼由於每顆白血球被抽
到的機率為1/1000,因此P(w1)=P(w2)=....P(wn)=1/1000。
那麼初步想法是P(w1w3)=P(w1)*P(w3)=1/1000*1/1000。
95.
但是上述的想法有個小問題,那就是該情況代表其它白血球都沒被抽到,因此所謂的P(w1w3)真正
的意思應該是
所以P(X=3)應該算法如下:
推而廣之,P(X=k)的機率之算法如下:
事實上,這個題目的機率分布就是下一章的二項分布,如下所示:
而且、當n趨近於無限大時,這個分布將會趨近於布瓦松分布,如下所示:
96.
其中的λ之意義為,在單位時間(或單位面積、體積)內,事件的出現次數平均為λ次。
習題
習題:假設每1CC的血所含的白血球平均為10顆,那麼請問你抽1CC的血時,抽到8顆白血球的機率
是多少。
解答:
λ=10,因此布瓦松分布為
其數值可以用R軟體計算,如下所示:
>?dpois
>dpois(8,10)
[1]0.112599
>10^8*exp(-10)/prod(1:8)
[1]0.112599
布瓦松分布的圖形
,將x=8代入,得到
97.
>par(mfrow=c(2,2))
>x=0:10
>p3=dpois(x,lambda=3)
>plot(p3,type="h")
>p7=dpois(x,lambda=7)
>plot(p7,type="h")
>p1=dpois(x,lambda=1)
>plot(p1,type="h")
>p5=dpois(x,lambda=5)
>plot(p5,type="h")
98.
均勻分布(Uniformdistribution)
99.
均勻分布的圖形
>dunif(0.5)
[1]1
>dunif(0.9)
[1]1
>dunif(2)
[1]0
>dunif(-1)
[1]0
>par(mfrow=c(2,2))
>x=0:10
>curve(dunif(x,min=0,max=1),from=-1,to=11)
>curve(dunif(x,min=0,max=10),from=-1,to=11)
>curve(dunif(x,min=3,max=6),from=-1,to=11)
>curve(dunif(x,min=2,max=9),from=-1,to=11)
100.
常態分布(NormalDistribution)
常態分布的圖形
>dnorm(0)
[1]0.3989423
>dnorm(0.5)
[1]0.3520653
>dnorm(2.5)
[1]0.0175283
>par(mfrow=c(2,2))
>curve(dnorm(x,mean=0,sd=1),from=-10,to=10)
>curve(dnorm(x,mean=0,sd=5),from=-10,to=10)
>curve(dnorm(x,mean=5,sd=1),from=-10,to=10)
>curve(dnorm(x,mean=-3,sd=3),from=-10,to=10)
101.
附件:離散型機率分布表格整理
以下是離散型機率分布的匯總表格,讀者現在還看不懂的話沒有關係,我們在後文中會解說其中較重要的
幾個分布。
離散機率模
密度函數
R函數名稱
說明
binom(n:size,p:prob)
n:樣本數,p:正面機率,
型
二項分布
n次試驗中有x個成功的機率
多項分布
multinom(n:size,
n:樣本數,p[1..n]:各項的機率
p(1..k):prob)
負二項分布
nbinom(size,prob)
x:樣本數,,p:正面機率,
要得到第r次成功所需要的試驗
次數
幾何分布
geom(p:prob)
p:成功機率,第一次成功所需要的
試驗次數
102.
超幾何分布
hyper(N:m,n:n,r:k)
m:白球數量,n:黑球數量,k:抽出球
數,
同二項分布,但取樣後不放回
布瓦松分布
pois(lambda)
k:期望值,
,
在s時間內,事件出現平均k次
附件:連續型機率分布表格整理
以下是連續型機率分布的匯總表格,讀者現在還看不懂的話沒有關係,我們在後文中會解說其中較重要的
幾個分布。
連續機率模型
均勻分布
密度函數
R函數
說明
unif(a:min,b:max)
a:範圍下限,b:上限
出現機會均等
(Uniform)
常態分布
(Normal)
norm(mean,sd)
中央極限定理:x1+x2+...+xk;
當k越大就越接近常態分布
103.
伽瑪分布
gamma(shape,
(Gamma)
rate=1,scale=
1/rate)
指數分布與卡方分布都是
Gamma分布的特例
指數分布
exp(rate)
(Exponential)
伽瑪分布(
)
布瓦松過程中,第一次事件
出現的時間W
卡方分布
chisq(df,ncp)
(Chi-Square)
伽瑪分布(
)
利用樣本推斷母體變異數
柯西分布
cauchy(b:location,
(Cauchy)
a:scale)
威布爾分布
weibull(a:shape,
(Weibull)
b:scale)
可靠度工程:f(x)失敗時間,
104.
R(t)可靠度,
失敗率
T分布(T)
t(df,ncp)
估計變異數時使用的分布
F分布(F)
f(df1,df2,ncp)
等變異數F檢定時使用
貝塔分布
beta(a:shape1,
(Beta)
b:shape2,ncp)
對數常態分布
lnorm(meanlog,
(LogNormal)
sdlog)
邏輯分布
logis(location,
scale)
Signrank
signrank(n)
威爾斯
wilcox(m,n)
a,b為兩組樣本
105.
期望值與動差生成函數
期望值
定義:期望值E(X),(通常用符號
離散分布:
)
;通常簡寫為
連續分布:
期望值的相關定理:
1.
代表,
;
或者直接寫
106.
2.
;
3.
;
證明
定理1:E[c]=c
;根據期望值定義
;根據基本算術
;因為P(x)是機率密度函數
定理2:E[cX]=cE[X]
;根據期望值定義
107.
;根據基本算術
;根據期望值定義
定理3:E[X+Y]=E[X]+E[Y]
假如離散隨機變數X,Y的機率密度函數分別用
代表。
;根據期望值定義
;根據乘法對加法的分配率
;
以上證明了離散的情況,連續的情況雷同,請比照上述寫法撰寫。
變異數
108.
定義:變異數Var(X)
離散隨機變數X的變異數Var(X)定義如下
說明:
1.上式中的Var(X)稱為X的變異數,而其平方根
2.以上算式中
的下標均為
,而非
稱為X的標準差。
(
為X的期望值)
,也就是x是實數值,而非樣本
點。
3.這也是為何要將隨機變數定義為實函數的原因,這樣才能對這些「變數」進行+,-,*>等代數
運算,並且可以進行期望值與變異數的計算。
定理:
;
109.
;
;
;
.
期望值的函數
有時,我們會想計算某個隨機變數之函數的期望值,像是E[g(X)]。
某隨機變數X之函數g(X)的期望值
期望值E[g(X)]:
舉例而言,
就是一個隨機變數X的函數
110.
的期望值。
而且、由於上述定理1,2,3的特性,這些期望值的函數還可以拆開來算,舉例如下:
;
;
.
在以上的範例中,
稱為X的1級動差,
稱為X的2級動差,
稱為X的3
級動差....
k階動差(KthOrdinaryMoment)
定義:
稱為隨機變數X的k階動差(Kthordinarymoment)
動差的慨念就像是期望值的多項式,我們可以將任何一個多項式的動差寫成k個動差的組合,這樣就能將
任何的函數的動差給支解。
111.
但是、可惜的是,即使我們將函數分解成動差的組合,其計算上仍然是相當複雜的,但是如果我們只是想
變任某個期望值函數對應的原始機率分布為何,那麼可以藉助「動差生成函數」來完成這項任務,以下是
動差生成函數的定義。
動差生成函數
定義:隨機變數X的動差生成函數(MomentGeneratingFunction,m.g.f)
動差存在的條件是期望值
在開區間(-h,h)內是有限的。
根據以上定義,離散分布與連續分布的動差生成函數分別可以寫成以下算式:
離散分布:
為以下函數
112.
連續分布:
那麼、動差生成函數到底有甚麼用呢?
關於這個問題,可以讓我們回到泰勒展開式這個微積分的概念來看,就能理解「動差生成函數」背後的原
理了。
根據泰勒展開式,我們可以將函數
展開如下:
您可以看到在上述展開式當中,不管k為何,每一項的
都存在,並不會消失,而且
,因此、只要在某個夠小的開區間(-h,h)內這個動差生成函數是有限的,那麼隨機變數
之間將會有對映關係,而機率密度函數P(X)與動差生成函數
的係數為
與函數
也可以被證明有一對一
的對映關係。
於是、動差生成函數就成了一個機率分布的「指紋」,意思是如果兩個隨機變數X,Y的動差生成函數
,則這兩個機率分布也必然相同。
113.
思考1:
思考:為何動差生成函數可以做為一個機率分布的「指紋」呢?
說明:如果兩個機率分布P(X)與P(Y)的動差生成函數相同,那麼將意味著
,根據泰勒展開式可得到
因此在每一階的動差上,
都與
相同,因此這兩個分布也就應該是一樣的了。
回顧1:
f(x)在0點的泰勒展開式(麥克羅林級數)可以作為一個函數的指紋,意思是如果兩個函數的泰勒展
開式相同,則這兩個函數必然相同(這點是高等微積分課程的核心)。
回顧2:
114.
函數f(x)的特徵函數(Characteristicfunction)為
結語
為何數學家要將隨機變數定義成一種函數,然後相樣本映射到實數空間上,而不是直接對樣本進行機率運
算呢?筆者認為應該是為了期望值而布的局,因為將樣本映射到實數之後,才能用下列算式計算期望值。
而隨機變數之間的代數運算,像是「3X」,「X+Y」,「X-2Y」,「X*Y」,「X*X*X*X」等運算的結
果,也仍然是一種作用在樣本空間S的實函數,只是當X,Y兩者的樣本空間有所不同時,我們必須以兩
者樣本空間的迪卡兒乘積
作為樣本空間。
在這種情況下,期望值函數也才能運作在+,-*等運算空間中,得到以下的廣義期望值:
115.
「動差生成函數」可以做為機率分布的指紋,因此如果兩個機率分布的「動差生成函數」相同,那麼其機
率分布也會相同。
「動差生成函數」的定義如下:
116.
聯合分布
聯合密度函數
定義:離散聯合密度函數
表示符號:
必要條件:
1.
;
2.
;
定義2:連續聯合密度函數
表示符號:
必要條件:
(範圍:
)
117.
1.
2.
3.
邊際密度函數
定義:離散邊際密度函數
1.只有X的情況:
2.只有Y的情況:
定義:連續邊際密度函數
;
;
;
118.
1.只有X的情況:
2.只有Y的情況:
聯合分配的期望值
定義:聯合分配的期望值E[H(X,Y)]
1.離散的情況:
2.連續的情況:
定義:聯合分配中單一變數的期望值
119.
1.離散:
2.離散:
3.連續:
4.連續:
共變異數(Covariance,協方差)
定義:共變異數Cov(X,Y)
120.
定理:共變異數與期望值之關係
定理:相互獨立時的期望值
如果X,Y相互獨立,則E[XY]=E[X]E[Y]。
相關係數(Correlation)
定義:
相關係數
121.
定理:
定理:
實作:相關係數的R程式
>x=sample(1:10,10)
>x
[1]
1
810
5
>cor(x,x+1)
[1]1
>cor(x,-x)
[1]-1
>cor(x,0.5*x)
3
7
9
4
2
6
122.
[1]1
>cor(x,0.5*x+1)
[1]1
>cor(x,-0.5*x+1)
[1]-1
>y=sample(1:100,10)
>y
[1]
4532068297417497862
>cor(x,y)
[1]-0.06586336
>
多變數聯合分布的情況
聯合分布與條件機率
定義:如果X,Y滿足下列條件,則稱X,Y兩者之間獨立:
123.
多個變數的貝氏定理
1.
;
2.
;
3.
;
其他情況可以類推,只要能正確改寫A,B為任何隨機變數序列都行。
條件獨立與貝氏定理
假如A與B在給定C的情況下條件獨立,那麼以下算式成立:
124.
結語
兩個位於樣本空間S的聯合隨機行為,會導致樣本空間變成其迪卡兒乘積S×S,其樣本空間大小變成
。
而k個位於樣本空間S的聯合隨機行為,會導致樣本空間變成其迪卡兒乘積S×S×...×S,其樣本空間大小
變成
。
如果兩個位於不同樣本空間
本空間大小變為
的聯合隨機行為,則會導致樣本空間變成
。
此時X,Y的機率密度函數將會採用以下的「邊際機率密度函數」之算法,以便將聯合樣本空間
中的機率與單一樣本空間
或
中的機率關聯起來。
,其樣
125.
最後我們必須強調的是,樣本空間的選擇並沒有一定的標準,您可以視問題的需要來定義樣本空間,通常
我們會盡量利用獨立的特性,讓樣本空間越小越好,否則將會很難計算。
126.
抽樣與敘述統計
隨機抽樣
統計的基礎是抽樣,所謂的抽樣就是從母體(一大群樣本)當中抽出一些樣本,而在抽樣的時候,我們通
常會盡可能的確保樣本的隨機性,以避免抽到的樣本有所偏差。
簡單來說,抽樣是從一群東西(母體)當中隨機抽取出x1,x2,....,xn等n個觀察值的過程,表示如下:
母體=>(獨立性)X1,X2,....,Xn等n個隨機變數相互獨立=>取出x1,x2,....,xn
等n個觀察值。
在電腦上,我們可以很容易的模擬隨機抽樣,以下是一個使用R軟體模擬隨機抽樣的範例,其中指令
sample(1:100,10)代表從1到100的整數當中取出10個樣本出來。
>x=sample(1:100,10)
>x
[1]1217503398773979
726
sample函數的原型是sample(x,size,replace=FALSE,prob=NULL),如果replace設定為FALSE,代表已經
取過就會被去除,不能重複出現;反之則可以重複出現。
127.
在統計學中,有一些常用的機率模型,都有對應的R函數,以下是一些最常用的機率模型之整理。
機率模型
R函數名稱
說明
binom(n:size,
n:樣本數,p:正面機率,
p:prob)
n次試驗中有x個成功的機率
布瓦松分布
pois(lambda)
在每單位區域內,事件出現平均
均勻分布
unif(a:min,
a:範圍下限,b:上限
(Uniform)
b:max)
出現機會均等
常態分布
norm(mean,
中央極限定理:x1+x2+...+xk;當k越大
(Normal)
sd)
就越接近常態分布
指數分布
exp(rate)
伽瑪分布(
二項分布
(Exponential)
密度函數
次
)
布瓦松過程中,第一次事件出現的時間
W
對於每個機率模型,您只要在該函數前若加入r這個字,就可以用來產生隨機樣本,以下是一些隨機樣本
128.
的產生範例。
>rbinom(20,5,0.5)
[1]43342431234322242311
>rpois(20,3.5)
[1]21421636133660426462
>runif(20,min=3,max=8)
[1]3.9335263.2018837.5921475.2076034.8978063.8482984.5214614.437873
[9]3.6556405.6335406.5579955.4306716.5026755.6372837.7136995.841052
[17]6.8594935.9879913.7529247.480678
>rnorm(20,mean=5.0,sd=2.0)
[1]6.1502094.7430133.3287345.0962944.9227956.2727684.8628258.036376
[9]4.1984325.4679842.0464506.4525112.0882565.3491873.0744083.628072
[17]3.4213887.2425983.1258959.865341
>rexp(20,rate=2.0)
[1]0.176674260.497293830.127861070.139834120.446835151.30482842
[7]0.285125441.614722660.232206490.390897800.059472241.42892610
[13]0.025555520.694091860.682282420.225423620.335907910.14684937
[19]0.349951460.80595369
為了讓讀者能確認這些指令所產生的圖形確實符合分布,讓我們用這些隨機抽樣函數各產生100,000個樣
129.
本,然後用hist()這個函數繪製統計圖,就能看出這些抽樣函數的效果了,以下是我們的抽樣指令與結果
圖形。
>x=rbinom(100000,5,0.5)
>hist(x)
130.
rbinom(100000,5,0.5)的統計圖
>y=rpois(100000,3.5)
131.
>hist(y)
rpois(100000,3.5)的統計圖
132.
>z=runif(100000,min=3,max=8)
>hist(z)
133.
runif(100000,min=3,max=8)的統計圖
>w=rnorm(100000,mean=5.0,sd=2.0)
>hist(w)
134.
rnorm(100000,mean=5.0,sd=2.0)的統計圖
>v=rexp(100000,rate=2.0)
135.
>hist(v)
rexp(100000,rate=2.0)的統計圖
136.
單組樣本的敘述統計
敘述統計乃是隨機抽樣的樣本集合,進行某些計算與繪圖,以便忠實的呈現出樣本的某些特性。
這些計算
出的數值,以及呈現出來的圖形,可以反映出樣本的某些統計特性,讓統計者能透過數值或圖形,大致了
解樣本的統計特徵。
中文名稱
英文名稱
樣本平均數
Mean
樣本中位數
Median
樣本變異數
SampleVariance
樣本標準差
SampleStandard
數學公式/說明
樣本排序後最中間位置的數值
樣本變異數中的S稱為樣本標準差,也就是
Deviation
樣本全距
Range
樣本中最大的觀察值減去最小的觀察值
137.
離群值
Outlier或Wild
離其他樣本很遠,特別大或特別小的樣本值
樣本四分數間
InterQuartileRange,IQR
第3四分位數減掉第1四分位數
距
注意:變異數的定義為
,上述的樣本變異數必須除以n-1才是變異數的不
偏估計量,而不是除以n(這是因為我們並不知道母體真正的
代替
值是多少,因此採用了
,但是這樣就會造成多減掉一份樣本的效應,於是分母就必須除以n-1了)。
範例:請寫出樣本序列(7468945628)的以下敘述統計值與其計算過程。
1.樣本平均數(Mean)
2.樣本變異數(SampleVariance)
3.樣本標準差(SampleStandardDeviation)
4.中位數(Median)
5.全距(Range)
6.第一四分位數(q1)
7.第三四分位數(q3)
來
138.
8.樣本四分數間距(iqr)
解答:
1.樣本平均數(Mean)
mean(x)=(7+4+6+8+9+4+5+6+2+8)/10=5.9
2.樣本變異數(SampleVariance)
3.樣本標準差(SampleStandardDeviation)
139.
4.中位數(Median)
M=(2445667889)最中間的值=(6+6)/2=6
5.全距(Range)
range(x)=9-2=7
6.第一四分位數(q1)
順序0123456789
樣本2445667889
q1的位置0.25*9/10=0.225
所以q1=4+0.25*(5-4)=4.25
140.
7.第三四分位數(q3)
q3的位置0.75*9/10=0.675
所以q3=7+0.75*(8-7)=7.75
8.樣本四分數間距(iqr)
iqr(x)=q3-q1=7.75-4.25=3.5
使用R軟體進行驗證
>x=sample(1:100,10)
>x
[1]1217503398773979
>mean(x)
[1]43.8
>median(x)
[1]36
726
141.
>var(x)
[1]984.1778
>sd(x)
[1]31.37161
>range(x)
[1]
798
>max(x)
[1]98
>min(x)
[1]7
>max(x)-min(x)
[1]91
>q1=quantile(x,0.25)
>q1
25%
19.25
>q3=quantile(x,0.75)
>q3
75%
70.25
>q3-q1
142.
75%
51
>iqr(x)
錯誤:沒有這個函數"iqr"
>IQR(x)
[1]51
>fivenum(x)
[1]
717367798
>summary(x)
Min.1stQu.
7.00
19.25
Median
36.00
Mean3rdQu.
43.80
70.25
Max.
98.00
習題:請用R軟體計算出樣本序列(8.9,4.5,3.7,10.0,11.5,8.9,5.6,15.4,16.6,1.0)的以下敘述統計值
(必須寫出指令與結果)。
1.樣本平均數(Mean)
2.樣本變異數(SampleVariance)
3.樣本標準差(SampleStandardDeviation)
4.中位數(Median)
143.
5.全距(Range)
6.第一四分位數(q1)
7.第三四分位數(q3)
8.樣本四分數間距(iqr)
解答:
[1]25.37433
>sd(x)
[1]5.037294
>median(x)
[1]8.9
>max(x)-min(x)
[1]15.6
>q1=quantile(0.25,x)
錯誤在quantile.default(0.25,x):'probs'outside[0,1]
>q1=quantile(x,0.25)
>q1
25%
4.775
144.
>q3=quantile(x,0.75)
>q3
75%
11.125
>q3-q1
75%
6.35
>IQR(x)
[1]6.35
>
繪製統計圖
中文名稱
英文名稱
R指令
說明
直方圖
Histogram
hist(x)
根據每個區間的樣本出現次數繪製的長條
圖。
莖葉圖
Stem-and-LeafDiagram
stem(x)
用主幹數字與分支數字表示分布情況的圖
形。
145.
盒型圖
Boxplots
boxplot(x)
由平均值、內籬笆與外籬笆所形成的盒型
圖,可看出中心點與離散程度。
肩型圖(累加
RelativeCumulative
分配圖)
FrequencyOgive
plot(ecdf(x))
將累加次數繪製出來的圖形。
說明:盒型圖是由四分位數q1,q3,以及內籬笆f1,f3(innerfences),連接值a1,a3與外籬笆F1,F3(outer
fances)所組成的圖形
內籬笆:f1=q1-1.5iqr;f3=q3+1.5iqr;
外籬笆:F1=q1-3.0iqr;F3=q3+3.0iqr;
連接值:a1是大於且最接近f1的數據點;a3小於且最接近f3的數據點。
盒型圖的畫法請參考下列圖形:
146.
圖、盒型圖的畫法
R操作範例:統計圖
>x=rnorm(100)
>x
[1]
0.389381081-0.274522826
[6]
0.736573742
[11]-1.356590351
1.492670583-1.563228609
0.766405108
0.297407135-1.324130406-1.376598231
1.661727175
1.309122339-1.193821085
0.365801091-0.952034088
[16]-0.277610568-0.599980091-0.124105876-1.107713162
0.560637570
[21]
0.714449138
0.111969057
0.505171739-2.418297599
0.318797182
[26]
2.716646516
0.345289422
0.019434615
1.087758951
0.033917165
[31]-0.356786424-1.284809066
1.580411327
0.552931291-0.615928762
[36]-0.087069820-0.814632197-0.570882510-0.107731447-1.453838416
[41]-0.257115209
1.166866120
1.072692716-0.022594852
0.441221144
[46]
1.053900960-1.025193547-1.119200587
0.264668203
1.409504515
[51]
0.241644132-0.955407800
0.446297381
0.231887649
0.769308731
[56]
0.269624579
0.822638573-0.904380789-0.429527404
0.496109294
[61]-2.050582772-0.586973281-1.192753403
1.158321933-0.151319360
[66]
0.558858868-0.656174351-2.858964403
0.366785049
[71]
0.369315063-0.953560954-0.762608370-1.017449547-0.127738562
0.896958092
147.
[76]-1.922030980-0.839897930
1.332972530-0.001151104
0.104336360
[81]-0.208907813
1.401335798
0.019330593-0.687559289
0.445371885
[86]
0.504532689
2.168626000-1.742886230
[91]
1.676059594
1.132849957-1.047073217-0.912548540-2.235854777
[96]-1.194104128
0.121106118-1.178415224
0.831058071
0.214196778
>stem(x)
Thedecimalpointisatthe|
-2|9421
-1|97654433222211000000
-0|998887766664433322111100
0|00011122233333344444445556667788889
1|11112233445677
2|027
>hist(x,main="FrequencyHistogramofx")
>hist(x,main="ProbabilityHistogramofx",freq=F)
>Fx=ecdf(x)
2.011604088
0.280714044
148.
>plot(x)
>plot(Fx)
>boxplot(x)
149.
統計圖
盒狀圖
以上都是對於單組樣本的統計數字與圖形,以下將討論兩組樣本的統計數字
共變異數、兩組樣本的相關度統計
150.
兩組樣本的統計數字,最重要的就是共變異數(covariance)相關係數(correlation)與了。
共變異數是兩組樣本X,Y的樣本與期望值之間差的乘積之期望值,而相關係數則共變異數經過正規化後
的結果,用來表示兩組樣本相關程度,其數值介於-1.0到1.0之間。
中文名稱
英文名稱
R指令
共變異數
covariance
cov(x,y)
相關係數
correlation
數學公式/說明
cor(x,y)
讓我們看看R軟體中的共變異數函數cov()與相關係數cor()的操作,如下所示:
runif(10,1,5)
>x
[1]1.3751351.8634172.4036932.6399021.6946104.4194064.0322622.147783
[9]1.5017331.497732
>cov(x,x)
[1]1.144697
>cov(x,x+1)
[1]1.144697
151.
>cor(x,x)
[1]1
>cor(x,x+1)
[1]1
>cov(x,-x)
[1]-1.144697
>cor(x,-x)
[1]-1
>cor(x,0.5*x)
[1]1
>y=runif(10,1,5)
>y
[1]1.1146622.3582702.0891794.5814844.1709222.6300441.4503361.320637
[9]1.7056493.506064
>cor(x,y)
[1]-0.04560485
>cor(y,y)
[1]1
>
152.
中央極限定理
中央極限定理是機率統計上最重要的定理之一,整個統計的估計與檢定幾乎都建立在這個定理之上,因此
對「中央極限定理」有清楚的理解是學好機率統計的一個關鍵。
在本章中,我們將利用R軟體實作並驗證「中央極限定理」,讓讀者能透過程式實際體會該定理的重要
性與用途。
但是在說明中央極限定理之前,先讓我們來看看一個更簡單的數學定律,那就是大數法則。
大數法則
大數法則又稱大數律,是個數學與統計學的概念,意指數量越多,則其平均就越趨近母體平均數μ。
用數學的講法來說,也就是如下的公式成立。
;當
之時。
但是、在上述的趨近定義上,大數法則通常還可以分為強弱兩個版本,如下所示:
153.
弱大數法則(Weaklaw):
弱大數法則的意義是說,當樣本數趨近於無限大時,樣本平均值會趨近於母體平均數μ。
強大數法則(Stronglaw):
而強大數法則的意義則是說,當樣本數趨近於無限大時,樣本平均值等於母體平均數
上述的大數法則只是說出一個傾向而已,而且
的機率為1。
這個要求太過強烈,現實上是不可能達到的,如
果能夠找到有限樣本下的平均數之變動範圍限制,那會比這樣的無限大要求更好一些。
柴比雪夫不等式
柴比雪夫不等式給出了樣本分佈情況的一個限制條件,其數學公式如下所示:
柴比雪夫不等式所述說的,是樣本平均數與標準差之間的一個限制關係,這個關係不管在哪一種分佈之
下,都一定會成立的。
154.
與平均數
相差至少2個標準差(
)的樣本數目不多於1/4。
與平均數
相差至少3個標準差(
)的樣本數目不多於1/9。
與平均數
相差至少4個標準差(
)的樣本數目不多於1/16。
與平均數
相差至少k個標準差(
)的樣本數目不多於1 / k2。
舉例而言,假如一個40人的班上,同學的平均體重為50公斤,標準差為10公斤,那麼體重小於30公斤
的人不可能會超過10人。
初步看起來,柴比雪夫不等式非常得奇怪,感覺很不合理,舉例而言,對於n個柏努力試驗的樣本,由於
樣本值不是0就是1,這樣應該會不符合柴比雪夫不等式才對,但事實上卻會符合。
讓我們舉一個例子,假如20個伯努力試驗,共有十次成功,十次失敗,於是其平均值、變異數與標準差
可計算如下:
平均值:
變異數:
標準差:
因此,與平均數
相差兩個標準差的情況根本就不存在(也就是
),所以柴比雪夫不等式在這樣分為兩個極端的分布上還是會成立
的。
155.
雖然柴比雪夫不等式給出了平均值的範圍限制,但是卻沒有給出平均值分佈的形狀,還好中央極限定理解
決了這個問題。
中央極限定理簡介
以下是中央極限定理的數學式:
如果用白話文陳述,那就是說n個樣本的平均數
會趨近於常態分布。
更精確一點的說,當您從某個母體X取出n個樣本,則這n個樣本的平均數
趨近於以平均期望值
為中心,以母體標準差
除以
的值
為標準差的常態分布。
如果採用另一種正規化後的公式寫法,也可以將上述的「中央極限定理」改寫為:
其中的Z是指標準常態分部,也就是
會趨近標準常態分布。
中央極限定理的用途
根據上述的定義,我們知道當樣本數n足夠大時(通常20個以上就夠大了),n個樣本的平均值
會
156.
會趨近於常態分布,換句話說也就是
會趨近於標準常態分布。
因此、當我們取得一組樣本之後,我們就可以計算其平均數$frac{x_1+x_2+...+x_n}{n}=bar{x}$,如果有
人告訴我們說母體的平均數
導致
來自平均數
的值是多少,我們就可以看看
與
是否差距很遠,如果差距很遠,
母體的機率很小,那麼很可能是此組樣本是非常罕見的特例,或者該組樣本的抽
樣有所偏差,也就是該組樣本很可能並非來自平均數為
以下是一些標準常態分布的重要數值,
1.
2.
3.
4.
5.
6.
>pnorm(1)-pnorm(-1)
[1]0.6826895
>pnorm(2)-pnorm(-2)
[1]0.9544997
>pnorm(3)-pnorm(-3)
的母體。
157.
[1]0.9973002
>pnorm(4)-pnorm(-4)
[1]0.9999367
>pnorm(5)-pnorm(-5)
[1]0.9999994
>pnorm(6)-pnorm(-6)
[1]1
>options(digits=10)
>pnorm(6)-pnorm(-6)
[1]0.999999998
從上面的數值您可以看出來,管理學上所謂的六標準差其實是很高的一個要求,也就是良率必須要達到
99.9999998%以上才行。
如果您今天所取的n個樣本,與母體平均數
距離兩個標準差以上,那就很可能有問題了,這種推論稱
為檢定,我們可以用R軟體中的t.test函數來檢驗這件事,我們將在下一期當中說明如何用R軟體進行統
計檢定的主題,讓我們先將焦點移回到中央極限定理身上,用R軟體來驗證該定理。
R程式範例:驗證中央極限定理
>uyhist(u[,1])
>hist(y)
>?apply
>
說明:
1.u乃是將50萬個uniform樣本分配成50*10000的矩陣,
2.y對u進行列統計apply(u,2,mean)代表對每行取平均值mean(colofu)的結果。
3.因此y代表從UniformDistribution中每次取出50個樣本,然後進行加總平均的結果,也就是
。
4.從下列的hist(y)圖形中,我們可以看到中央極限定理的證據:也就是
態分布。
會趨向常
159.
圖、hist(u[,1])畫出的圖形
160.
圖、hist(y)畫出的圖形
CLT=function(x){
opL2=punif(9,min=0,max=10)
>L2
[1]0.9
>L1=punif(1,min=0,max=10)
>L1
[1]0.1
>L2-L1
[1]0.8
常態分布的信賴區間
根據中央極限定理,在樣本數夠多(通常>20)的情況之下,平均值
布的信賴區間對估計
會趨近於常態分布,因此常態分
相當重要,所以我們接下來要看看常態分布的信賴區間。
假如您已經知道某母體為常態分布,而且期望值(平均值)為mean,標準差為sd,那麼當您用該母體來
175.
產生樣本,有多少的樣本會落在範圍(L1,L2)之外呢?
上述問題感覺數學符號多了一點,讓我們用實際的數字來進一步說明。
假如母體為標準常態分布Z=N(0,1),那麼請問產生的樣本落在(-2,2)之外的會有多少呢?
這個問題讓我們用R軟體來實際操做看看。
>L2=pnorm(2,mean=0,sd=1)
>L1=pnorm(-2,mean=0,sd=1)
>L1
[1]0.02275013
>L2
[1]0.9772499
>L2-L1
[1]0.9544997
>1.0-(L2-L1)
[1]0.04550026
以上的操作告訴我們,標準常態分布Z的樣本落在(-2,2)之內的機率約為0.9544997,因此落在範圍外的
機率為0.04550026。
那麼,假如不是標準常態分布,那又如何呢?其實只要知道平均值mean與標準差為sd,就可以輕易的用
176.
R軟體算出來。
舉例而言,假如某母體為常態分布N(mean=5,sd=3),那麼若我們想知道其樣本落在(3,6)
之間的機率有多少,就可以用下列操作計算出來。
>L2=pnorm(6,mean=5,sd=3)
>L1=pnorm(3,mean=5,sd=3)
>L1
[1]0.2524925
>L2
[1]0.6305587
>L2-L1
[1]0.3780661
根據上述操作,我們知道樣本落在(3,6)之間的機率為0.3780661。
當然、如果我們真的去用N(mean=5,sd=3)的隨機函數產生樣本,其統計值並不一定會那麼的準,但是樣
本越多的話,統計值就會越準,請看下列操作。
操作:產生10個樣本的情況
>x=rnorm(10,mean=5,sd=3)
>x
[1]
6.387168
7.292018
4.680202
2.22555911.208245
7.040107
2.739477
177.
[8]
2.316105
4.482658
4.913032
>3
延伸文章資訊
- 1第五單元:機率概論with R
學習重點:使用R複習並練習操作「機率」的基本觀念 ... 所以我們需要指定數值區間,才能夠計算出現次數 □ 該數值區間就是直方圖的「欄寬(binwidth)」 ...
- 2第六單元:基礎統計with R
基本的統計量(函數). R內建的機率分布與其功能函數. 機率分布與功能函數. 常見的連續的機率分布Continuous Probability Distributions.
- 3使用R進行統計分析——概率計算 - 每日頭條
R語言中提供了很多概率函數,可以方便的計算事件發生的概率。如二項分布概率函數和泊松分布概率函數。本篇文章介紹如果使用R語言中的這些函數求解事件 ...
- 4R 機率分佈與線性模型 - GT Wang
這裡介紹如何在R 中的使用各種機率分佈以及基本模型配適方法。 資料的基本統計量以及各種圖形對於資料的了解有很大的幫助,但這兩種方式在資料比較 ...
- 5單元2.1 離散型隨機變數– 二項分配
二項隨機變數 X∼Bin(n,p),機率密度函數為︰ ... 二項隨機變數的機率分配_R函數簡介. R軟體提供了以下四種 ... pbinom(p,size,prob)—計算二項分配的累積概率密...