卡方分佈(英語:chi-square distribution[2], χ²-distribution,或寫作χ²分佈)是機率論與統計學中常用的一種機率分佈。k個獨立的標準正態分佈變量的平方和服從自由度為k的卡方分佈。卡方分佈是一種特殊的伽瑪分佈,是統計推論中應用最為廣泛的機率分佈之一,例如假設檢定和信賴區間的計算。
卡方分佈
機率密度函數 |
累積分佈函數 |
參數 |
自由度 |
---|
值域 |
, |
---|
機率密度函數 |
|
---|
累積分佈函數 |
|
---|
期望值 |
|
---|
中位數 |
|
---|
眾數 |
max{ k − 2, 0 } |
---|
變異數 |
|
---|
偏度 |
|
---|
峰度 |
|
---|
熵 |
|
---|
動差母函數 |
, |
---|
特徵函數 |
[1] |
---|
由卡方分佈延伸出來皮爾森卡方檢定常用於:
- 樣本某性質的比例分佈與母體理論分佈的適配度(例如某行政機關男女比是否符合該機關所在城鎮的男女比);
- 同一母體的兩個隨機變量是否獨立(例如人的身高與交通違規的關聯性);
- 二或多個母體同一屬性的同質性檢定(意大利麵店和壽司店的營業額有沒有差距)。(詳見皮爾森卡方檢定)
可以在文章右上角的表中看到更多卡方分佈的性質。
卡方分佈的機率密度函數為:
-
其中 ,當 時 。這裏Γ代表Gamma函數。
卡方分佈的累積分佈函數為:
- ,
其中γ(k,z)為不完全Γ函數
在大多數涉及卡方分佈的書中都會提供它的累積分佈函數的對照表。此外許多表格計算軟件如OpenOffice.org Calc和Microsoft Excel中都包括卡方分佈函數。
自由度為k的卡方變量的平均值是k,變異數是2k。
卡方分佈是伽瑪分佈的一個特例,它的熵為:
-
其中 是雙伽瑪函數。
當Gamma變數 頻率(λ)為1/2時,α的2倍為卡方變數之自由度。
即:
-
-
-
卡方變數之期望值=自由度
卡方變數之變異數=兩倍自由度
由定義可得,獨立卡方變量之和同樣服從卡方分佈。特別地,若 分別獨立服從自由度為 的卡方分佈,那麼它們的和 服從自由度為 的卡方分佈。
若k個隨機變量 、……、 是相互獨立,符合標準正態分佈的隨機變量,則它們與均值之間偏差的平方和
其中均值
它的平方正比於自由度為1的卡方分佈,即
p-value = 1- p_CDF.
χ2越大,p-value越小,則可信度越高。通常用p=0.05作為閾值,即95%的可信度。
常用的χ2與p-value表如下:
自由度k \ P value (機率)
|
0.95
|
0.90
|
0.80
|
0.70
|
0.50
|
0.30
|
0.20
|
0.10
|
0.05
|
0.01
|
0.001
|
1
|
0.004
|
0.02
|
0.06
|
0.15
|
0.46
|
1.07
|
1.64
|
2.71
|
3.84
|
6.64
|
10.83
|
2
|
0.10
|
0.21
|
0.45
|
0.71
|
1.39
|
2.41
|
3.22
|
4.60
|
5.99
|
9.21
|
13.82
|
3
|
0.35
|
0.58
|
1.01
|
1.42
|
2.37
|
3.66
|
4.64
|
6.25
|
7.82
|
11.34
|
16.27
|
4
|
0.71
|
1.06
|
1.65
|
2.20
|
3.36
|
4.88
|
5.99
|
7.78
|
9.49
|
13.28
|
18.47
|
5
|
1.14
|
1.61
|
2.34
|
3.00
|
4.35
|
6.06
|
7.29
|
9.24
|
11.07
|
15.09
|
20.52
|
6
|
1.63
|
2.20
|
3.07
|
3.83
|
5.35
|
7.23
|
8.56
|
10.64
|
12.59
|
16.81
|
22.46
|
7
|
2.17
|
2.83
|
3.82
|
4.67
|
6.35
|
8.38
|
9.80
|
12.02
|
14.07
|
18.48
|
24.32
|
8
|
2.73
|
3.49
|
4.59
|
5.53
|
7.34
|
9.52
|
11.03
|
13.36
|
15.51
|
20.09
|
26.12
|
9
|
3.32
|
4.17
|
5.38
|
6.39
|
8.34
|
10.66
|
12.24
|
14.68
|
16.92
|
21.67
|
27.88
|
10
|
3.94
|
4.86
|
6.18
|
7.27
|
9.34
|
11.78
|
13.44
|
15.99
|
18.31
|
23.21
|
29.59
|