機率論 中有若干關於隨機變數收斂 (Convergence of random variables)的定義。研究一列 隨機變數 是否會收斂到某個極限 隨機變數是機率論 中的重要內容,在統計機率 和隨機過程 中都有應用。在更廣泛的數學領域中,隨機變數的收斂被稱為隨機收斂 ,表示一系列本質上隨機不可預測的事件所發生的模式可以在樣本數量足夠大的時候得到合理可靠的預測。各種不同的收斂定義實際上是表示預測時不同的刻畫方式。
依機率1收斂又稱為幾乎處處收斂,其定義接近於函數逐點收斂 的定義。事實上,由於隨機變數的本質是由樣本空間
Ω
{\displaystyle {\mathit {\Omega }}}
到取值空間
B
{\displaystyle {\mathfrak {B}}}
上的函數。因此,給定一個機率空間
(
Ω
,
F
,
P
)
{\displaystyle \left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)}
中的一列 隨機變數
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
,考慮事件
A
X
=
{
ω
;
lim
n
→
∞
X
n
(
ω
)
=
X
(
ω
)
}
{\displaystyle A_{X}=\left\{\omega ;\;\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\right\}}
。如果存在一個隨機變數
X
{\displaystyle X}
,使得事件
A
X
{\displaystyle A_{X}}
的機率為1,那麼就稱隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
依機率1收斂到
X
{\displaystyle X}
(或稱
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
幾乎處處收斂到
X
{\displaystyle X}
),記作:
X
n
→
a
.
s
.
X
{\displaystyle X_{n}{\xrightarrow {a.s.}}X}
或
P
(
lim
n
→
∞
X
n
=
X
)
=
1
{\displaystyle \mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1}
當取值空間
B
{\displaystyle {\mathfrak {B}}}
是一般的實數空間
R
{\displaystyle \mathbb {R} }
時,依機率1收斂的意義是:
對任意的正實數
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
lim inf
{
ω
∈
Ω
:
|
X
n
(
ω
)
−
X
(
ω
)
|
<
ε
}
)
=
1
{\displaystyle \mathbb {P} {\Big (}\liminf {\big \{}\omega \in \Omega :|X_{n}(\omega )-X(\omega )|<\varepsilon {\big \}}{\Big )}=1}
當空間
B
{\displaystyle {\mathfrak {B}}}
是度量空間 (S , d ) 的時候,依機率1收斂的意義是:
P
(
ω
∈
Ω
:
d
(
X
n
(
ω
)
,
X
(
ω
)
)
→
n
→
∞
0
)
=
1
{\displaystyle \mathbb {P} {\Big (}\omega \in \Omega :\,d{\big (}X_{n}(\omega ),X(\omega ){\big )}\,{\xrightarrow[{n\to \infty }]{\,}}\,0{\Big )}=1}
設
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
是一個隨機變數序列,
X
{\displaystyle X}
是一個隨機變數。如果對於任意的正實數
ϵ
>
0
{\displaystyle \epsilon >0}
,都有:
lim
n
→
∞
P
(
|
X
−
X
n
|
≥
ϵ
)
=
0
{\displaystyle \lim _{n\to \infty }\mathbb {P} (|X-X_{n}|\geq \epsilon )=0}
那麼稱序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依機率收斂到
X
{\displaystyle X}
,記作:
X
n
→
n
→
∞
P
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathbb {P} }}X}
如果
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
的取值空間是一個可分 度量空間(S , d ),那麼依機率收斂的定義為[ 1] :
P
(
d
(
X
n
,
X
)
≥
ε
)
→
0
,
∀
ε
>
0.
{\displaystyle \mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.}
依機率收斂和依機率1收斂的定義有相似之處,但本質上,依機率1收斂是比依機率收斂更「強」的收斂性質。如果一列隨機變數依機率1收斂到某個極限,那麼它必然也依機率收斂到這個極限,但反之則不然。一個實數上的例子是:設機率空間
(
Ω
,
F
,
P
)
{\displaystyle \left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)}
是區間
Ω
=
[
0
,
1
)
{\displaystyle {\mathit {\Omega }}=[0,1)}
上的一個連續型均勻分布
P
=
U
{\displaystyle \mathbb {P} =\mathbf {U} }
。一個隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
定義為:
X
1
=
1
{
ω
∈
[
0
,
1
)
}
=
1
{\displaystyle X_{1}=\mathbf {1} _{\left\{\omega \in [0,1)\right\}}=\mathbf {1} }
X
2
=
1
{
ω
∈
[
0
,
1
2
)
}
,
X
3
=
1
{
ω
∈
[
1
2
,
1
)
}
{\displaystyle X_{2}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{2}})\right\}},\qquad X_{3}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},1)\right\}}}
X
4
=
1
{
ω
∈
[
0
,
1
4
)
}
,
X
5
=
1
{
ω
∈
[
1
4
,
1
2
)
}
,
X
6
=
1
{
ω
∈
[
1
2
,
3
4
)
}
,
X
7
=
1
{
ω
∈
[
3
4
,
1
)
}
{\displaystyle X_{4}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{4}})\right\}},\qquad X_{5}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{4}},{\frac {1}{2}})\right\}},\qquad X_{6}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},{\frac {3}{4}})\right\}},\qquad X_{7}=\mathbf {1} _{\left\{\omega \in [{\frac {3}{4}},1)\right\}}}
⋯
{\displaystyle \cdots \;}
∀
(
k
,
m
)
∈
N
,
0
⩽
k
⩽
2
m
−
1
,
X
2
m
+
k
=
1
{
ω
∈
[
k
2
m
,
k
+
1
2
m
)
}
{\displaystyle \forall (k,m)\in \mathbb {N} ,\,\,0\leqslant k\leqslant 2^{m}-1,\,\,X_{2^{m}+k}=\mathbf {1} _{\left\{\omega \in [{\frac {k}{2^{m}}},{\frac {k+1}{2^{m}}})\right\}}}
由於
∀
2
m
⩽
n
⩽
2
m
+
1
−
1
,
P
(
|
X
n
−
0
|
⩾
ε
)
=
1
2
m
{\displaystyle \forall 2^{m}\leqslant n\leqslant 2^{m+1}-1,\,\,\mathbb {P} \left(|X_{n}-0|\geqslant \varepsilon \right)={\frac {1}{2^{m}}}}
所以
X
n
→
P
0
{\displaystyle X_{n}{\xrightarrow {\mathbb {P} }}0}
,
另一方面,考慮
X
2
m
{\displaystyle X_{2^{m}}}
到
X
2
m
+
1
−
1
{\displaystyle X_{2^{m+1}-1}}
這一組隨機變數,它們取值為1的集合的聯集恰好是總區間,因此對每一個
ω
∈
[
0
,
1
)
{\displaystyle \omega \in [0,1)}
,總會有
X
2
m
{\displaystyle X_{2^{m}}}
到
X
2
m
+
1
−
1
{\displaystyle X_{2^{m+1}-1}}
之間的某個變量
X
2
m
+
k
m
{\displaystyle X_{2^{m}+k_{m}}}
,使得
X
2
m
+
k
m
(
ω
)
=
1
{\displaystyle X_{2^{m}+k_{m}}(\omega )=1}
所以,對任意一個
ω
∈
[
0
,
1
)
{\displaystyle \omega \in [0,1)}
,
lim
n
→
∞
|
X
n
(
ω
)
−
0
|
≠
0
{\displaystyle \lim _{n\to \infty }|X_{n}(\omega )-0|\neq 0}
,
即是說,
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
並不依機率1收斂到0。從例子中可以看到,依機率收斂比依機率1收斂更為寬鬆的地方是:當n 趨於無窮大的時候,只要偏離極限函數的
ω
{\displaystyle \omega }
(即是集合
{
ω
n
;
|
X
n
(
ω
n
)
−
X
(
ω
n
)
|
⩾
ε
}
{\displaystyle \left\{\omega _{n};\,|X_{n}(\omega _{n})-X(\omega _{n})|\geqslant \varepsilon \right\}}
中的
ω
n
{\displaystyle \omega _{n}}
)「足夠少」,就能使得依機率收斂成立了,這些
ω
n
{\displaystyle \omega _{n}}
的集合可以隨著n 不同而不同;而依機率1收斂則要求
ω
n
{\displaystyle \omega _{n}}
的集合固定地縮減至一個機率為0的集合。因此,依機率1收斂要比依機率收斂更為嚴格。
依機率收斂蘊含依分布收斂:一個依機率收斂的隨機變數序列必然也依分布收斂到同一個極限。
在離散機率空間中,依機率收斂和依機率1收斂是等價的。
依分布收斂蘊含依機率收斂若且唯若依分布收斂的極限是一個常數。
連續映射定理 說明:對任意連續函數
g
{\displaystyle g}
,如果隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依機率收斂到
X
{\displaystyle X}
,那麼序列
(
g
(
X
n
)
;
n
∈
N
)
{\displaystyle (g(X_{n});\,n\in \mathbb {N} )}
依機率收斂到
g
(
X
)
{\displaystyle g(X)}
依機率收斂定義了確定機率空間上的隨機變數空間上的一個拓撲。這個拓撲可以用樊𰋀 度量進行度量化[ 2] 。
d
(
X
,
Y
)
=
inf
{
ε
>
0
:
Pr
(
|
X
−
Y
|
>
ε
)
≤
ε
}
.
{\displaystyle d(X,Y)=\inf \!{\big \{}\varepsilon >0:\ \Pr {\big (}|X-Y|>\varepsilon {\big )}\leq \varepsilon {\big \}}.}
平方平均收斂與
L
p
{\displaystyle \mathbf {L} ^{p}}
收斂
編輯
依分布收斂是最寬鬆的收斂方式之一。這種收斂不要求查看每個
ω
{\displaystyle \omega }
,只要求序列的分布趨向於某個極限。直覺上,一個隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收斂到某個隨機變數
X
{\displaystyle X}
,如果:
對所有的
a
{\displaystyle a}
,都有
P
(
X
n
⩽
a
)
→
P
(
X
⩽
a
)
{\displaystyle \mathbb {P} (X_{n}\leqslant a)\rightarrow \mathbb {P} (X\leqslant a)}
。
更嚴格的定義是探討隨機變數
X
n
{\displaystyle X_{n}}
的累積分布函數
F
n
(
x
)
=
P
(
X
n
⩽
x
)
{\displaystyle F_{n}(x)=\mathbb {P} (X_{n}\leqslant x)}
。設有實值 的隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
和某個隨機變數
X
{\displaystyle X}
(其累積分布函數為
F
(
x
)
{\displaystyle F(x)}
),如果對
F
(
x
)
{\displaystyle F(x)}
的每個連續點
x
{\displaystyle x}
,都有
lim
n
→
∞
F
n
(
x
)
=
F
(
x
)
{\displaystyle \lim _{n\to \infty }F_{n}(x)=F(x)}
,那麼就說
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收斂到某個隨機變數
X
{\displaystyle X}
。記作:
X
n
→
n
→
∞
D
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {D}}}X}
,
X
n
→
n
→
∞
d
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathit {d}}}X}
或
X
n
→
n
→
∞
L
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {L}}}X}
由於依分布收斂只和隨機變數的分布相關,所以也可以稱一系列隨機變數(依分布)收斂於某個分布。設
L
X
{\displaystyle {\mathcal {L}}_{X}}
是極限
X
{\displaystyle X}
的分布,那麼依分布收斂也可以記作:
X
n
→
d
L
X
,
X
n
⇝
X
{\displaystyle X_{n}\ {\xrightarrow {d}}\ {\mathcal {L}}_{X},\,\,X_{n}\rightsquigarrow X}
或
L
(
X
n
)
→
L
(
X
)
{\displaystyle {\mathcal {L}}(X_{n})\to {\mathcal {L}}(X)}
例如一個隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收斂到標準常態分布,就可以記作:
X
n
→
d
N
(
0
,
1
)
.
{\displaystyle X_{n}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,1).}
作為最弱的收斂方式之一,依分布收斂無法推出其它的收斂方式。對於存在機率密度函數 的連續型隨機變數序列,依分布收斂並不能推出其機率密度函數也同樣收斂。例如對於機率密度函數為
f
n
(
x
)
=
(
1
−
cos
(
2
π
n
x
)
)
1
x
∈
(
0
,
1
)
{\displaystyle f_{n}(x)=\left(1-\cos(2\pi nx)\right)\mathbf {1} _{x\in (0,1)}}
的隨機變數序列,其依分布收斂到均勻分布的隨機變數,但其機率密度函數不收斂[ 3] 。
依分布收斂的等價定義:一個隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收斂到某個隨機變數
X
{\displaystyle X}
和以下命題中的任意一個等價:
對所有的有界 連續函數
f
{\displaystyle f}
,都有:
E
[
f
(
X
n
)
]
→
E
[
f
(
X
)
]
{\displaystyle \mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]}
;
對所有具有利普希茨連續 性質的函數
f
{\displaystyle f}
,都有:
E
[
f
(
X
n
)
]
→
E
[
f
(
X
)
]
{\displaystyle \mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]}
;
對所有上有界的上半連續 函數
f
{\displaystyle f}
,都有:
lim sup
E
[
f
(
X
n
)
]
⩽
E
[
f
(
X
)
]
{\displaystyle \limsup \mathbb {E} [f(X_{n})]\leqslant \mathbb {E} [f(X)]}
;
對所有下有界的下半連續 函數
f
{\displaystyle f}
,都有:
lim inf
E
[
f
(
X
n
)
]
⩾
E
[
f
(
X
)
]
{\displaystyle \liminf \mathbb {E} [f(X_{n})]\geqslant \mathbb {E} [f(X)]}
;
對所有閉集
C
{\displaystyle C}
,都有:
lim sup
n
→
∞
P
(
X
n
∈
C
)
⩽
P
(
X
∈
C
)
{\displaystyle \limsup _{n\to \infty }\mathbb {P} \left(X_{n}\in C\right)\leqslant \mathbb {P} \left(X\in C\right)}
;
對所有開集
U
{\displaystyle U}
,都有:
lim inf
n
→
∞
P
(
X
n
∈
U
)
⩾
P
(
X
∈
U
)
{\displaystyle \liminf _{n\to \infty }\mathbb {P} \left(X_{n}\in U\right)\geqslant \mathbb {P} \left(X\in U\right)}
;
對關於
X
{\displaystyle X}
的所有連續集
A
{\displaystyle A}
,都有:
lim
n
→
∞
P
(
X
n
∈
A
)
=
P
(
X
∈
A
)
{\displaystyle \lim _{n\to \infty }\mathbb {P} \left(X_{n}\in A\right)=\mathbb {P} \left(X\in A\right)}
。
連續映射定理 說明,對於連續函數g (·),如果隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收斂到隨機變數
X
{\displaystyle X}
,那麼
(
g
(
X
n
)
;
n
∈
N
)
{\displaystyle (g(X_{n});\,n\in \mathbb {N} )}
也依分布收斂到隨機變數
g
(
X
)
{\displaystyle g(X)}
。
列維連續性定理 : 隨機變數序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收斂到某個隨機變數
X
{\displaystyle X}
若且唯若對應的特徵函數 序列
(
φ
n
(
x
)
;
n
∈
N
)
{\displaystyle (\varphi _{n}(x);\,n\in \mathbb {N} )}
逐點收斂 到某個在0處連續的函數
φ
{\displaystyle \varphi }
(此時隨機變數
X
{\displaystyle X}
的分布為
φ
{\displaystyle \varphi }
)。
列維-普羅科洛夫度量 是依分布收斂的度量化 結果。
各個收斂的定義有強弱之分。一個收斂性強於另一個是指從前者可以推出後者。例如依機率收斂強於依分布收斂,即是說如果一列隨機變數依機率收斂到某個極限,那麼必定也依分布收斂到這個極限。具體來說,收斂性的強弱關係可以用下圖來表示:
→
L
r
⇒
r
>
s
≥
1
→
L
s
⇓
→
a
.
s
.
⇒
→
p
⇒
→
d
{\displaystyle {\begin{matrix}{\xrightarrow {L^{r}}}&{\underset {r>s\geq 1}{\Rightarrow }}&{\xrightarrow {L^{s}}}&&\\&&\Downarrow &&\\{\xrightarrow {a.s.}}&\Rightarrow &{\xrightarrow {\ p\ }}&\Rightarrow &{\xrightarrow {\ d\ }}\end{matrix}}}
依機率1收斂可以推出依機率收斂[ 4] :
X
n
→
a
.
s
.
X
⇒
X
n
→
p
X
{\displaystyle X_{n}\ {\xrightarrow {a.s.}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X}
依機率收斂可以推出存在依機率1收斂的子列
(
k
n
)
{\displaystyle (k_{n})}
[ 5] :
X
n
→
p
X
⇒
X
k
n
→
a
.
s
.
X
{\displaystyle X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{k_{n}}\ {\xrightarrow {a.s.}}\ X}
依機率收斂可以推出依分布收斂[ 4] :
X
n
→
p
X
⇒
X
n
→
d
X
{\displaystyle X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {d}}\ X}
對任意的
r
>
0
{\displaystyle r>0}
,
L
r
{\displaystyle \mathbf {L} ^{r}}
-收斂可以推出依機率收斂:
X
n
→
L
r
X
⇒
X
n
→
p
X
{\displaystyle X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X}
如果
r
>
s
⩾
1
{\displaystyle r>s\geqslant 1}
,那麼
L
r
{\displaystyle \mathbf {L} ^{r}}
-收斂可以推出
L
s
{\displaystyle \mathbf {L} ^{s}}
-收斂:
X
n
→
L
r
X
⇒
X
n
→
L
s
X
,
{\displaystyle X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {L^{s}}}\ X,}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分布收斂到常數c ,那麼它也依機率收斂到常數c [ 4] :
X
n
→
d
c
⇒
X
n
→
p
c
,
{\displaystyle X_{n}\ {\xrightarrow {d}}\ c\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ c,}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分布收斂到隨機變數
X
{\displaystyle X}
,並且
X
n
{\displaystyle X_{n}}
和
Y
n
{\displaystyle Y_{n}}
的差依機率收斂到0,那麼
Y
n
{\displaystyle Y_{n}}
也依分布收斂到隨機變數
X
{\displaystyle X}
[ 4] :
X
n
→
d
X
,
|
X
n
−
Y
n
|
→
p
0
⇒
Y
n
→
d
X
{\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ |X_{n}-Y_{n}|\ {\xrightarrow {p}}\ 0\ \quad \Rightarrow \quad Y_{n}\ {\xrightarrow {d}}\ X}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分布收斂到隨機變數
X
{\displaystyle X}
,並且 序列
(
Y
n
;
n
∈
N
)
{\displaystyle \left(Y_{n};\,n\in \mathbb {N} \right)}
依分布收斂到常數c ,那麼向量列
(
(
X
n
,
Y
n
)
;
n
∈
N
)
{\displaystyle \left((X_{n},Y_{n});\,n\in \mathbb {N} \right)}
依分布收斂到隨機變數
(
X
,
c
)
{\displaystyle (X,c)}
[ 4] :
X
n
→
d
X
,
Y
n
→
d
c
⇒
(
X
n
,
Y
n
)
→
d
(
X
,
c
)
{\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ Y_{n}\ {\xrightarrow {d}}\ c\ \quad \Rightarrow \quad (X_{n},Y_{n})\ {\xrightarrow {d}}\ (X,c)}
Bickel, Peter J.; Klaassen, Chris A.J.; Ritov, Ya』acov; Wellner, Jon A. Efficient and adaptive estimation for semiparametric models. New York: Springer-Verlag. 1998. ISBN 0387984739 .
Billingsley, Patrick. Probability and Measure. Wiley Series in Probability and Mathematical Statistics 2nd. Wiley. 1986.
Billingsley, Patrick. Convergence of probability measures 2nd. John Wiley & Sons. 1999: 1 –28. ISBN 0471197459 .
Dudley, R.M. Real analysis and probability. Cambridge, UK: Cambridge University Press. 2002. ISBN 052180972X .
Grimmett, G.R.; Stirzaker, D.R. Probability and random processes 2nd. Clarendon Press, Oxford. 1992: 271 –285. ISBN 0-19-853665-8 .
Jacobsen, M. Videregående Sandsynlighedsregning (Advanced Probability Theory) 3rd. HCØ-tryk, Copenhagen. 1992: 18–20. ISBN 87-91180-71-6 .
Ledoux, Michel; Talagrand, Michel . Probability in Banach spaces. Berlin: Springer-Verlag. 1991: xii+480. ISBN 3-540-52013-9 . MR 1102015 .
Romano, Joseph P.; Siegel, Andrew F. Counterexamples in probability and statistics. Great Britain: Chapman & Hall. 1985. ISBN 0412989018 .
van der Vaart, Aad W.; Wellner, Jon A. Weak convergence and empirical processes. New York: Springer-Verlag. 1996. ISBN 0387946403 .
van der Vaart, Aad W. Asymptotic statistics. New York: Cambridge University Press. 1998. ISBN 9780521496032 .
Williams, D. Probability with Martingales. Cambridge University Press. 1991. ISBN 0521406056 .
Wong, E.; Hájek, B. Stochastic Processes in Engineering Systems. New York: Springer–Verlag. 1985.