概率論 中有若干關於隨機變量收斂 (Convergence of random variables)的定義。研究一列 隨機變量 是否會收斂到某個極限 隨機變量是概率論 中的重要內容,在統計概率 和隨機過程 中都有應用。在更廣泛的數學領域中,隨機變量的收斂被稱為隨機收斂 ,表示一系列本質上隨機不可預測的事件所發生的模式可以在樣本數量足夠大的時候得到合理可靠的預測。各種不同的收斂定義實際上是表示預測時不同的刻畫方式。
依概率1收斂又稱為幾乎處處收斂,其定義接近於函數逐點收斂 的定義。事實上,由於隨機變量的本質是由樣本空間
Ω
{\displaystyle {\mathit {\Omega }}}
到取值空間
B
{\displaystyle {\mathfrak {B}}}
上的函數。因此,給定一個概率空間
(
Ω
,
F
,
P
)
{\displaystyle \left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)}
中的一列 隨機變量
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
,考慮事件
A
X
=
{
ω
;
lim
n
→
∞
X
n
(
ω
)
=
X
(
ω
)
}
{\displaystyle A_{X}=\left\{\omega ;\;\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\right\}}
。如果存在一個隨機變量
X
{\displaystyle X}
,使得事件
A
X
{\displaystyle A_{X}}
的概率為1,那麼就稱隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
依概率1收斂到
X
{\displaystyle X}
(或稱
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
幾乎處處收斂到
X
{\displaystyle X}
),記作:
X
n
→
a
.
s
.
X
{\displaystyle X_{n}{\xrightarrow {a.s.}}X}
或
P
(
lim
n
→
∞
X
n
=
X
)
=
1
{\displaystyle \mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1}
當取值空間
B
{\displaystyle {\mathfrak {B}}}
是一般的實數空間
R
{\displaystyle \mathbb {R} }
時,依概率1收斂的意義是:
對任意的正實數
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
lim inf
{
ω
∈
Ω
:
|
X
n
(
ω
)
−
X
(
ω
)
|
<
ε
}
)
=
1
{\displaystyle \mathbb {P} {\Big (}\liminf {\big \{}\omega \in \Omega :|X_{n}(\omega )-X(\omega )|<\varepsilon {\big \}}{\Big )}=1}
當空間
B
{\displaystyle {\mathfrak {B}}}
是度量空間 (S , d ) 的時候,依概率1收斂的意義是:
P
(
ω
∈
Ω
:
d
(
X
n
(
ω
)
,
X
(
ω
)
)
→
n
→
∞
0
)
=
1
{\displaystyle \mathbb {P} {\Big (}\omega \in \Omega :\,d{\big (}X_{n}(\omega ),X(\omega ){\big )}\,{\xrightarrow[{n\to \infty }]{\,}}\,0{\Big )}=1}
設
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
是一個隨機變量序列,
X
{\displaystyle X}
是一個隨機變量。如果對於任意的正實數
ϵ
>
0
{\displaystyle \epsilon >0}
,都有:
lim
n
→
∞
P
(
|
X
−
X
n
|
≥
ϵ
)
=
0
{\displaystyle \lim _{n\to \infty }\mathbb {P} (|X-X_{n}|\geq \epsilon )=0}
那麼稱序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依概率收斂到
X
{\displaystyle X}
,記作:
X
n
→
n
→
∞
P
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathbb {P} }}X}
如果
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
的取值空間是一個可分 度量空間(S , d ),那麼依概率收斂的定義為[ 1] :
P
(
d
(
X
n
,
X
)
≥
ε
)
→
0
,
∀
ε
>
0.
{\displaystyle \mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.}
依概率收斂和依概率1收斂的定義有相似之處,但本質上,依概率1收斂是比依概率收斂更「強」的收斂性質。如果一列隨機變量依概率1收斂到某個極限,那麼它必然也依概率收斂到這個極限,但反之則不然。一個實數上的例子是:設概率空間
(
Ω
,
F
,
P
)
{\displaystyle \left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)}
是區間
Ω
=
[
0
,
1
)
{\displaystyle {\mathit {\Omega }}=[0,1)}
上的一個連續型均勻分佈
P
=
U
{\displaystyle \mathbb {P} =\mathbf {U} }
。一個隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
定義為:
X
1
=
1
{
ω
∈
[
0
,
1
)
}
=
1
{\displaystyle X_{1}=\mathbf {1} _{\left\{\omega \in [0,1)\right\}}=\mathbf {1} }
X
2
=
1
{
ω
∈
[
0
,
1
2
)
}
,
X
3
=
1
{
ω
∈
[
1
2
,
1
)
}
{\displaystyle X_{2}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{2}})\right\}},\qquad X_{3}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},1)\right\}}}
X
4
=
1
{
ω
∈
[
0
,
1
4
)
}
,
X
5
=
1
{
ω
∈
[
1
4
,
1
2
)
}
,
X
6
=
1
{
ω
∈
[
1
2
,
3
4
)
}
,
X
7
=
1
{
ω
∈
[
3
4
,
1
)
}
{\displaystyle X_{4}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{4}})\right\}},\qquad X_{5}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{4}},{\frac {1}{2}})\right\}},\qquad X_{6}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},{\frac {3}{4}})\right\}},\qquad X_{7}=\mathbf {1} _{\left\{\omega \in [{\frac {3}{4}},1)\right\}}}
⋯
{\displaystyle \cdots \;}
∀
(
k
,
m
)
∈
N
,
0
⩽
k
⩽
2
m
−
1
,
X
2
m
+
k
=
1
{
ω
∈
[
k
2
m
,
k
+
1
2
m
)
}
{\displaystyle \forall (k,m)\in \mathbb {N} ,\,\,0\leqslant k\leqslant 2^{m}-1,\,\,X_{2^{m}+k}=\mathbf {1} _{\left\{\omega \in [{\frac {k}{2^{m}}},{\frac {k+1}{2^{m}}})\right\}}}
由於
∀
2
m
⩽
n
⩽
2
m
+
1
−
1
,
P
(
|
X
n
−
0
|
⩾
ε
)
=
1
2
m
{\displaystyle \forall 2^{m}\leqslant n\leqslant 2^{m+1}-1,\,\,\mathbb {P} \left(|X_{n}-0|\geqslant \varepsilon \right)={\frac {1}{2^{m}}}}
所以
X
n
→
P
0
{\displaystyle X_{n}{\xrightarrow {\mathbb {P} }}0}
,
另一方面,考慮
X
2
m
{\displaystyle X_{2^{m}}}
到
X
2
m
+
1
−
1
{\displaystyle X_{2^{m+1}-1}}
這一組隨機變量,它們取值為1的集合的併集恰好是總區間,因此對每一個
ω
∈
[
0
,
1
)
{\displaystyle \omega \in [0,1)}
,總會有
X
2
m
{\displaystyle X_{2^{m}}}
到
X
2
m
+
1
−
1
{\displaystyle X_{2^{m+1}-1}}
之間的某個變量
X
2
m
+
k
m
{\displaystyle X_{2^{m}+k_{m}}}
,使得
X
2
m
+
k
m
(
ω
)
=
1
{\displaystyle X_{2^{m}+k_{m}}(\omega )=1}
所以,對任意一個
ω
∈
[
0
,
1
)
{\displaystyle \omega \in [0,1)}
,
lim
n
→
∞
|
X
n
(
ω
)
−
0
|
≠
0
{\displaystyle \lim _{n\to \infty }|X_{n}(\omega )-0|\neq 0}
,
即是說,
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
並不依概率1收斂到0。從例子中可以看到,依概率收斂比依概率1收斂更為寬鬆的地方是:當n 趨於無窮大的時候,只要偏離極限函數的
ω
{\displaystyle \omega }
(即是集合
{
ω
n
;
|
X
n
(
ω
n
)
−
X
(
ω
n
)
|
⩾
ε
}
{\displaystyle \left\{\omega _{n};\,|X_{n}(\omega _{n})-X(\omega _{n})|\geqslant \varepsilon \right\}}
中的
ω
n
{\displaystyle \omega _{n}}
)「足夠少」,就能使得依概率收斂成立了,這些
ω
n
{\displaystyle \omega _{n}}
的集合可以隨着n 不同而不同;而依概率1收斂則要求
ω
n
{\displaystyle \omega _{n}}
的集合固定地縮減至一個概率為0的集合。因此,依概率1收斂要比依概率收斂更為嚴格。
依概率收斂蘊含依分佈收斂:一個依概率收斂的隨機變量序列必然也依分佈收斂到同一個極限。
在離散概率空間中,依概率收斂和依概率1收斂是等價的。
依分佈收斂蘊含依概率收斂當且僅當依分佈收斂的極限是一個常數。
連續映射定理 說明:對任意連續函數
g
{\displaystyle g}
,如果隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依概率收斂到
X
{\displaystyle X}
,那麼序列
(
g
(
X
n
)
;
n
∈
N
)
{\displaystyle (g(X_{n});\,n\in \mathbb {N} )}
依概率收斂到
g
(
X
)
{\displaystyle g(X)}
依概率收斂定義了確定概率空間上的隨機變量空間上的一個拓撲。這個拓撲可以用樊𰋀 度量進行度量化[ 2] 。
d
(
X
,
Y
)
=
inf
{
ε
>
0
:
Pr
(
|
X
−
Y
|
>
ε
)
≤
ε
}
.
{\displaystyle d(X,Y)=\inf \!{\big \{}\varepsilon >0:\ \Pr {\big (}|X-Y|>\varepsilon {\big )}\leq \varepsilon {\big \}}.}
平方平均收斂與
L
p
{\displaystyle \mathbf {L} ^{p}}
收斂
編輯
依分佈收斂是最寬鬆的收斂方式之一。這種收斂不要求查看每個
ω
{\displaystyle \omega }
,只要求序列的分佈趨向於某個極限。直覺上,一個隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分佈收斂到某個隨機變量
X
{\displaystyle X}
,如果:
對所有的
a
{\displaystyle a}
,都有
P
(
X
n
⩽
a
)
→
P
(
X
⩽
a
)
{\displaystyle \mathbb {P} (X_{n}\leqslant a)\rightarrow \mathbb {P} (X\leqslant a)}
。
更嚴格的定義是探討隨機變量
X
n
{\displaystyle X_{n}}
的累積分佈函數
F
n
(
x
)
=
P
(
X
n
⩽
x
)
{\displaystyle F_{n}(x)=\mathbb {P} (X_{n}\leqslant x)}
。設有實值 的隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
和某個隨機變量
X
{\displaystyle X}
(其累積分佈函數為
F
(
x
)
{\displaystyle F(x)}
),如果對
F
(
x
)
{\displaystyle F(x)}
的每個連續點
x
{\displaystyle x}
,都有
lim
n
→
∞
F
n
(
x
)
=
F
(
x
)
{\displaystyle \lim _{n\to \infty }F_{n}(x)=F(x)}
,那麼就說
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分佈收斂到某個隨機變量
X
{\displaystyle X}
。記作:
X
n
→
n
→
∞
D
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {D}}}X}
,
X
n
→
n
→
∞
d
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathit {d}}}X}
或
X
n
→
n
→
∞
L
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {L}}}X}
由於依分佈收斂只和隨機變量的分佈相關,所以也可以稱一系列隨機變量(依分佈)收斂於某個分佈。設
L
X
{\displaystyle {\mathcal {L}}_{X}}
是極限
X
{\displaystyle X}
的分佈,那麼依分佈收斂也可以記作:
X
n
→
d
L
X
,
X
n
⇝
X
{\displaystyle X_{n}\ {\xrightarrow {d}}\ {\mathcal {L}}_{X},\,\,X_{n}\rightsquigarrow X}
或
L
(
X
n
)
→
L
(
X
)
{\displaystyle {\mathcal {L}}(X_{n})\to {\mathcal {L}}(X)}
例如一個隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分佈收斂到標準正態分佈,就可以記作:
X
n
→
d
N
(
0
,
1
)
.
{\displaystyle X_{n}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,1).}
作為最弱的收斂方式之一,依分佈收斂無法推出其它的收斂方式。對於存在概率密度函數 的連續型隨機變量序列,依分佈收斂並不能推出其概率密度函數也同樣收斂。例如對於概率密度函數為
f
n
(
x
)
=
(
1
−
cos
(
2
π
n
x
)
)
1
x
∈
(
0
,
1
)
{\displaystyle f_{n}(x)=\left(1-\cos(2\pi nx)\right)\mathbf {1} _{x\in (0,1)}}
的隨機變量序列,其依分佈收斂到均勻分佈的隨機變量,但其概率密度函數不收斂[ 3] 。
依分佈收斂的等價定義:一個隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分佈收斂到某個隨機變量
X
{\displaystyle X}
和以下命題中的任意一個等價:
對所有的有界 連續函數
f
{\displaystyle f}
,都有:
E
[
f
(
X
n
)
]
→
E
[
f
(
X
)
]
{\displaystyle \mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]}
;
對所有具有利普希茨連續 性質的函數
f
{\displaystyle f}
,都有:
E
[
f
(
X
n
)
]
→
E
[
f
(
X
)
]
{\displaystyle \mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]}
;
對所有上有界的上半連續 函數
f
{\displaystyle f}
,都有:
lim sup
E
[
f
(
X
n
)
]
⩽
E
[
f
(
X
)
]
{\displaystyle \limsup \mathbb {E} [f(X_{n})]\leqslant \mathbb {E} [f(X)]}
;
對所有下有界的下半連續 函數
f
{\displaystyle f}
,都有:
lim inf
E
[
f
(
X
n
)
]
⩾
E
[
f
(
X
)
]
{\displaystyle \liminf \mathbb {E} [f(X_{n})]\geqslant \mathbb {E} [f(X)]}
;
對所有閉集
C
{\displaystyle C}
,都有:
lim sup
n
→
∞
P
(
X
n
∈
C
)
⩽
P
(
X
∈
C
)
{\displaystyle \limsup _{n\to \infty }\mathbb {P} \left(X_{n}\in C\right)\leqslant \mathbb {P} \left(X\in C\right)}
;
對所有開集
U
{\displaystyle U}
,都有:
lim inf
n
→
∞
P
(
X
n
∈
U
)
⩾
P
(
X
∈
U
)
{\displaystyle \liminf _{n\to \infty }\mathbb {P} \left(X_{n}\in U\right)\geqslant \mathbb {P} \left(X\in U\right)}
;
對關於
X
{\displaystyle X}
的所有連續集
A
{\displaystyle A}
,都有:
lim
n
→
∞
P
(
X
n
∈
A
)
=
P
(
X
∈
A
)
{\displaystyle \lim _{n\to \infty }\mathbb {P} \left(X_{n}\in A\right)=\mathbb {P} \left(X\in A\right)}
。
連續映射定理 說明,對於連續函數g (·),如果隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分佈收斂到隨機變量
X
{\displaystyle X}
,那麼
(
g
(
X
n
)
;
n
∈
N
)
{\displaystyle (g(X_{n});\,n\in \mathbb {N} )}
也依分佈收斂到隨機變量
g
(
X
)
{\displaystyle g(X)}
。
列維連續性定理 : 隨機變量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分佈收斂到某個隨機變量
X
{\displaystyle X}
當且僅當對應的特徵函數 序列
(
φ
n
(
x
)
;
n
∈
N
)
{\displaystyle (\varphi _{n}(x);\,n\in \mathbb {N} )}
逐點收斂 到某個在0處連續的函數
φ
{\displaystyle \varphi }
(此時隨機變量
X
{\displaystyle X}
的分佈為
φ
{\displaystyle \varphi }
)。
列維-普羅科洛夫度量 是依分佈收斂的度量化 結果。
各個收斂的定義有強弱之分。一個收斂性強於另一個是指從前者可以推出後者。例如依概率收斂強於依分佈收斂,即是說如果一列隨機變量依概率收斂到某個極限,那麼必定也依分佈收斂到這個極限。具體來說,收斂性的強弱關係可以用下圖來表示:
→
L
r
⇒
r
>
s
≥
1
→
L
s
⇓
→
a
.
s
.
⇒
→
p
⇒
→
d
{\displaystyle {\begin{matrix}{\xrightarrow {L^{r}}}&{\underset {r>s\geq 1}{\Rightarrow }}&{\xrightarrow {L^{s}}}&&\\&&\Downarrow &&\\{\xrightarrow {a.s.}}&\Rightarrow &{\xrightarrow {\ p\ }}&\Rightarrow &{\xrightarrow {\ d\ }}\end{matrix}}}
依概率1收斂可以推出依概率收斂[ 4] :
X
n
→
a
.
s
.
X
⇒
X
n
→
p
X
{\displaystyle X_{n}\ {\xrightarrow {a.s.}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X}
依概率收斂可以推出存在依概率1收斂的子列
(
k
n
)
{\displaystyle (k_{n})}
[ 5] :
X
n
→
p
X
⇒
X
k
n
→
a
.
s
.
X
{\displaystyle X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{k_{n}}\ {\xrightarrow {a.s.}}\ X}
依概率收斂可以推出依分佈收斂[ 4] :
X
n
→
p
X
⇒
X
n
→
d
X
{\displaystyle X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {d}}\ X}
對任意的
r
>
0
{\displaystyle r>0}
,
L
r
{\displaystyle \mathbf {L} ^{r}}
-收斂可以推出依概率收斂:
X
n
→
L
r
X
⇒
X
n
→
p
X
{\displaystyle X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X}
如果
r
>
s
⩾
1
{\displaystyle r>s\geqslant 1}
,那麼
L
r
{\displaystyle \mathbf {L} ^{r}}
-收斂可以推出
L
s
{\displaystyle \mathbf {L} ^{s}}
-收斂:
X
n
→
L
r
X
⇒
X
n
→
L
s
X
,
{\displaystyle X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {L^{s}}}\ X,}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分佈收斂到常數c ,那麼它也依概率收斂到常數c [ 4] :
X
n
→
d
c
⇒
X
n
→
p
c
,
{\displaystyle X_{n}\ {\xrightarrow {d}}\ c\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ c,}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分佈收斂到隨機變量
X
{\displaystyle X}
,並且
X
n
{\displaystyle X_{n}}
和
Y
n
{\displaystyle Y_{n}}
的差依概率收斂到0,那麼
Y
n
{\displaystyle Y_{n}}
也依分佈收斂到隨機變量
X
{\displaystyle X}
[ 4] :
X
n
→
d
X
,
|
X
n
−
Y
n
|
→
p
0
⇒
Y
n
→
d
X
{\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ |X_{n}-Y_{n}|\ {\xrightarrow {p}}\ 0\ \quad \Rightarrow \quad Y_{n}\ {\xrightarrow {d}}\ X}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分佈收斂到隨機變量
X
{\displaystyle X}
,並且 序列
(
Y
n
;
n
∈
N
)
{\displaystyle \left(Y_{n};\,n\in \mathbb {N} \right)}
依分佈收斂到常數c ,那麼向量列
(
(
X
n
,
Y
n
)
;
n
∈
N
)
{\displaystyle \left((X_{n},Y_{n});\,n\in \mathbb {N} \right)}
依分佈收斂到隨機變量
(
X
,
c
)
{\displaystyle (X,c)}
[ 4] :
X
n
→
d
X
,
Y
n
→
d
c
⇒
(
X
n
,
Y
n
)
→
d
(
X
,
c
)
{\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ Y_{n}\ {\xrightarrow {d}}\ c\ \quad \Rightarrow \quad (X_{n},Y_{n})\ {\xrightarrow {d}}\ (X,c)}
Bickel, Peter J.; Klaassen, Chris A.J.; Ritov, Ya』acov; Wellner, Jon A. Efficient and adaptive estimation for semiparametric models. New York: Springer-Verlag. 1998. ISBN 0387984739 .
Billingsley, Patrick. Probability and Measure. Wiley Series in Probability and Mathematical Statistics 2nd. Wiley. 1986.
Billingsley, Patrick. Convergence of probability measures 2nd. John Wiley & Sons. 1999: 1 –28. ISBN 0471197459 .
Dudley, R.M. Real analysis and probability. Cambridge, UK: Cambridge University Press. 2002. ISBN 052180972X .
Grimmett, G.R.; Stirzaker, D.R. Probability and random processes 2nd. Clarendon Press, Oxford. 1992: 271 –285. ISBN 0-19-853665-8 .
Jacobsen, M. Videregående Sandsynlighedsregning (Advanced Probability Theory) 3rd. HCØ-tryk, Copenhagen. 1992: 18–20. ISBN 87-91180-71-6 .
Ledoux, Michel; Talagrand, Michel . Probability in Banach spaces. Berlin: Springer-Verlag. 1991: xii+480. ISBN 3-540-52013-9 . MR 1102015 .
Romano, Joseph P.; Siegel, Andrew F. Counterexamples in probability and statistics. Great Britain: Chapman & Hall. 1985. ISBN 0412989018 .
van der Vaart, Aad W.; Wellner, Jon A. Weak convergence and empirical processes. New York: Springer-Verlag. 1996. ISBN 0387946403 .
van der Vaart, Aad W. Asymptotic statistics. New York: Cambridge University Press. 1998. ISBN 9780521496032 .
Williams, D. Probability with Martingales. Cambridge University Press. 1991. ISBN 0521406056 .
Wong, E.; Hájek, B. Stochastic Processes in Engineering Systems. New York: Springer–Verlag. 1985.