概率论 中有若干关于随机变量收敛 (Convergence of random variables)的定义。研究一列 随机变量 是否会收敛到某个极限 随机变量是概率论 中的重要内容,在统计概率 和随机过程 中都有应用。在更广泛的数学领域中,随机变量的收敛被称为随机收敛 ,表示一系列本质上随机不可预测的事件所发生的模式可以在样本数量足够大的时候得到合理可靠的预测。各种不同的收敛定义实际上是表示预测时不同的刻画方式。
依概率1收敛又称为几乎处处收敛,其定义接近于函数逐点收敛 的定义。事实上,由于随机变量的本质是由样本空间
Ω
{\displaystyle {\mathit {\Omega }}}
到取值空间
B
{\displaystyle {\mathfrak {B}}}
上的函数。因此,给定一个概率空间
(
Ω
,
F
,
P
)
{\displaystyle \left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)}
中的一列 随机变量
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
,考虑事件
A
X
=
{
ω
;
lim
n
→
∞
X
n
(
ω
)
=
X
(
ω
)
}
{\displaystyle A_{X}=\left\{\omega ;\;\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\right\}}
。如果存在一个随机变量
X
{\displaystyle X}
,使得事件
A
X
{\displaystyle A_{X}}
的概率为1,那么就称随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
依概率1收敛到
X
{\displaystyle X}
(或称
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};n\in \mathbb {N} \right)}
几乎处处收敛到
X
{\displaystyle X}
),记作:
X
n
→
a
.
s
.
X
{\displaystyle X_{n}{\xrightarrow {a.s.}}X}
或
P
(
lim
n
→
∞
X
n
=
X
)
=
1
{\displaystyle \mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1}
当取值空间
B
{\displaystyle {\mathfrak {B}}}
是一般的实数空间
R
{\displaystyle \mathbb {R} }
时,依概率1收敛的意义是:
对任意的正实数
ε
>
0
{\displaystyle \varepsilon >0}
,
P
(
lim inf
{
ω
∈
Ω
:
|
X
n
(
ω
)
−
X
(
ω
)
|
<
ε
}
)
=
1
{\displaystyle \mathbb {P} {\Big (}\liminf {\big \{}\omega \in \Omega :|X_{n}(\omega )-X(\omega )|<\varepsilon {\big \}}{\Big )}=1}
当空间
B
{\displaystyle {\mathfrak {B}}}
是度量空间 (S , d ) 的时候,依概率1收敛的意义是:
P
(
ω
∈
Ω
:
d
(
X
n
(
ω
)
,
X
(
ω
)
)
→
n
→
∞
0
)
=
1
{\displaystyle \mathbb {P} {\Big (}\omega \in \Omega :\,d{\big (}X_{n}(\omega ),X(\omega ){\big )}\,{\xrightarrow[{n\to \infty }]{\,}}\,0{\Big )}=1}
设
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
是一个随机变量序列,
X
{\displaystyle X}
是一个随机变量。如果对于任意的正实数
ϵ
>
0
{\displaystyle \epsilon >0}
,都有:
lim
n
→
∞
P
(
|
X
−
X
n
|
≥
ϵ
)
=
0
{\displaystyle \lim _{n\to \infty }\mathbb {P} (|X-X_{n}|\geq \epsilon )=0}
那么称序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依概率收敛到
X
{\displaystyle X}
,记作:
X
n
→
n
→
∞
P
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathbb {P} }}X}
如果
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
的取值空间是一个可分 度量空间(S , d ),那么依概率收敛的定义为[ 1] :
P
(
d
(
X
n
,
X
)
≥
ε
)
→
0
,
∀
ε
>
0.
{\displaystyle \mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.}
依概率收敛和依概率1收敛的定义有相似之处,但本质上,依概率1收敛是比依概率收敛更“强”的收敛性质。如果一列随机变量依概率1收敛到某个极限,那么它必然也依概率收敛到这个极限,但反之则不然。一个实数上的例子是:设概率空间
(
Ω
,
F
,
P
)
{\displaystyle \left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)}
是区间
Ω
=
[
0
,
1
)
{\displaystyle {\mathit {\Omega }}=[0,1)}
上的一个连续型均匀分布
P
=
U
{\displaystyle \mathbb {P} =\mathbf {U} }
。一个随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
定义为:
X
1
=
1
{
ω
∈
[
0
,
1
)
}
=
1
{\displaystyle X_{1}=\mathbf {1} _{\left\{\omega \in [0,1)\right\}}=\mathbf {1} }
X
2
=
1
{
ω
∈
[
0
,
1
2
)
}
,
X
3
=
1
{
ω
∈
[
1
2
,
1
)
}
{\displaystyle X_{2}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{2}})\right\}},\qquad X_{3}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},1)\right\}}}
X
4
=
1
{
ω
∈
[
0
,
1
4
)
}
,
X
5
=
1
{
ω
∈
[
1
4
,
1
2
)
}
,
X
6
=
1
{
ω
∈
[
1
2
,
3
4
)
}
,
X
7
=
1
{
ω
∈
[
3
4
,
1
)
}
{\displaystyle X_{4}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{4}})\right\}},\qquad X_{5}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{4}},{\frac {1}{2}})\right\}},\qquad X_{6}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},{\frac {3}{4}})\right\}},\qquad X_{7}=\mathbf {1} _{\left\{\omega \in [{\frac {3}{4}},1)\right\}}}
⋯
{\displaystyle \cdots \;}
∀
(
k
,
m
)
∈
N
,
0
⩽
k
⩽
2
m
−
1
,
X
2
m
+
k
=
1
{
ω
∈
[
k
2
m
,
k
+
1
2
m
)
}
{\displaystyle \forall (k,m)\in \mathbb {N} ,\,\,0\leqslant k\leqslant 2^{m}-1,\,\,X_{2^{m}+k}=\mathbf {1} _{\left\{\omega \in [{\frac {k}{2^{m}}},{\frac {k+1}{2^{m}}})\right\}}}
由于
∀
2
m
⩽
n
⩽
2
m
+
1
−
1
,
P
(
|
X
n
−
0
|
⩾
ε
)
=
1
2
m
{\displaystyle \forall 2^{m}\leqslant n\leqslant 2^{m+1}-1,\,\,\mathbb {P} \left(|X_{n}-0|\geqslant \varepsilon \right)={\frac {1}{2^{m}}}}
所以
X
n
→
P
0
{\displaystyle X_{n}{\xrightarrow {\mathbb {P} }}0}
,
另一方面,考虑
X
2
m
{\displaystyle X_{2^{m}}}
到
X
2
m
+
1
−
1
{\displaystyle X_{2^{m+1}-1}}
这一组随机变量,它们取值为1的集合的并集恰好是总区间,因此对每一个
ω
∈
[
0
,
1
)
{\displaystyle \omega \in [0,1)}
,总会有
X
2
m
{\displaystyle X_{2^{m}}}
到
X
2
m
+
1
−
1
{\displaystyle X_{2^{m+1}-1}}
之间的某个变量
X
2
m
+
k
m
{\displaystyle X_{2^{m}+k_{m}}}
,使得
X
2
m
+
k
m
(
ω
)
=
1
{\displaystyle X_{2^{m}+k_{m}}(\omega )=1}
所以,对任意一个
ω
∈
[
0
,
1
)
{\displaystyle \omega \in [0,1)}
,
lim
n
→
∞
|
X
n
(
ω
)
−
0
|
≠
0
{\displaystyle \lim _{n\to \infty }|X_{n}(\omega )-0|\neq 0}
,
即是说,
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
并不依概率1收敛到0。从例子中可以看到,依概率收敛比依概率1收敛更为宽松的地方是:当n 趋于无穷大的时候,只要偏离极限函数的
ω
{\displaystyle \omega }
(即是集合
{
ω
n
;
|
X
n
(
ω
n
)
−
X
(
ω
n
)
|
⩾
ε
}
{\displaystyle \left\{\omega _{n};\,|X_{n}(\omega _{n})-X(\omega _{n})|\geqslant \varepsilon \right\}}
中的
ω
n
{\displaystyle \omega _{n}}
)“足够少”,就能使得依概率收敛成立了,这些
ω
n
{\displaystyle \omega _{n}}
的集合可以随着n 不同而不同;而依概率1收敛则要求
ω
n
{\displaystyle \omega _{n}}
的集合固定地缩减至一个概率为0的集合。因此,依概率1收敛要比依概率收敛更为严格。
依概率收敛蕴含依分布收敛:一个依概率收敛的随机变量序列必然也依分布收敛到同一个极限。
在离散概率空间中,依概率收敛和依概率1收敛是等价的。
依分布收敛蕴含依概率收敛当且仅当依分布收敛的极限是一个常数。
连续映射定理 说明:对任意连续函数
g
{\displaystyle g}
,如果随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依概率收敛到
X
{\displaystyle X}
,那么序列
(
g
(
X
n
)
;
n
∈
N
)
{\displaystyle (g(X_{n});\,n\in \mathbb {N} )}
依概率收敛到
g
(
X
)
{\displaystyle g(X)}
依概率收敛定义了确定概率空间上的随机变量空间上的一个拓扑。这个拓扑可以用樊𰋀 度量进行度量化[ 2] 。
d
(
X
,
Y
)
=
inf
{
ε
>
0
:
Pr
(
|
X
−
Y
|
>
ε
)
≤
ε
}
.
{\displaystyle d(X,Y)=\inf \!{\big \{}\varepsilon >0:\ \Pr {\big (}|X-Y|>\varepsilon {\big )}\leq \varepsilon {\big \}}.}
平方平均收敛与
L
p
{\displaystyle \mathbf {L} ^{p}}
收敛
编辑
依分布收敛是最宽松的收敛方式之一。这种收敛不要求查看每个
ω
{\displaystyle \omega }
,只要求序列的分布趋向于某个极限。直觉上,一个随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收敛到某个随机变量
X
{\displaystyle X}
,如果:
对所有的
a
{\displaystyle a}
,都有
P
(
X
n
⩽
a
)
→
P
(
X
⩽
a
)
{\displaystyle \mathbb {P} (X_{n}\leqslant a)\rightarrow \mathbb {P} (X\leqslant a)}
。
更严格的定义是探讨随机变量
X
n
{\displaystyle X_{n}}
的累积分布函数
F
n
(
x
)
=
P
(
X
n
⩽
x
)
{\displaystyle F_{n}(x)=\mathbb {P} (X_{n}\leqslant x)}
。设有实值 的随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
和某个随机变量
X
{\displaystyle X}
(其累积分布函数为
F
(
x
)
{\displaystyle F(x)}
),如果对
F
(
x
)
{\displaystyle F(x)}
的每个连续点
x
{\displaystyle x}
,都有
lim
n
→
∞
F
n
(
x
)
=
F
(
x
)
{\displaystyle \lim _{n\to \infty }F_{n}(x)=F(x)}
,那么就说
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收敛到某个随机变量
X
{\displaystyle X}
。记作:
X
n
→
n
→
∞
D
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {D}}}X}
,
X
n
→
n
→
∞
d
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathit {d}}}X}
或
X
n
→
n
→
∞
L
X
{\displaystyle X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {L}}}X}
由于依分布收敛只和随机变量的分布相关,所以也可以称一系列随机变量(依分布)收敛于某个分布。设
L
X
{\displaystyle {\mathcal {L}}_{X}}
是极限
X
{\displaystyle X}
的分布,那么依分布收敛也可以记作:
X
n
→
d
L
X
,
X
n
⇝
X
{\displaystyle X_{n}\ {\xrightarrow {d}}\ {\mathcal {L}}_{X},\,\,X_{n}\rightsquigarrow X}
或
L
(
X
n
)
→
L
(
X
)
{\displaystyle {\mathcal {L}}(X_{n})\to {\mathcal {L}}(X)}
例如一个随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收敛到标准正态分布,就可以记作:
X
n
→
d
N
(
0
,
1
)
.
{\displaystyle X_{n}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,1).}
作为最弱的收敛方式之一,依分布收敛无法推出其它的收敛方式。对于存在概率密度函數 的连续型随机变量序列,依分布收敛并不能推出其概率密度函数也同样收敛。例如对于概率密度函數为
f
n
(
x
)
=
(
1
−
cos
(
2
π
n
x
)
)
1
x
∈
(
0
,
1
)
{\displaystyle f_{n}(x)=\left(1-\cos(2\pi nx)\right)\mathbf {1} _{x\in (0,1)}}
的随机变量序列,其依分布收敛到均匀分布的随机变量,但其概率密度函数不收敛[ 3] 。
依分布收敛的等价定义:一个随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收敛到某个随机变量
X
{\displaystyle X}
和以下命题中的任意一个等价:
对所有的有界 连续函数
f
{\displaystyle f}
,都有:
E
[
f
(
X
n
)
]
→
E
[
f
(
X
)
]
{\displaystyle \mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]}
;
对所有具有利普希茨連續 性质的函数
f
{\displaystyle f}
,都有:
E
[
f
(
X
n
)
]
→
E
[
f
(
X
)
]
{\displaystyle \mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]}
;
对所有上有界的上半连续 函数
f
{\displaystyle f}
,都有:
lim sup
E
[
f
(
X
n
)
]
⩽
E
[
f
(
X
)
]
{\displaystyle \limsup \mathbb {E} [f(X_{n})]\leqslant \mathbb {E} [f(X)]}
;
对所有下有界的下半连续 函数
f
{\displaystyle f}
,都有:
lim inf
E
[
f
(
X
n
)
]
⩾
E
[
f
(
X
)
]
{\displaystyle \liminf \mathbb {E} [f(X_{n})]\geqslant \mathbb {E} [f(X)]}
;
对所有闭集
C
{\displaystyle C}
,都有:
lim sup
n
→
∞
P
(
X
n
∈
C
)
⩽
P
(
X
∈
C
)
{\displaystyle \limsup _{n\to \infty }\mathbb {P} \left(X_{n}\in C\right)\leqslant \mathbb {P} \left(X\in C\right)}
;
对所有开集
U
{\displaystyle U}
,都有:
lim inf
n
→
∞
P
(
X
n
∈
U
)
⩾
P
(
X
∈
U
)
{\displaystyle \liminf _{n\to \infty }\mathbb {P} \left(X_{n}\in U\right)\geqslant \mathbb {P} \left(X\in U\right)}
;
对关于
X
{\displaystyle X}
的所有连续集
A
{\displaystyle A}
,都有:
lim
n
→
∞
P
(
X
n
∈
A
)
=
P
(
X
∈
A
)
{\displaystyle \lim _{n\to \infty }\mathbb {P} \left(X_{n}\in A\right)=\mathbb {P} \left(X\in A\right)}
。
连续映射定理 说明,对于连续函数g (·),如果随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收敛到随机变量
X
{\displaystyle X}
,那么
(
g
(
X
n
)
;
n
∈
N
)
{\displaystyle (g(X_{n});\,n\in \mathbb {N} )}
也依分布收敛到随机变量
g
(
X
)
{\displaystyle g(X)}
。
列维连续性定理 : 随机变量序列
(
X
n
;
n
∈
N
)
{\displaystyle (X_{n};\,n\in \mathbb {N} )}
依分布收敛到某个随机变量
X
{\displaystyle X}
当且仅当对应的特征函数 序列
(
φ
n
(
x
)
;
n
∈
N
)
{\displaystyle (\varphi _{n}(x);\,n\in \mathbb {N} )}
逐点收敛 到某个在0处连续的函数
φ
{\displaystyle \varphi }
(此时随机变量
X
{\displaystyle X}
的分布为
φ
{\displaystyle \varphi }
)。
列维-普罗科洛夫度量 是依分布收敛的度量化 结果。
各个收敛的定义有强弱之分。一个收敛性强于另一个是指从前者可以推出后者。例如依概率收敛强于依分布收敛,即是说如果一列随机变量依概率收敛到某个极限,那么必定也依分布收敛到这个极限。具体来说,收敛性的强弱关系可以用下图来表示:
→
L
r
⇒
r
>
s
≥
1
→
L
s
⇓
→
a
.
s
.
⇒
→
p
⇒
→
d
{\displaystyle {\begin{matrix}{\xrightarrow {L^{r}}}&{\underset {r>s\geq 1}{\Rightarrow }}&{\xrightarrow {L^{s}}}&&\\&&\Downarrow &&\\{\xrightarrow {a.s.}}&\Rightarrow &{\xrightarrow {\ p\ }}&\Rightarrow &{\xrightarrow {\ d\ }}\end{matrix}}}
依概率1收敛可以推出依概率收敛[ 4] :
X
n
→
a
.
s
.
X
⇒
X
n
→
p
X
{\displaystyle X_{n}\ {\xrightarrow {a.s.}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X}
依概率收敛可以推出存在依概率1收敛的子列
(
k
n
)
{\displaystyle (k_{n})}
[ 5] :
X
n
→
p
X
⇒
X
k
n
→
a
.
s
.
X
{\displaystyle X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{k_{n}}\ {\xrightarrow {a.s.}}\ X}
依概率收敛可以推出依分布收敛[ 4] :
X
n
→
p
X
⇒
X
n
→
d
X
{\displaystyle X_{n}\ {\xrightarrow {p}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {d}}\ X}
对任意的
r
>
0
{\displaystyle r>0}
,
L
r
{\displaystyle \mathbf {L} ^{r}}
-收敛可以推出依概率收敛:
X
n
→
L
r
X
⇒
X
n
→
p
X
{\displaystyle X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ X}
如果
r
>
s
⩾
1
{\displaystyle r>s\geqslant 1}
,那么
L
r
{\displaystyle \mathbf {L} ^{r}}
-收敛可以推出
L
s
{\displaystyle \mathbf {L} ^{s}}
-收敛:
X
n
→
L
r
X
⇒
X
n
→
L
s
X
,
{\displaystyle X_{n}\ {\xrightarrow {L^{r}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {L^{s}}}\ X,}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分布收敛到常数c ,那么它也依概率收敛到常数c [ 4] :
X
n
→
d
c
⇒
X
n
→
p
c
,
{\displaystyle X_{n}\ {\xrightarrow {d}}\ c\quad \Rightarrow \quad X_{n}\ {\xrightarrow {p}}\ c,}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分布收敛到随机变量
X
{\displaystyle X}
,并且
X
n
{\displaystyle X_{n}}
和
Y
n
{\displaystyle Y_{n}}
的差依概率收敛到0,那么
Y
n
{\displaystyle Y_{n}}
也依分布收敛到随机变量
X
{\displaystyle X}
[ 4] :
X
n
→
d
X
,
|
X
n
−
Y
n
|
→
p
0
⇒
Y
n
→
d
X
{\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ |X_{n}-Y_{n}|\ {\xrightarrow {p}}\ 0\ \quad \Rightarrow \quad Y_{n}\ {\xrightarrow {d}}\ X}
如果序列
(
X
n
;
n
∈
N
)
{\displaystyle \left(X_{n};\,n\in \mathbb {N} \right)}
依分布收敛到随机变量
X
{\displaystyle X}
,并且 序列
(
Y
n
;
n
∈
N
)
{\displaystyle \left(Y_{n};\,n\in \mathbb {N} \right)}
依分布收敛到常数c ,那么向量列
(
(
X
n
,
Y
n
)
;
n
∈
N
)
{\displaystyle \left((X_{n},Y_{n});\,n\in \mathbb {N} \right)}
依分布收敛到随机变量
(
X
,
c
)
{\displaystyle (X,c)}
[ 4] :
X
n
→
d
X
,
Y
n
→
d
c
⇒
(
X
n
,
Y
n
)
→
d
(
X
,
c
)
{\displaystyle X_{n}\ {\xrightarrow {d}}\ X,\ \ Y_{n}\ {\xrightarrow {d}}\ c\ \quad \Rightarrow \quad (X_{n},Y_{n})\ {\xrightarrow {d}}\ (X,c)}
Bickel, Peter J.; Klaassen, Chris A.J.; Ritov, Ya’acov; Wellner, Jon A. Efficient and adaptive estimation for semiparametric models. New York: Springer-Verlag. 1998. ISBN 0387984739 .
Billingsley, Patrick. Probability and Measure. Wiley Series in Probability and Mathematical Statistics 2nd. Wiley. 1986.
Billingsley, Patrick. Convergence of probability measures 2nd. John Wiley & Sons. 1999: 1 –28. ISBN 0471197459 .
Dudley, R.M. Real analysis and probability. Cambridge, UK: Cambridge University Press. 2002. ISBN 052180972X .
Grimmett, G.R.; Stirzaker, D.R. Probability and random processes 2nd. Clarendon Press, Oxford. 1992: 271 –285. ISBN 0-19-853665-8 .
Jacobsen, M. Videregående Sandsynlighedsregning (Advanced Probability Theory) 3rd. HCØ-tryk, Copenhagen. 1992: 18–20. ISBN 87-91180-71-6 .
Ledoux, Michel; Talagrand, Michel . Probability in Banach spaces. Berlin: Springer-Verlag. 1991: xii+480. ISBN 3-540-52013-9 . MR 1102015 .
Romano, Joseph P.; Siegel, Andrew F. Counterexamples in probability and statistics. Great Britain: Chapman & Hall. 1985. ISBN 0412989018 .
van der Vaart, Aad W.; Wellner, Jon A. Weak convergence and empirical processes. New York: Springer-Verlag. 1996. ISBN 0387946403 .
van der Vaart, Aad W. Asymptotic statistics. New York: Cambridge University Press. 1998. ISBN 9780521496032 .
Williams, D. Probability with Martingales. Cambridge University Press. 1991. ISBN 0521406056 .
Wong, E.; Hájek, B. Stochastic Processes in Engineering Systems. New York: Springer–Verlag. 1985.