Soient des variables aléatoires
(
X
i
)
i
∈
N
∗
{\displaystyle (X_{i})_{i\in \mathbb {N} ^{*}}}
i.i.d. définies sur un espace de probabilité
(
Ω
,
T
,
P
)
{\displaystyle (\Omega ,{\mathcal {T}},\mathbb {P} )}
à valeurs dans un espace mesurable
(
X
,
A
)
{\displaystyle ({\mathcal {X}},{\mathcal {A}})}
et
F
{\displaystyle {\mathcal {F}}}
une classe de fonctions mesurables de
(
X
,
A
)
{\displaystyle ({\mathcal {X}},{\mathcal {A}})}
à valeurs réelles. On dit que
F
{\displaystyle {\mathcal {F}}}
est une classe de Glivenko-Cantelli si elle vérifie la propriété
lim
n
→
+
∞
|
|
P
n
(
f
)
−
P
(
f
)
|
|
F
=
lim
n
→
+
∞
sup
f
∈
F
|
P
n
(
f
)
−
P
(
f
)
|
=
0
,
{\displaystyle \lim _{n\to +\infty }||P_{n}(f)-P(f)||_{\mathcal {F}}=\lim _{n\to +\infty }\sup _{f\in {\mathcal {F}}}|P_{n}(f)-P(f)|=0,}
avec
P
n
{\displaystyle P_{n}}
la mesure empirique indexée par
F
{\displaystyle {\mathcal {F}}}
et
P
=
P
X
{\displaystyle P=\mathbb {P} ^{X}}
la loi des
X
i
{\displaystyle X_{i}}
, i.e.
P
(
f
)
=
E
[
f
(
X
)
]
{\displaystyle P(f)=\mathbb {E} [f(X)]}
. Puisqu'une classe de Glivenko-Cantelli
F
{\displaystyle {\mathcal {F}}}
dépend de la mesure
P
{\displaystyle P}
, on peut dire en cas d'éventuelle confusion sur la loi que
F
{\displaystyle {\mathcal {F}}}
est une classe de
P
{\displaystyle P}
-Glivenko-Cantelli.
Condition avec l'entropie avec crochets
modifier
On note
N
[
]
(
F
,
ε
,
d
)
{\displaystyle N_{[\ ]}({\mathcal {F}},\varepsilon ,d)}
le nombre de recouvrement avec crochets de la classe
F
{\displaystyle {\mathcal {F}}}
de rayon
ε
{\displaystyle \varepsilon }
et avec la distance
d
{\displaystyle d}
. Toute classe
F
{\displaystyle {\mathcal {F}}}
vérifiant
∀
ε
>
0
,
N
[
]
(
F
,
ε
,
L
1
(
P
)
)
<
+
∞
{\displaystyle \forall \varepsilon >0,\quad N_{[\ ]}({\mathcal {F}},\varepsilon ,L_{1}(P))<+\infty }
est une classe de Glivenko-Cantelli[ 1] .
On note
N
(
F
,
ε
,
d
)
{\displaystyle N({\mathcal {F}},\varepsilon ,d)}
le nombre de recouvrements de
F
{\displaystyle {\mathcal {F}}}
par des boules de rayon
ε
{\displaystyle \varepsilon }
avec la distance
d
{\displaystyle d}
. Supposons que
F
{\displaystyle {\mathcal {F}}}
vérifie pour une enveloppe de fonctions
F
{\displaystyle F}
intégrable,
∀
ε
>
0
,
sup
Q
N
(
F
,
ε
|
|
F
|
|
Q
,
1
,
L
1
(
Q
)
)
<
+
∞
{\displaystyle \forall \varepsilon >0,\quad \sup _{Q}N({\mathcal {F}},\varepsilon ||F||_{Q,1},L_{1}(Q))<+\infty }
où le supremum est pris sur toutes les mesures de probabilité
Q
{\displaystyle Q}
tel que
|
|
F
|
|
Q
,
1
≠
0
{\displaystyle ||F||_{Q,1}\neq 0}
. Alors
F
{\displaystyle {\mathcal {F}}}
est une classe de Glivenko-Cantelli[ 2] .
Une classe de fonctions mesurables à valeurs réelles
F
{\displaystyle {\mathcal {F}}}
est appelée classe de Donsker si elle vérifie la convergence
α
n
⟶
L
n
→
+
∞
G
dans
ℓ
∞
(
F
)
,
{\displaystyle \alpha _{n}{\underset {n\to +\infty }{\overset {\mathcal {L}}{\longrightarrow }}}\mathbb {G} \qquad {\text{ dans }}\ell ^{\infty }({\mathcal {F}}),}
avec
α
n
{\displaystyle \alpha _{n}}
le processus empirique indexé par la classe de fonctions
F
{\displaystyle {\mathcal {F}}}
et
G
{\displaystyle \mathbb {G} }
le pont brownien indexé par
F
{\displaystyle {\mathcal {F}}}
. Puisque
|
|
P
n
−
P
|
|
F
=
1
n
|
|
α
n
|
|
F
{\displaystyle ||P_{n}-P||_{\mathcal {F}}={\frac {1}{\sqrt {n}}}||\alpha _{n}||_{\mathcal {F}}}
, si
F
{\displaystyle {\mathcal {F}}}
est une classe de Donsker alors c'est une classe de Glivenko-Cantelli.
Le théorème de Glivenko-Cantelli revient à dire que la classe des fonctions indicatrices
F
=
{
x
↦
1
{
x
≤
t
}
:
t
∈
R
}
{\displaystyle {\mathcal {F}}=\{x\mapsto \mathbf {1} _{\{x\leq t\}}:t\in \mathbb {R} \}}
est une classe de Glivenko-Cantelli. Ce théorème dit donc que la fonction de répartition empirique converge uniformément vers la fonction de répartition de la variable étudiée. Il existe plusieurs manières de démontrer ce théorème. On peut se ramener au cas des variables uniformes et démontrer la véracité de ce résultat dans ce cas (voir l'article Théorème de Glivenko-Cantelli ). On utilise ici des méthodes combinatoires et des inégalités de concentration [ 3] . On notera
|
|
⋅
|
|
{\displaystyle ||\cdot ||}
le supremum de la classe
F
=
{
x
↦
1
{
x
≤
t
}
:
t
∈
R
}
{\displaystyle {\mathcal {F}}=\{x\mapsto \mathbf {1} _{\{x\leq t\}}:t\in \mathbb {R} \}}
.
1ère étape : première symétrisation
On note
P
n
′
{\displaystyle P_{n}'}
une copie indépendante de
P
n
{\displaystyle P_{n}}
, i.e. la mesure empirique basée sur une copie
X
1
′
,
…
,
X
n
′
{\displaystyle X_{1}',\dots ,X_{n}'}
indépendante de échantillon
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}}
. D'après le lemme de symétrisation ,
∀
n
≥
8
ε
−
2
,
P
(
|
|
P
n
−
P
|
|
>
ε
)
≤
2
P
(
|
|
P
n
−
P
n
′
|
|
>
1
2
ε
)
.
{\displaystyle \forall n\geq 8\varepsilon ^{-2},\quad \mathbb {P} \left(||P_{n}-P||>\varepsilon \right)\leq 2\mathbb {P} \left(||P_{n}-P_{n}'||>{\frac {1}{2}}\varepsilon \right).}
2ème étape : seconde symétrisation
Soit
σ
1
,
…
,
σ
n
{\displaystyle \sigma _{1},\dots ,\sigma _{n}}
des variables de Rademacher, i.e.
P
(
σ
i
=
1
)
=
P
(
σ
i
=
−
1
)
=
1
/
2
{\displaystyle \mathbb {P} (\sigma _{i}=1)=\mathbb {P} (\sigma _{i}=-1)=1/2}
. Les variables
1
{
X
i
≤
t
}
−
1
{
X
i
′
≤
t
}
{\displaystyle \mathbf {1} _{\{X_{i}\leq t\}}-\mathbf {1} _{\{X_{i}'\leq t\}}}
ont la même distribution que
σ
i
(
1
{
X
i
≤
t
}
−
1
{
X
i
′
≤
t
}
)
{\displaystyle \sigma _{i}\left(\mathbf {1} _{\{X_{i}\leq t\}}-\mathbf {1} _{\{X_{i}'\leq t\}}\right)}
(il suffit de considérer la distribution conditionnelle par rapport à
σ
i
{\displaystyle \sigma _{i}}
). Alors
P
(
|
|
P
n
−
P
n
′
|
|
>
1
2
ε
)
=
P
(
sup
t
∈
R
|
n
−
1
∑
i
=
1
n
σ
i
(
1
{
X
i
≤
t
}
−
1
{
X
i
′
≤
t
}
)
|
>
1
2
ε
)
≤
P
(
sup
t
∈
R
|
n
−
1
∑
i
=
1
n
σ
i
1
{
X
i
≤
t
}
|
>
1
4
ε
)
+
P
(
sup
t
∈
R
|
n
−
1
∑
i
=
1
n
σ
i
1
{
X
i
′
≤
t
}
|
>
1
4
ε
)
{\displaystyle {\begin{aligned}\mathbb {P} \left(||P_{n}-P_{n}'||>{\frac {1}{2}}\varepsilon \right)&=\mathbb {P} \left(\sup _{t\in \mathbb {R} }\left|n^{-1}\sum _{i=1}^{n}\sigma _{i}(\mathbf {1} _{\{X_{i}\leq t\}}-\mathbf {1} _{\{X_{i}'\leq t\}})\right|>{\frac {1}{2}}\varepsilon \right)\\&\leq \mathbb {P} \left(\sup _{t\in \mathbb {R} }\left|n^{-1}\sum _{i=1}^{n}\sigma _{i}\mathbf {1} _{\{X_{i}\leq t\}}\right|>{\frac {1}{4}}\varepsilon \right)+\mathbb {P} \left(\sup _{t\in \mathbb {R} }\left|n^{-1}\sum _{i=1}^{n}\sigma _{i}\mathbf {1} _{\{X_{i}'\leq t\}}\right|>{\frac {1}{4}}\varepsilon \right)\end{aligned}}}
Si on note
P
n
∘
{\displaystyle P_{n}^{\circ }}
la mesure signée définie par
P
n
∘
(
t
)
=
n
−
1
∑
i
=
1
n
σ
i
1
{
X
i
≤
t
}
{\displaystyle P_{n}^{\circ }(t)=n^{-1}\sum _{i=1}^{n}\sigma _{i}\mathbf {1} _{\{X_{i}\leq t\}}}
alors l'étape 1 on obtient désormais que
∀
n
≥
8
ε
−
2
,
P
(
|
|
P
n
−
P
|
|
>
ε
)
≤
4
P
(
|
|
P
n
∘
|
|
>
1
4
ε
)
.
{\displaystyle \forall n\geq 8\varepsilon ^{-2},\quad \mathbb {P} \left(||P_{n}-P||>\varepsilon \right)\leq 4\mathbb {P} \left(||P_{n}^{\circ }||>{\frac {1}{4}}\varepsilon \right).}
3ème étape : inégalité maximale
Pour borner le membre de droite, on travaille conditionnellement aux observations
X
{\displaystyle X}
, le hasard provenant de
σ
i
{\displaystyle \sigma _{i}}
. Conditionnellement aux
X
{\displaystyle X}
, le supremum
|
|
P
n
∘
|
|
{\displaystyle ||P_{n}^{\circ }||}
sera le maximum pris sur des intervalles bien choisis. Pour
j
=
0
,
1
,
…
,
n
{\displaystyle j=0,1,\dots ,n}
, on pose
I
j
=
]
−
∞
,
t
j
]
{\displaystyle I_{j}=]-\infty ,t_{j}]}
avec
t
j
{\displaystyle t_{j}}
des réels choisis vérifiant
t
0
<
X
1
<
t
1
<
⋯
<
t
n
−
1
<
X
n
<
t
n
{\displaystyle t_{0}<X_{1}<t_{1}<\dots <t_{n-1}<X_{n}<t_{n}}
. Ainsi,
P
(
|
|
P
n
∘
|
|
>
1
4
ε
|
X
1
,
…
,
X
n
)
=
P
(
max
0
≤
j
≤
n
|
P
n
∘
(
I
j
)
|
>
1
4
ε
|
X
1
,
…
,
X
n
)
≤
∑
j
=
0
n
P
(
|
P
n
∘
(
I
j
)
|
>
1
4
ε
|
X
1
,
…
,
X
n
)
≤
(
n
+
1
)
max
0
≤
j
≤
n
P
(
|
P
n
∘
(
I
j
)
|
>
1
4
ε
|
X
1
,
…
,
X
n
)
{\displaystyle {\begin{aligned}\mathbb {P} \left(||P_{n}^{\circ }||>{\frac {1}{4}}\varepsilon |X_{1},\dots ,X_{n}\right)&=\mathbb {P} \left(\max _{0\leq j\leq n}|P_{n}^{\circ }(I_{j})|>{\frac {1}{4}}\varepsilon |X_{1},\dots ,X_{n}\right)\\&\leq \sum _{j=0}^{n}\mathbb {P} \left(|P_{n}^{\circ }(I_{j})|>{\frac {1}{4}}\varepsilon |X_{1},\dots ,X_{n}\right)\\&\leq (n+1)\max _{0\leq j\leq n}\mathbb {P} \left(|P_{n}^{\circ }(I_{j})|>{\frac {1}{4}}\varepsilon |X_{1},\dots ,X_{n}\right)\end{aligned}}}
4ème étape : borne exponentielle
D'après l'inégalité de Hoeffding appliquée aux variables
σ
i
1
{
X
i
≤
t
}
{\displaystyle \sigma _{i}\mathbf {1} _{\{X_{i}\leq t\}}}
(qui sont à valeurs dans
{
−
1
,
1
}
{\displaystyle \{-1,1\}}
),
P
(
|
P
n
∘
(
I
j
)
|
>
1
4
ε
|
X
1
,
…
,
X
n
)
≤
2
exp
(
−
2
(
n
ε
/
4
)
2
∑
i
=
1
n
4
1
{
X
i
≤
t
}
)
≤
2
exp
(
−
n
ε
2
32
)
.
{\displaystyle {\begin{aligned}\mathbb {P} \left(|P_{n}^{\circ }(I_{j})|>{\frac {1}{4}}\varepsilon |X_{1},\dots ,X_{n}\right)&\leq 2\exp \left(-{\frac {2(n\varepsilon /4)^{2}}{\sum _{i=1}^{n}4\mathbf {1} _{\{X_{i}\leq t\}}}}\right)\\&\leq 2\exp \left(-{\frac {n\varepsilon ^{2}}{32}}\right).\end{aligned}}}
D'après l'inégalité précédente,
P
(
|
|
P
n
∘
|
|
>
1
4
ε
|
X
1
,
…
,
X
n
)
≤
2
(
n
+
1
)
exp
(
−
n
ε
2
32
)
.
{\displaystyle \mathbb {P} \left(||P_{n}^{\circ }||>{\frac {1}{4}}\varepsilon |X_{1},\dots ,X_{n}\right)\leq 2(n+1)\exp \left(-{\frac {n\varepsilon ^{2}}{32}}\right).}
5ème étape : intégration
En appliquant l'espérance conditionnelle par rapport aux variables
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}}
, on obtient que
P
(
|
|
P
n
−
P
|
|
>
ε
)
≤
8
(
n
+
1
)
exp
(
−
n
ε
2
32
)
{\displaystyle \mathbb {P} \left(||P_{n}-P||>\varepsilon \right)\leq 8(n+1)\exp \left(-{\frac {n\varepsilon ^{2}}{32}}\right)}
. Par conséquent,
∑
n
≥
1
P
(
|
|
P
n
−
P
|
|
>
ε
)
<
+
∞
.
{\displaystyle \sum _{n\geq 1}\mathbb {P} \left(||P_{n}-P||>\varepsilon \right)<+\infty .}
Le lemme de Borel-Cantelli permet de conclure.
↑ (en) Aad W. Van Der Vaart et Jon A. Wellner, Weak convergence and empirical processes with applications to statistics , Springer, p. 122
↑ (en) A. W. Van Der Vaart, Asymptotic Statistics , Cambridge Series in Statistical and Probabilistic Mathematics, p. 274
↑ (en) David Pollard, Convergence of Stochastic Processes , Springer Series in Statistics