Classe de Glivenko-Cantelli

Une classe de Glivenko-Cantelli est une classe de fonctions mesurables qui vérifie la convergence uniforme de la mesure empirique vers la mesure théorique. Il s'agit d'une généralisation du théorème de Glivenko-Cantelli (aussi appelé « théorème fondamental de la statistique ») à des classes de fonctions.

Définition

modifier

Soient des variables aléatoires   i.i.d. définies sur un espace de probabilité   à valeurs dans un espace mesurable   et   une classe de fonctions mesurables de   à valeurs réelles. On dit que   est une classe de Glivenko-Cantelli si elle vérifie la propriété

 

avec   la mesure empirique indexée par   et   la loi des  , i.e.  . Puisqu'une classe de Glivenko-Cantelli   dépend de la mesure  , on peut dire en cas d'éventuelle confusion sur la loi que   est une classe de  -Glivenko-Cantelli.

Conditions suffisantes

modifier

Condition avec l'entropie avec crochets

modifier

On note   le nombre de recouvrement avec crochets de la classe   de rayon   et avec la distance  . Toute classe   vérifiant

 

est une classe de Glivenko-Cantelli[1].

Condition avec l'entropie

modifier

On note   le nombre de recouvrements de   par des boules de rayon   avec la distance  . Supposons que   vérifie pour une enveloppe de fonctions   intégrable,

 

où le supremum est pris sur toutes les mesures de probabilité   tel que  . Alors   est une classe de Glivenko-Cantelli[2].

Classe de Donsker

modifier

Une classe de fonctions mesurables à valeurs réelles   est appelée classe de Donsker si elle vérifie la convergence

 

avec   le processus empirique indexé par la classe de fonctions   et   le pont brownien indexé par  . Puisque  , si   est une classe de Donsker alors c'est une classe de Glivenko-Cantelli.

Théorème de Glivenko-Cantelli

modifier

Le théorème de Glivenko-Cantelli revient à dire que la classe des fonctions indicatrices   est une classe de Glivenko-Cantelli. Ce théorème dit donc que la fonction de répartition empirique converge uniformément vers la fonction de répartition de la variable étudiée. Il existe plusieurs manières de démontrer ce théorème. On peut se ramener au cas des variables uniformes et démontrer la véracité de ce résultat dans ce cas (voir l'article Théorème de Glivenko-Cantelli). On utilise ici des méthodes combinatoires et des inégalités de concentration[3]. On notera   le supremum de la classe  .

1ère étape : première symétrisation

On note   une copie indépendante de  , i.e. la mesure empirique basée sur une copie   indépendante de échantillon  . D'après le lemme de symétrisation,

 

2ème étape : seconde symétrisation

Soit   des variables de Rademacher, i.e.  . Les variables   ont la même distribution que   (il suffit de considérer la distribution conditionnelle par rapport à  ). Alors

 

Si on note   la mesure signée définie par   alors l'étape 1 on obtient désormais que

 

3ème étape : inégalité maximale

Pour borner le membre de droite, on travaille conditionnellement aux observations  , le hasard provenant de  . Conditionnellement aux  , le supremum   sera le maximum pris sur des intervalles bien choisis. Pour  , on pose   avec   des réels choisis vérifiant  . Ainsi,

 

4ème étape : borne exponentielle

D'après l'inégalité de Hoeffding appliquée aux variables   (qui sont à valeurs dans  ),

 

D'après l'inégalité précédente,  

5ème étape : intégration

En appliquant l'espérance conditionnelle par rapport aux variables  , on obtient que  . Par conséquent,

 

Le lemme de Borel-Cantelli permet de conclure.

Références

modifier
  1. (en) Aad W. Van Der Vaart et Jon A. Wellner, Weak convergence and empirical processes with applications to statistics, Springer, p. 122
  2. (en) A. W. Van Der Vaart, Asymptotic Statistics, Cambridge Series in Statistical and Probabilistic Mathematics, p. 274
  3. (en) David Pollard, Convergence of Stochastic Processes, Springer Series in Statistics
  NODES
Note 5