Mallows’ Cp-Statistik, benannt nach Colin Lingwood Mallows, ist ein globales Gütemaß, das die Güte der Anpassung einer Regression bewertet. Es wird vor allem im Kontext einer Modellselektion beziehungsweise einer Variablenselektion verwendet, bei der es Ziel ist, die beste Untermenge der gesamten Prädiktoren zu finden, die die beste Vorhersage liefern. Ein kleiner Wert von bedeutet, dass das Model relativ präzise ist.

Im Spezialfall einer linearen Regression ist Mallows’ -Statistik äquivalent zum AIC (Akaike-Informationskriterium).

Definition und Eigenschaften

Bearbeiten

Mallows’  -Statistik adressiert das Problem der Überanpassung eines Modells, bei der die Residuenquadratsumme immer kleiner wird, je mehr Variablen man zu dem Modell hinzufügt. Möchte man also das Modell auswählen, welches die kleinste Residuenquadratsumme besitzt, wird man immer das Modell mit allen Variablen wählen.

Mallows’  -Statistik nutzt stattdessen den mittleren quadratischen Prognosefehler (englisch mean squared prediction error, kurz: MSPE):

 ,

wobei   der angepasste Wert aus einem Regressionsmodell mit j Variablen,   der Erwartungswert dieses Falls und   die Varianz der Fehlerterme ist. Der mittlere quadratische Prognosefehler wird nicht automatisch kleiner, je mehr Variablen man zum Modell hinzufügt.

Werden   Prädiktoren aus einer Gesamtmenge von   ausgewählt, dann ist die  -Statistik für diese Prädiktoren für gewöhnlich definiert als:

 ,

wobei

  •   die Residuenquadratsumme für ein Modell mit   Prädiktoren,
  •  der vorhergesagte Wert der  -ten Beobachtung mit   Prädiktoren,
  • und   die Anzahl der Beobachtungen ist.
  NODES