Identifizierbarkeit

statistische Eigenschaft

Als Identifizierbarkeit eines Modells bezeichnet man in der Statistik und insbesondere in der Ökonometrie die Eigenschaft von Schätzmodellen, dass Inferenzstatistik auf sie anwendbar ist.

Ein Modell ist dann identifizierbar, wenn es theoretisch möglich ist, die dem Modell zugrundeliegenden wahren Werte zu ermitteln, indem unendlich viele Beobachtungen gemacht wurden (gezogen wurden). Mathematisch bedeutet das, dass unterschiedliche Werte der Parameter des Modells unterschiedliche Wahrscheinlichkeitsfunktionen der beobachtbaren Variablen erzeugen.

In der Praxis, wo endlich viele Beobachtungen vorliegen, ist die Identifizierbarkeit eines Modells durch die Anzahl der zu schätzenden Parameter, die Anzahl der Beobachtungen und Anzahl der damit verbundenen Freiheitsgrade beschränkt.

Multikollinearität führt zu nicht identifizierbaren Parametern.

Geschichte des Begriffs

Bearbeiten

Der Begriff Identifizierbarkeit wurde von dem Ökonometriker Tjalling Koopmans um 1945 in Bezug auf die ökonomische Identität einer Beziehung innerhalb eines Beziehungssystems geprägt. Der Begriff erschien darauf unmittelbar in der Ökonometrie-Literatur, obwohl Koopmans eigene Darstellung des Themas – seine „Identifikationsprobleme im ökonomischen Modellbau“ – erst 1949 erschien. Um 1950 wurde der Begriff von Statistikern aufgegriffen und in einem allgemeineren Sinn verwendet, siehe z. B. Jerzy Neymans Existence of Consistent Estimates of the Directional Parameter in a Linear Structural Relation Between Two Variables.[1]

Definition

Bearbeiten

Sei   ein statistisches Modell mit einem (möglicherweise unendlich-dimensionalen) Parameterraum  . Dann heißt   identifizierbar, wenn die Abbildung   injektiv ist. Es soll also gelten:

 .

Verschiedene Werte von   sollen also unterschiedlichen Wahrscheinlichkeitsverteilungen entsprechen.

Wenn die Verteilungen über Wahrscheinlichkeitsdichtefunktionen definiert sind, dann werden diese als unterschiedlich angesehen, wenn sie sich auf einer Menge von positivem Lebesgue-Maß unterscheiden. (Beispielsweise werden zwei Funktionen, die sich nur in einem Punkt unterscheiden, in diesem Sinne nicht als unterschiedlich Wahrscheinlichkeitsdichtefunktionen angesehen.)

Diese Identifizierbarkeit des Modells im Sinne der Invertierbarkeit von   ist äquivalent dazu, dass die wahren Parameter des Modells bestimmbar sind, wenn man das Modell unendlich lange beobachten kann. Denn wenn   die Folge der Beobachtungen ist, dann folgt aus dem starken Gesetz der großen Zahlen

 

für jede messbare Menge  , wobei   die Indikatorfunktion einer Menge bezeichnet. Mit einer unendlichen Anzahl von Beobachtungen kann man also die wahre Wahrscheinlichkeitsverteilung   und wegen der Invertierbarkeit der Abbildung   auch den wahren Wert des Parameters   bestimmen.

Beispiele

Bearbeiten

Normalverteilungen

Bearbeiten

Sei   die Familie der Normalverteilungen, die eine Lage-Skalen-Familie bildet

 .

Dann ist

 .

Dieser Ausdruck ist genau dann fast überall null, wenn alle Koeffizienten null sind, was nur für   und   möglich ist. Weil der Skalenparameter   positiv ist, ist das Modell identifizierbar:  .

Multiples lineares Regressionsmodell

Bearbeiten

Sei   das das klassische Modell der linearen Mehrfachregression  , mit   dem   Vektor der unbekannten Regressionsparameter, der   Versuchsplanmatrix  , dem   Vektor der abhängigen Variablen   und dem   Vektor der Störgrößen  . Dann ist der Parameter   genau dann identifizierbar, wenn die Matrix   invertierbar ist.

Klassisches Fehler-in-den-Variablen-Modell

Bearbeiten

Sei   das klassische Fehler-in-den-Variablen-Modell

 

wobei   gemeinsam normalverteilte unabhängige Zufallsvariablen mit Erwartungswert null und unbekannter Varianz sind und nur die Variablen   beobachtet werden.

Dieses Modell ist nicht identifizierbar. Jedoch ist das Produkt   (wobei   die Varianz des latenten Regressors   ist) identifizierbar.

In diesem Beispiel kann zwar nicht der exakte Wert von   identifiziert werden, jedoch kann man garantieren, dass er im Intervall   liegen muss, wobei   und   die Koeffizienten sind, die mittels einer gewöhnlichen Kleinste-Quadrate-Schätzung von   auf   bzw.   auf   gewonnen wurden.

Literatur

Bearbeiten

Einzelnachweise

Bearbeiten
  1. Earliest Known Uses of Some of the Words of Mathematics: Identifiability
  NODES