Regresja liniowa

Regresja liniowa – w modelowaniu statystycznym, metody oparte na liniowych kombinacjach zmiennych i parametrów dopasowujących model do danych. Dopasowana linia lub krzywa regresji reprezentuje oszacowaną wartość oczekiwaną zmiennej $y$ przy konkretnych wartościach innej zmiennej lub zmiennych $x.$ W najprostszym przypadku dopasowana jest stała lub funkcja liniowa, na przykład:

y=\beta _{0}+\beta _{1}x.

Zmienna $y$ jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Zmienne $x$ nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.

Model regresji liniowej

Niech dany będzie zbiór danych zaobserwowanych $\{y_{i},\,x_{i1},\dots ,x_{ip}\}_{i=1}^{n}.$ Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną $y_{i}$ a wektorem $p\times 1$ regresorów $\mathbf {x} _{i}.$ Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) $\varepsilon _{i},$ który jest zmienną losową. Dokładniej, model ten jest postaci

y_{i}=\beta _{0}1+\beta _{1}x_{i1}+\ldots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\dots ,n,

gdzie $^{\top }$ oznacza transpozycję, tj. $\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}$ jest iloczynem skalarnym wektorów $\mathbf {x} _{i}$ oraz ${\boldsymbol {\beta }}.$

Powyższe $n$ równań można zapisać w sposób macierzowy:

\mathbf {y} =X{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},

gdzie:

\mathbf {y} ={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\qquad X={\begin{pmatrix}\mathbf {x} _{1}^{\top }\\\mathbf {x} _{2}^{\top }\\\vdots \\\mathbf {x} _{n}^{\top }\end{pmatrix}}={\begin{pmatrix}1&x_{11}&\ldots &x_{1p}\\1&x_{21}&\ldots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\ldots &x_{np}\end{pmatrix}},\qquad {\boldsymbol {\beta }}={\begin{pmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{pmatrix}},\qquad {\boldsymbol {\varepsilon }}={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to odporne metody statystyczne, do których należy regresja medianowa i algorytmy z regularyzacją.

Kwartet Anscombe’a

Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) mimo znacząco różnego charakteru danych.

Testy oparte na modelu liniowym

Wiele klasycznych narzędzi statystycznych opatrzonych własnymi nazwami, takich jak współczynnik korelacji $r$ Pearsona, ANOVA czy test t Studenta jest szczególnymi przypadkami lub aspektami modelu liniowego. Dotyczy to również licznych testów nieparametrycznych, w których przypadku zamiast surowych wartości zmiennych stosuje się rangi obserwacji^[1].

Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku^[2]^[3].

Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń^[2]^[3]^[4]^[5]^[6].

Poniższa tabela – oparta na pracy Lindeløva^[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie $D$ reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji, $ranga()$ to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a $\epsilon$ to wyraz błędu.

Klasyczne testy statystyczne jako szczególne przypadki regresji liniowej
Nazwa zwyczajowa	Równoważny model liniowy	Opis słowny
test t Studenta dla jednej próby	$y=\beta _{0}+\epsilon$	Czy średnia (lub mediana) obserwacji jest ich dobrym predyktorem?
test Wilcoxona dla jednej próby	$\mathrm {ranga} _{-}^{+}(y)=\beta _{0}+\epsilon$
test t Studenta dla par obserwacji	$y_{2}-y_{1}=\beta _{0}+\epsilon$	Czy średnia (lub mediana) różnic obserwacji jest ich dobrym predyktorem?
test Wilcoxona dla par obserwacji	$\mathrm {ranga} _{-}^{+}(y_{2}-y_{1})=\beta _{0}+\epsilon$
korelacja r Pearsona	$y=\beta _{0}+\beta _{1}x+\epsilon$	Czy model liniowy jest dobrym predyktorem obserwacji (lub ich rang)?
korelacja Spearmana	$\mathrm {ranga} (y)=\beta _{0}+\beta _{1}\mathrm {ranga} (x)+\epsilon$
test $t$ Studenta dla dwóch prób	$y=\beta _{0}+\beta _{1}D+\epsilon$	Czy średnie grup są dobrym predyktorem obserwacji (lub ich rang)?
test Manna-Whitneya	$\mathrm {ranga} _{-}^{+}(y)=\beta _{0}+\beta _{1}D+\epsilon$
jednoczynnikowa ANOVA	$y=\beta _{0}+\beta _{1}D_{1}+\beta _{2}D_{2}+\ldots +\beta _{n}D_{n}+\epsilon$
test Kruskala-Wallisa	$\mathrm {ranga} _{-}^{+}(y)=\beta _{0}+\beta _{1}D_{1}+\beta _{2}D_{2}+\ldots +\beta _{n}D_{n}+\epsilon$
jednoczynnikowa ANCOVA	$y=\beta _{0}+\beta _{1}D_{1}+\beta _{2}D_{2}+\ldots +\beta _{n}D_{n}+\beta _{x}x+\epsilon$	Czy średnie grup oraz ich liniowy model są dobrym predyktorem obserwacji (lub ich rang)?
dwuczynnikowa ANOVA	${\begin{aligned}y=\beta _{0}&+\beta _{1}D_{1}+\beta _{2}D_{2}+\ldots +\beta _{n}D_{n}\\&+\beta _{o}E_{1}+\beta _{p}E_{2}+\ldots +\beta _{r}E_{m}\\&+\beta _{s}D_{1}E_{1}+\beta _{t}D_{1}E_{2}+\ldots +\beta _{u}D_{n}E_{m}+\epsilon \end{aligned}}$	Czy średnie grup oraz ich iloczynów są dobrym predyktorem obserwacji?

Przypisy

↑ W.J.W.J. Conover W.J.W.J., Ronald L.R.L. Iman Ronald L.R.L., Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124–129, DOI: 10.2307/2683975, ISSN 0003-1305, JSTOR: 2683975 [dostęp 2019-03-29] .
↑ ^a ^b William W.W.W. Rozeboom William W.W.W., The fallacy of the null-hypothesis significance test., „Psychological Bulletin”, 57 (5), 1960, s. 416–428, DOI: 10.1037/h0042040, ISSN 0033-2909 [dostęp 2019-03-29] (ang.).
↑ ^a ^b GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2019-03-29] (ang.).
↑ AndrewA. Gelman AndrewA., Analysis of variance – why it is more important than ever, „The Annals of Statistics”, 33 (1), 2005, s. 1–53, DOI: 10.1214/009053604000001048, ISSN 0090-5364 [dostęp 2019-03-29] (ang.).
↑ 5: Fitting models to data, [w:] Russell A.R.A. Poldrack Russell A.R.A., Statistical Thinking for the 21st Century, 2019 [dostęp 2019-03-29] [zarchiwizowane z adresu 2019-03-29] .
↑ William W.W.W. Rozeboom William W.W.W., Good Science Is Abductive, not Hypothetico-Deductive, [w:] Lisa L.L.L. Harlow, Stanley A.S.A. Mulaik, James H.J.H. Steiger (red.), What If There Were No Significance Tests?, 1997 .
↑ Jonas KristofferJ.K. Lindeløv Jonas KristofferJ.K., Common statistical tests are linear models (or: how to teach stats) [online], Tabela udostępniona na licencji CC-BY, lindeloev.github.io, 2019 [dostęp 2019-03-29] .

[1] W.J.W.J. Conover W.J.W.J., Ronald L.R.L. Iman Ronald L.R.L., Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124–129, DOI: 10.2307/2683975, ISSN 0003-1305, JSTOR: 2683975 [dostęp 2019-03-29] .

[:0-2] William W.W.W. Rozeboom William W.W.W., The fallacy of the null-hypothesis significance test., „Psychological Bulletin”, 57 (5), 1960, s. 416–428, DOI: 10.1037/h0042040, ISSN 0033-2909 [dostęp 2019-03-29] (ang.).

[:1-3] GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2019-03-29] (ang.).

[4] AndrewA. Gelman AndrewA., Analysis of variance – why it is more important than ever, „The Annals of Statistics”, 33 (1), 2005, s. 1–53, DOI: 10.1214/009053604000001048, ISSN 0090-5364 [dostęp 2019-03-29] (ang.).

[5] 5: Fitting models to data, [w:] Russell A.R.A. Poldrack Russell A.R.A., Statistical Thinking for the 21st Century, 2019 [dostęp 2019-03-29] [zarchiwizowane z adresu 2019-03-29] .

[6] William W.W.W. Rozeboom William W.W.W., Good Science Is Abductive, not Hypothetico-Deductive, [w:] Lisa L.L.L. Harlow, Stanley A.S.A. Mulaik, James H.J.H. Steiger (red.), What If There Were No Significance Tests?, 1997 .

[7] Jonas KristofferJ.K. Lindeløv Jonas KristofferJ.K., Common statistical tests are linear models (or: how to teach stats) [online], Tabela udostępniona na licencji CC-BY, lindeloev.github.io, 2019 [dostęp 2019-03-29] .

[1]

[2]

[3]

[4]

[5]

[6]

[7]