Regresní analýza je označení statistických metod, pomocí nichž odhadujeme hodnotu jisté náhodné veličiny (takzvané závisle proměnné, nazývané též cílová proměnná, regresand anebo vysvětlovaná proměnná) na základě znalosti jiných veličin (nezávisle proměnných, regresorů, kovariát anebo vysvětlujících proměnných).

Regresní analýza dnes patří k nejvýznamnějším metodám matematické statistiky a samostatně či ve spojení s jinými metodami se používá prakticky v každé oblasti empirické a aplikované vědy.[1]

Do statistiky zavedl pojem regrese britský učenec Francis Galton kolem roku 1880, a to jako „regres(i) k průměru.“ Tím označil fakt, že např. synové vysokých rodičů jsou sice v průměru (statisticky) vyšší než průměrná populace, zároveň ale individuálně nedosahují extrémních hodnot předchozí generace. Jako kdyby se jedinci postupně „vraceli k průměru.“ Podobně je tomu i s jinými vlastnostmi, nejen u lidí. Galtonův název se z jeho eugenických výzkumů přenosu vlastností mezi generacemi rozšířil na jakékoli zkoumání souvislostí mezi náhodnými veličinami a vznikla statistická regresní analýza. Přitom se však význam pojmu posunul, takže zde může docházet k nedorozuměním.[2]

Různé modely regresivní analýzy se používají v lingvistice při zpracování přirozeného jazyka.[3]

Modely regresivní analýzy

editovat

Matematická formulace

editovat

Podívejme se nejdříve na případ, kdy závisle proměnná   je skalár nebo vektor z nějakého lineárního prostoru. V takovém případě bývá úloha regrese obvykle formulována jako úloha hledání podmíněné střední hodnoty jakožto funkce nezávisle proměnných  :

 

přičemž   je symbol střední hodnoty (nepřesně řečeno průměru), svislítko „ “ zde můžeme číst jako „se znalostí“ a   je regresní funkce, kterou je třeba odhadnout. Nejčastěji se to děje tak, že se tato funkce předpokládá v nějakém obecném tvaru závislém na neznámých regresních parametrech čili regresních koeficientech, a tyto koeficienty se poté odhadují na základě pozorovaných dat. Nejčastějším případem je lineární regresní funkce, což vede na regresní rovnici

 

s regresními koeficienty  . Tomuto důležitému zvláštnímu případu se říká lineární regrese. Vedle něj existují i regresní modely podstatně nelineární, například některé typy neuronových sítí.

Druhou základní možností je, že závisle proměnná   je diskrétní. Například by mohlo jít o situaci, kdy na základě věku a pohlaví zákazníka predikujeme, jaký nápoj si koupí. V tomto případě by   nabývala hodnot z množiny {voda, ovocná limonáda, cola, pivo, víno, tvrdý alkohol}, a není tudíž definována její střední hodnota. Regresní analýza v této situaci se označuje jako diskriminační analýza a jejím úkolem je hledat podmíněné pravděpodobnosti toho, že zkoumaný objekt patří do jednotlivých tříd:

 

kde   je pravděpodobnost, že objekt patří do k-té třídy. Typické metody používané pro řešení úloh tohoto typu jsou Pearsonova lineární diskriminační analýza, logistická regrese a metody z nich odvozené.

Příklady použití

editovat

Příkladem uvažování v duchu regresní analýzy z běžného života může být například, odhadujeme-li ráno, jaké bude přes den počasí (regresand) na základě znalosti předpovědi počasí a toho, jaké je venku počasí nyní (dva regresory).

Příklad skutečné regresní analýzy v praxi je odhadování očekávané pooperační délky života pacientů trpících rakovinou. Na základě zkušeností z minulých let, kdy se shromáždily předoperační údaje o zdravotním stavu většího počtu pacientů, například velikost a typ nádorů, věk pacientů apod. (regresory) jakož i záznamy o délce života po operaci (regresand), lze pomocí vhodného typu regresní analýzy (v tomto případě obvykle tzv. Coxovy regrese) stanovit vzorec, s jehož pomocí bude možné u nového pacienta na základě znalosti jeho zdravotního stavu odhadnout střední hodnotu očekávané doby přežití v případě operace. Je-li navíc k dispozici podobná analýza pro pacienty léčené konzervativně, lze pak tomuto novému pacientovi doporučit, který způsob léčby mu v dané situaci dává naději na delší přežití.

Reference

editovat
  1. Hanousek – Charamza, Moderní metody, str. 161 nn.
  2. Healy, Goldstein: Regression to the mean[nedostupný zdroj]
  3. Wayback Machine. web.archive.org [online]. [cit. 2023-08-13]. Dostupné v archivu pořízeném z originálu dne 2023-08-13. 

Literatura

editovat
  • J. Hanousek – P. Charamza, Moderní metody zpracování dat – matematická statistika pro každého. Praha: Grada 1992

Externí odkazy

editovat
  NODES
Idea 1
idea 1