Análise da regresión

En estatística, a análise da regresión é un proceso estatístico que se emprega para estimar as relacións entre variables. Inclúe moitas técnicas para a modelaxe e a análise de varias variables, cando se considera unha variable dependente e unha ou máis variables independentes. Máis especificamente, a análise da regresión axuda a entender como varía o valor da variable dependente ao cambiar o valor dunha das variables independentes, mantendo o valor das outras variables independentes fixas. Comunmente, a análise da regresión estima a esperanza condicional da variable dependente dadas as variables independentes, é dicir, o valor medio da variable dependente cando se fixan as variables independentes. Menos habitualmente, a atención se centra nun cuantil ou outro parámetro de localización da distribución condicional da variable dependente dadas as variables independentes. En todos os casos, o obxectivo é a estimación dunha función das variables independentes chamada a función da regresión. A análise da regresión, tamén é de interese para caracterizar a variación da variable dependente a partir da función da regresión e pode ser descrita por unha distribución de probabilidade.

Ilustración que representa a regresión linear dun conxunto de datos.

A análise da regresión é amplamente empregada para a predición e a previsión, onde o seu uso ten superposición substancial no campo de aprendizaxe automático. A análise da regresión emprégase tamén para comprender cales das variables independentes están relacionadas coa variable dependente, e explorar as formas destas relacións. En determinadas circunstancias, a análise da regresión pode empregarse para inferir relacións causais entre as variables independentes e dependentes. Non obstante, isto pode levar a falsas relacións, polo que é recomendable ter certa precaución,[1] por exemplo, a correlación non implica causalidade.

Existen moitas técnicas para levar a cabo a análise da regresión. Os métodos familiares tales como a regresión linear e a ordinaria dos mínimos cadrados da regresión son paramétricos, nos que a función da regresión se define en termos dun número finito de parámetros descoñecidos que se estiman a partir dos datos. A regresión non paramétrica refírese ás técnicas que permiten que a función da regresión se explique nun conxunto específico de funcións, que pode ser de dimensión infinita.

A aplicación dos métodos de análise da regresión na práctica depende da forma do proceso de xeración de datos, e como se relaciona co método da regresión que se emprega. Dado que a forma verdadeira do proceso de xeración de datos en xeral non se coñece, habitualmente a análise da regresión depende ata certo punto de facer suposicións sobre este proceso. Estes supostos son ás veces comprobables se se dispón dunha cantidade suficiente de datos. Os modelos da regresión para a predición, aínda que poden non funcionar de maneira óptima, en moitas aplicacións, sobre todo con pequenos efectos ou por mor da causalidade sobre a base dos datos de observación, poden dar resultados enganosos.[2][3]

Historia

editar

A primeira forma da regresión foi o método de mínimos cadrados, que foi publicado por Legendre en 1805,[4] e por Gauss en 1809.[5] Legendre e Gauss aplicaron o método para o problema de determinar, a partir de observacións astronómicas, a órbitas dos corpos arredor do Sol (a maioría dos cometas e os recentemente descubertos planetas menores). Gauss publicou un desenvolvemento posterior da teoría dos mínimos cadrados en 1821,[6] incluíndo unha versión do teorema de Gauss-Markov.

O termo "regresión" foi cuñado por Francis Galton no século XIX para describir un fenómeno biolóxico. O fenómeno era que as alturas dos descendentes de antergos altos tenden a regresar cara a abaixo, cara a un media normal (un fenómeno coñecido como regresión cara á media).[7][8] Para Galton, a regresión só tiña este significado biolóxico,[9][10] pero o seu traballo estendeuse máis tarde por Udny Yule e Karl Pearson a un contexto estatístico máis xeral.[11][12] na obra de Yule e Pearson, a distribución conxunta da resposta e as variables explicativas suponse que é normal. Esta suposición viuse debilitada por Ronald Fisher nas súas obras de 1922 e 1925.[13][14][15] Fisher supón que a distribución condicional da variable de resposta é normal, mais a distribución conxunta non o é necesariamente. A este respecto, a asunción de Fisher está máis preto da formulación de Gauss de 1821.

Nas décadas de 1950 e 1960, os economistas utilizaron calculadoras electromecánicas para calcular regresións. Antes de 1970, ás veces tardábase ata 24 horas para recibir o resultado dunha regresión.[16]

Os métodos da regresión continúan a ser unha área de investigación activa. Nas últimas décadas, desenvolvéronse novos métodos para a regresión robusta, a regresión que implica respostas correlacionadas, tales como as series de tempo e as curvas de crecemento, regresión na que os preditores ou variables de resposta son curvas, imaxes, gráficos e outros obxectos de datos complexos.

  1. Armstrong, J. Scott (2012). "Illusions in Regression Analysis". International Journal of Forecasting (forthcoming) 28 (3): 689. doi:10.1016/j.ijforecast.2012.02.001. 
  2. David A. Freedman, Statistical Models: Theory and Practice, Cambridge University Press (2005)
  3. R. Dennis Cook; Sanford Weisberg Criticism and Influence Analysis in Regression, Sociological Methodology, Vol. 13. (1982), pp. 313–361
  4. A.M. Legendre. Nouvelles méthodes pour a détermination des orbites des comètes, Firmin Didot, París, 1805. “Sur a Méthode des moindres quarrés” appears as an appendix.
  5. C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
  6. C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  7. Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 0-7575-1181-3. 
  8. Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science (Institute of Mathematical Statistics) 4 (2): 80–86. JSTOR 2245330. doi:10.1214/ss/1177012581. 
  9. Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
  10. Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton uses the term "regression" in this paper, which discusses the height of humans.)
  11. Yule, G. Udny (1897). "On the Theory of Correlation". Journal of the Royal Statistical Society (Blackwell Publishing) 60 (4): 812–54. JSTOR 2979746. doi:10.2307/2979746. 
  12. Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). "The Law of Ancestral Heredity". Biometrika (Biometrika Trust) 2 (2): 211–236. JSTOR 2331683. doi:10.1093/biomet/2.2.211. 
  13. Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society (Blackwell Publishing) 85 (4): 597–612. JSTOR 2341124. doi:10.2307/2341124. 
  14. Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth ed.). Edimburgo: Oliver and Boyd. ISBN 0-05-002170-2. 
  15. Aldrich, John (2005). "Fisher and Regression". Statistical Science 20 (4): 401–417. JSTOR 20061201. doi:10.1214/088342305000000331. 
  16. Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? March 2006. Accessed 2011-12-03.

Véxase tamén

editar

Outros artigos

editar

Ligazóns externas

editar
  NODES
INTERN 1
todo 10