Regressió no lineal

A estadística, la regressió no lineal és un problema d'inferència per a un model tipus:

I=f(x,\theta )+\varepsilon

Segons dades multidimensionals $x$ , $i$ , on $f$ és alguna funció no lineal respecte a alguns paràmetres desconeguts θ . Com a mínim, es pretén obtenir els valors dels paràmetres associats amb la millor corba d'ajust (habitualment, amb el mètode dels mínims quadrats). Per tal de determinar si el model és adequat, pot ser necessari utilitzar conceptes d'inferència estadística com ara intervals de confiança per als paràmetres així com proves de bondat d'ajust.

L'objectiu de la regressió no lineal es pot aclarir en considerar el cas de la regressió polinomial, la qual és millor no tractar com un cas de regressió no lineal. Quan la funció $f$ pren la forma:

F(x)=ax^{2}+bx+c

la funció $f$ és no lineal en funció de $x$ però lineal en funció dels paràmetres desconeguts $a$ , $b$ , i $c$ . Aquest és el sentit del terme "lineal" en el context de la regressió estadística. Els procediments computacionals per a la regressió polinomial són procediments de regressió lineal (múltiple), en aquest cas amb dues variables predictores $x$ i $x^{2}$ . No obstant això, de vegades es suggereix que la regressió no lineal és necessària per ajustar polinomis. Les conseqüències pràctiques d'aquesta mala interpretació condueixen a fer que un procediment d'optimització no lineal sigui utilitzat quan en realitat hi ha una solució disponible en termes de regressió lineal. Paquets (programari) estadístics consideren, en general, més alternatives de regressió lineal que de regressió no lineal en els seus procediments.

General

Linealització

Alguns problemes de regressió no lineal poden linealitzar mitjançant una transformació en la formulació del model. Per exemple, considerem el problema de regressió no lineal (ignorant el terme d'error):

y=ae^{bx}.\,\!

Aplicant logaritmes a banda i banda de l'equació, s'obté:

\ln {(y)}=\ln {(a)}+bx,\,\!

la qual cosa suggereix una estimació dels paràmetres desconeguts a través d'un model de regressió lineal de ln (y) pel que fa a x, un càlcul que no requereix procediments d'optimització iterativa. De tota manera, la linealització s'ha d'utilitzar amb cura, ja que la influència de les dades en el model canvia, així com l'estructura de l'error del model i la interpretació i inferència dels resultats. Aquests poden ser resultats no molt convenients.

Cal distingir entre la "linealització" utilitzada en els paràgrafs anteriors i la "linealització local" que s'adopta per algorismes clàssics com el de Gauss-Newton. De la mateixa manera, la metodologia de models lineals generalitzats no utilitzeu linealització per a l'estimació de paràmetres.

Mínims quadrats ordinaris i ponderats

La millor corba d'ajustament es considera com aquella que minimitza la suma de les desviacions (residuals) al quadrat (SRC). Aquest és l'aproximació pel mètode de mínims quadrats (MMC). No obstant això, en aquells casos on es tenen diferents variàncies d'error per a diferents errors, cal minimitzar la suma dels residuals al quadrat ponderats (SRCP) (mètode de mínims quadrats ponderats). A la pràctica, la variància pot dependre del valor mitjà ajustat. Així que els pesos són recalculats per a cada iteració en un algorisme de mínims quadrats ponderats iteratiu.

En general, no hi ha una expressió de forma tancada per als paràmetres de millor ajust, com succeeix en el cas de la regressió lineal. Mètodes numèrics d'optimització són aplicats amb la finalitat de determinar els paràmetres de millor ajust. Una altra vegada, en contrast amb la regressió lineal, podria haver diversos màxims locals de la funció a ser optimitzada. A la pràctica, se suposen alguns valors inicials els quals juntament amb l'algorisme d'optimització condueixen a trobar el màxim global.

Estimació dels paràmetres utilitzant Mètodes de Monte Carlo

Si l'error de cada observació és conegut, llavors la precisió i fiabilitat dels paràmetres pot ser estimada mitjançant simulació de Monte Carlo. Cada observació és aleatoritzada d'acord amb el seu mitjana i la seva desviació estàndard. Amb el nou conjunt de dades, una nova corba és ajustada i les estimacions dels paràmetres registrades. Les observacions són llavors aleatoritzat i nous valors dels paràmetres són obtinguts. Al final, diversos conjunts de paràmetres són generats i la seva mitjana i desviació estàndard poden ser calculats.^[1]^[2]

Programari

Diversos llenguatges de programació i programari estadístic i matemàtic contenen funcions d'optimització. Entre ells, Gauss, GNU Octave, Matlab, Mathematica, R, Splus; C++ i Fortran maple.

Vegeu també

Referències

↑ Motulsky, HJ & Ransnas, LA (1987) Fitting curves to data using nonlinear regression. FASEB J 1:365-374
↑ McIntosh, JEA & McIntosh, RP (1980) Mathematical modelling and computers in Endocrinology. p71 Springer-Verlag, Berlin, Germany.

Bibliografia

G.A.F Seber and C.J. Wild. Nonlinear Regression . New York: John Wiley and Sons, 1989.
R.M. Bethea, B.S. Duran and T.L. Boullion. Statistical Methods for Engineers and Scientists . New York: Marcel Dekker, Inc 1985 ISBN 0-8247-7227-X

Enllaços externs

john/research/isat.htm ISAT, Nonlinear regression with explicit error control
Zunzun.com, Online corbi and surface fitting
NLREG, a proprietary program

[1] Motulsky, HJ & Ransnas, LA (1987) Fitting curves to data using nonlinear regression. FASEB J 1:365-374

[2] McIntosh, JEA & McIntosh, RP (1980) Mathematical modelling and computers in Endocrinology. p71 Springer-Verlag, Berlin, Germany.

[1]

[2]