Regressziószámítás

A statisztikában a regressziószámítás vagy regresszióanalízis során két vagy több véletlen változó között fennálló kapcsolatot modellezzük. A regressziós modell tulajdonságai alapján megkülönböztethetünk lineáris és nemlineáris regressziót, az adataink alapján pedig idősor, keresztmetszeti, és panel regresszióanalízist.

A feladat

Bővebben: Görbeillesztés (matematika)

A regresszió feladata két vagy több valószínűségi változó közötti y = f ( x 1 , x 2 , , x n ) {\displaystyle y=f(x_{1},x_{2},\dots ,x_{n})\quad } függvénykapcsolat meghatározása.

A változókat reprezentáló (n+1) dimenziós P ( y ; x 1 , x 2 , , x n ) {\displaystyle P(y;x_{1},x_{2},\dots ,x_{n})} vektor koordinátáira kapott m számú P 1 , P 2 , , P m {\displaystyle P_{1},P_{2},\dots ,P_{m}} mérési adatból meg kell határozni egy, a vizsgált jelenséget leíró, jól kezelhető függvényt: y = f ( x 1 , x 2 , , x n ) = f ( X ) {\displaystyle y=f(x_{1},x_{2},\dots ,x_{n})=f(X)} , amelynek az X k = ( x 1 , x 2 , , x n ) k {\displaystyle X_{k}=(x_{1},x_{2},\dots ,x_{n})_{k}} helyeken felvett y ^ k = f ( X k ) {\displaystyle {\hat {y}}_{k}=f(X_{k})} értékei

  • vagy megegyeznek a megfelelő mért értékekkel: y ^ k = y k {\displaystyle {\hat {y}}_{k}=y_{k}} - (interpoláció),
  • vagy az e k = ( y k y ^ k ) {\displaystyle e_{k}=(y_{k}-{\hat {y}}_{k})} eltérések valamilyen minimum-feltételnek eleget tesznek (regresszió).

Az eltérések mértékét többféleképpen lehet megadni. Leggyakrabban a hibaértékek e k {\displaystyle e_{k}} eltérések : i = 1 m e k 2 {\displaystyle \sum _{i=1}^{m}e_{k}^{2}} négyzetösszegének minimumát követeljük meg. (l.: legkisebb négyzetek módszere).

A vizsgált jelenség természete szabja meg a közelítésre alkalmas függvény típusát. Eszerint megkülönböztetünk lineáris és nemlineáris regressziót. A kapcsolt változók száma szerint ugyancsak eltérnek a modellek. Ilyen értelemben beszélünk két-, három- stb. változós regresszióról.

Lineáris regresszió

Bővebben: Lineáris regresszió és Többszörös lineáris regresszió

Az általános lineáris modell az

y ^ = A 0 + A 1 x 1 + A 2 x 2 + + A n x n {\displaystyle {\hat {y}}=A_{0}+A_{1}x_{1}+A_{2}x_{2}+\dots +A_{n}x_{n}}

függvény A i {\displaystyle A_{i}} együtthatóinak meghatározását követeli meg. (Többváltozós lineáris regresszió.)

A leggyakoribb kétváltozós lineáris modell a síkon derékszögű koordináta-rendszerben pontokkal ábrázolható adathalmazra y ^ = A 1 x + A 0 {\displaystyle {\hat {y}}=A_{1}x+A_{0}} egyenletű egyenes illesztését írja elő. Ezt az egyenest szokás trend-vonalnak, az egyenlet A 1 {\displaystyle A_{1}} együtthatóját trendnek (meredekség, tendencia), A 0 {\displaystyle A_{0}} konstansát tengelymetszetnek nevezni.

Az együtthatók becslésére alkalmazott eljárások:

Nemlineáris regresszió

Nemlineáris regressziószámítást akkor alkalmaznak, ha a modell nemlineáris. Az ilyenkor alkalmazható linearizáló módszer abból áll, hogy az eredeti ( y ; x 1 , ) {\displaystyle (y;x_{1},\dots )} változók helyett, velük összefüggő, de egymással lineáris kapcsolatban lévő ( Y ; X 1 , ) {\displaystyle (Y;X_{1},\dots )} változókat vezetünk be.

Például az y = A e B x {\displaystyle y=A\cdot e^{Bx}\quad } formulából az X = x ; Y = ln y {\displaystyle X=x;Y=\ln {y}\quad } helyettesítésekkel az Y = ln A + B X {\displaystyle Y=\ln A+B\cdot X\quad } lineáris kapcsolat adódik. Ennek(a,b) együtthatóiból az eredeti formula konstansai adódnak: A = e a ; B = b {\displaystyle A=e^{a};B=b\quad } .

Regresszió. Gyakorlati alkalmazások

  • Kehl Dániel-Sipos Béla. Excel parancsfájlok felhasználása a statisztikai elemzésekben. Oktatási segédlet. Gyakorlati alkalmazások. OSZK-MEK (PDF és XLSM) (magyar nyelven). (Hozzáférés: 2022. március 1.)
  • Matematika Matematikaportál • összefoglaló, színes tartalomajánló lap