Tilastollinen malli

Tilastollinen malli on pyrkimys yleistää tietyssä satunnaisotoksessa tai satunnaisesti valitussa osapopulaatiossa havaittu tapahtuma koskemaan koko populaatiota. Tilastollinen malli esittää tämän satunnaismuuttujien ja niihin liittyvien todennäköisyysjakaumien suhteen matemaattisesti erilaisten yhtälöiden avulla. Tyypillisesti sillä kuvataan, kuinka yksi tai useampi satunnaismuuttuja (selittävä/t muuttujat) selittää tarkasteltavan satunnaismuuttujan (selitettävä muuttuja) vaihtelua. Tilastollinen malli ei määräydy deterministisesti vaan se sisältää mallin parametreihin liittyvää satunnaisvaihtelua.

Matemaattisesti tilastollinen malli voidaan esittää parina ( Y , P ) {\displaystyle (Y,P)} , jossa Y {\displaystyle Y} on mahdollisten havaintojen joukko ja P {\displaystyle P} on Y {\displaystyle Y} :hyn liittyvien todennäköisyysjakaumien joukko. Tilastollisessa analyysissa oletetaan, että havaittu aineisto on generoitunut tietyistä joukon P {\displaystyle P} jakaumista. Tilastollinen malli mahdollistaa tilastollisen päättelyn, jonka avulla voidaan tehdään päätelmiä mallin hyvyydestä kuvaamaan tiettyä satunnaisilmiötä.

Erilaisia tilastollisia malleja

Tilastollisia malleja voidaan jaotella eri tavoin. Yleinen erottelu perustuu mallin funktionaaliseen muotoon, jolloin mallit ryhmitellään lineaarisiin ja epälineaarisiin malleihin.

Mallien jako voi perustua myös kuvattavan ilmiön luonteeseen, spatiaaliset mallit kuvaavat alueellista satunnaisvaihtelua, kun taas temporaaliset mallit kuvaavat ajassa tapahtuvaa satunnaisvaihtelua. Mallit voivat kuitenkin sisältää komponentteja useammista eri osa-alueista, esimerkiksi spatio-temporaalinen malli kuvaa sekä ajassa tapahtuvaa, että alueellista satunnaisvaihtelua.

Lineaarinen malli

Yleisin lineaarinen mallinnusmenetelmä on lineaarinen regressioanalyysi. Lineaarinen regressiomalli voidaan esittää seuraavasti:
Y i = β 0 + β i x i + ϵ i {\displaystyle Y_{i}=\beta _{0}+\beta _{i}x_{i}+\epsilon _{i}} ,
jossa Y i {\displaystyle Y_{i}} on havaintoon tai mittaukseen i {\displaystyle i} liittyvä satunnaismuuttujan Y {\displaystyle Y} arvo. Regressiokertoimia merkitään β i {\displaystyle \beta _{i}} , taustatietoa satunnaismuuttujilla x i {\displaystyle x_{i}} sekä jäännöksiä ϵ i {\displaystyle \epsilon _{i}} . Lineaarisen regressioanalyysin yhteydessä jäännösten ϵ i {\displaystyle \epsilon _{i}} oletetaan olevan riippumattomia ja samoin jakautuneita noudattaen N ( 0 , 1 ) {\displaystyle N(0,1)} -jakaumaa. Lineaarisen regressioanalyysin sovelluksena voisi olla esimerkiksi energian kulutuksen kasvaminen ilman lämpötilan laskiessa.

Yleistetty lineaarinen malli

Yleistetyt lineaariset mallit kattavat usein käytetyt epälineaariset mallit. Epälineaarisista malleista useimmin käytettyjä ovat Logistinen regressio, Poisson-regressio sekä log-lineaariset mallit. Logistisella regressiolla voidaan analysoida dikotomisen vastemuuttujan regressiota, kun taas Poisson-regressio sopii lukumäärä vasteen analysointiin. Lineaarinen regressioanalyysi on yleistettyjen lineaaristen mallien erikoistapaus. Esimerkiksi koppakuoriaisten kuolemien lukumäärää hyönteismyrkyn vahvuuden suhteen voitaisiin mallintaa Poisson-regressiolla.

Aikasarjamalli

Aikasarja-analyysissa tutkitaan temporaalisia malleja, joilla pyritään mallintamaan tietyn satunnaisen tapahtuman ajassa tapahtuvaa muutosta. Yksinkertainen malli voidaan kirjoittaa esimerkiksi seuraavasti:
Y t = m t + s t + ϵ t {\displaystyle Y_{t}=m_{t}+s_{t}+\epsilon _{t}} ,
jossa Y t {\displaystyle Y_{t}} on ajanhetkellä t {\displaystyle t} mitattu tai havaittu satunnaismuuttujan Y {\displaystyle Y} arvo ja parametrit m t {\displaystyle m_{t}} , s t {\displaystyle s_{t}} ja ϵ t {\displaystyle \epsilon _{t}} kuvaavat trendiä, kausivaihtelua sekä satunnaisvaihtelua tässä järjestyksessä. Aikasarjoja käytetään paljon esimerkiksi Ekonometriassa, jossa niillä voidaan mallintaa esimerkiksi yrityksen tuloksen kasvua ajan suhteen.

Spatiaalinen malli

Spatiaalisessa tilastotieteessä mallinnetaan satunnaismuuttujan Y {\displaystyle Y} arvojen vaihtelua kaksi- tai kolmiulotteisessa avaruudessa. Tyypillisiä mallinnusmenetelmiä ovat pisteprosessit sekä spatiaalinen interpolointi. Yksinkertainen spatiaalinen malli voi olla esimerkiksi spatiaalinen regressiomalli:
Y ( s ) = β x ( s ) T + ϵ ( s ) {\displaystyle Y(s)=\beta x(s)^{T}+\epsilon (s)} ,
jossa Y ( s ) {\displaystyle Y(s)} on paikassa s {\displaystyle s} mitattu tai havaittu satunnaismuuttujan Y {\displaystyle Y} arvo. Regressiokertoimia merkitään vektorilla β {\displaystyle \beta } , taustatietoa satunnaismuuttujavektorilla x ( s ) T {\displaystyle x(s)^{T}} sekä jäännöksiä vektorilla ϵ ( s ) {\displaystyle \epsilon (s)} . Tavalliseen regressiomalliin verrattuna spatiaalinen regressiomalli eroaa siten, että jäännökset eivät yleensä ole riippumattomia, vaan riippuvat läheisten jäännösten arvoista. Tästä seuraa, että perinteinen pienimmän neliösumman menetelmä ei toimi parametrien estimoinnissa. Spatiaalisia malleja käytetään esimerkiksi biologiassa mallinnettaessa eläin- tai kasvipopulaation kokoa tai elinympäristöä. Muita mahdollisia sovellusaloja ovat esimerkiksi maantiede ja geologia, joissa käyttökohteena ovat esimerkiksi peltojen ja metsien suhteellinen määrä tietyllä alueella tai kallioperän mallintaminen mahdollisten malmivarantojen löytämiseksi.

Katso myös

Kirjallisuutta

  • Lineaarinen regressioanalyysi ja yleistetyt lineaariset mallit:
    • Moore, D.S., McCabe, G.P. (2006). Introduction to the practice of statistics, 5th Edition, Freeman.
    • McCullagh, P., Nelder, J. (1989). Generalized Linear Models, Chapman and Hall. ISBN 0-412-31760-5.
  • Aikasarja-analyysi:
    • Brockwell, P.J. and Davis, R.A. (2003). Introduction to time series and forecasting, Springer.
    • Brockwell, P.J. and Davis, R.A. (2009). Time Series: Theory and Methods, Springer.
    • Chatfield, C. (2004). The Analysis of time series: an introduction, Chapman and Hall.
    • Shumway, R. and Stoffer, D. (2006). Time series analysis and its applications: with R examples, Springer
  • Spatiaalinen tilastotiede:
    • Bailey, T.C. and Gatrell, A.C. (1995). Interactive spatial data analysis, Longman.
    • Banerjee, S.,Carlin, B.P., Gelfand, A.E. (2003). Hierarchical modeling and analysis for spatial data, Chapman and Hall.
    • Ripley, B.D. (1981). Spatial statistics, Wiley.
    • Winkler, G. (2003). Image analysis, random fields and Markov chain Monte Carlo methods, 2nd Edition, Springer.