Sannolikhetsfördelning

Normalfördelningen är en mycket vanligt förekommande sannolikhetsfördelning i statistiska modeller

Sannolikhetsfördelning är inom sannolikhetsteori, statistik och matematisk statistik, en beskrivning (ofta i form av en funktion) av sannolikheterna för utfallen i ett utfallsrum.

Sannolikhetsfördelningar, ibland bara "fördelningar", förekommer i både diskreta och kontinuerliga utfallsrum och kallas därför ibland diskret fördelning eller kontinuerlig fördelning, för att ange typen av utfallsrum.

Exempelvis är en likformig fördelning en fördelning där alla utfall är lika sannolika, vilket är fallet till exempel vid en dragning av ett nummer i en lottorad: där är alla utfall i det diskreta utfallsrummet [1, 2, 3, ... 34, 35] lika sannolika med sannolikheten 1/35.

Matematisk beskrivning

En sannolikhetsfördelning tilldelar varje intervall tillhörande de reella talen en sannolikhet sådan att sannolikhetsaxiomen är uppfyllda. I tekniska termer är en sannolikhetsfördelning en sannolikhetsrum vars underliggande σ-algebra är Borel-algebran på de reella talen.

Varje slumpvariabel ger upphov till en sannolikhetsfördelning, och denna fördelning innehåller den viktigaste informationen om variabeln. Om X är en slumpvariabel så tilldelar motsvarande sannolikhetsfördelning intervallet [a, b] sannolikheten P(aXb), d.v.s. sannolikheten att variabeln X kommer att anta ett värde i intervallet [a, b].

Sannolikhetsfördelningen för variabeln X kan beskrivas unikt genom sin kumulativa fördelningsfunktion F(x), vilken definieras som

F ( x ) = P ( X x ) {\displaystyle F(x)=P\left(X\leq x\right)}

för varje x i R.

En fördelning kallas diskret om dess kumulativa fördelningsfunktion består av en sekvens av ändliga steg (hopp), vilket innebär att den tillhör en diskret slumpvariabel X: en variabel som endast kan anta värden från en ändlig eller uppräknelig mängd. En fördelning kallas kontinuerlig om dess kumulativa fördelningsfunktion är kontinuerlig, vilket innebär att den tillhör en kontinuerlig slumpvariabel X för vilken det gäller att P( X = x ) = 0 för alla x i R.

De så kallade absolut kontinuerliga sannolikhetsfördelningarna kan beskrivas med en täthetsfunktion (ibland frekvensfunktion): en icke-negativ integrerbar funktion f definierad på de reella talen så att

F ( x ) = P ( X x ) = x f ( t ) d t {\displaystyle F(x)=P\left(X\leq x\right)=\int _{-\infty }^{x}f(t)dt}

för alla x i R. Diskreta fördelningar tillåter inte en sådan täthetsfunktion, men det finns kontinuerliga fördelningar som djävulens trappa som inte heller tillåter en täthetsfunktion.

Två viktiga karakteristika för en sannolikhetsfördelning är fördelningens väntevärde och dess varians.

Stödet för en fördelning är den minsta slutna mängd vars komplement har sannolikheten noll.

Flera sannolikhetsfördelningar är så viktiga att de har fått särskilda namn. Några av dessa redovisas nedan.

Diskreta fördelningar

  • Med ändligt stöd
    • Den degenererade fördelningen på x0, där X antar värdet x0. Detta ser inte slumpmässigt ut, men det uppfyller definitionen för en slumpvariabel. Detta är användbart, eftersom det sätter deterministiska variabler och slumpvariabler i samma formalism. Den kallas också för enpunktsfördelningen.
    • Tvåpunktsfördelningen där det bara finns två utfall.
    • Den diskreta likformiga sannolikhetsfördelningen, där alla utfall i ett ändligt utfallsrum är lika sannolika.
    • Bernoullifördelningen, ett specialfall av tvåpunktsfördelningen, som antar värdet 1 med sannolikheten p och värdet 0 med sannolikheten q=1-p.
    • Binomialfördelningen, vilken beskriver antalet lyckade försök i en serie av oberoende ja/nej-försök.
    • Multinomialfördelningen, vilken beskriver antalet lyckade försök i en serie av oberoende försök med flera möjliga utfall.
    • Hypergeometriska fördelningen, som anger sannolikheten för att få k antal träffar när man drar utan återläggning m element ur en population med given andel element med en viss egenskap.
  • Med oändligt stöd
    • Den geometriska fördelningen, anger sannolikheten för att behöva göra k antal försök innan man får träff när man drar element med återläggning ur en population med given andel element med en viss egenskap.
    • För-första-gången-fördelningen, som den geometriska fördelningen, men där k även inkluderar försöket då man får träff.
    • Den negativa binomialfördelningen, en generalisering av den geometriska fördelningen.
    • Poissonfördelningen, anger antalet sällsynta händelser som inträffar inom ett givet tidsintervall.
    • Maxwell-Boltzmann-fördelningen, som är viktig inom fysiken och som beskriver sannolikheten för olika energinivåer i ett system i jämvikt.
    • zeta-fördelningen används inom tillämpad statistik och kan kanske vara av intresse för talteoretiker.

Kontinuerliga fördelningar

  • Med stöd på ett ändligt intervall
    • Den kontinuerliga likformiga sannolikhetsfördelningen eller rektangulärfördelningen på [a,b], där alla värden i ett ändligt intervall är lika sannolika.
    • Betafördelningen på [0,1], av vilken rektangulärfördelningen är ett specialfall, och som är användbar för att skatta sannolikheten för lyckade försök.
  • Med stöd på halvoändliga intervall, vanligen [0,∞)
    • Exponentialfördelningen, som beskriver tiden mellan slumpmässiga oberoende händelser.
    • Gammafördelningen, vilken beskriver tiden till dess att n sällsynta slumpmässiga händelser inträffar.
    • Extremvärdesfördelningen, beskriver variabler vilkas sällsynta extremvärden är av intresse; exempel: högsta vattenståndet i Themsenmynningen, hållfastheten hos en kedjas svagaste länk.
    • Lognormalfördelningen, beskriver variabler som kan modelleras som produkten av många små oberoende positiva variabler.
    • Weibullfördelningen, använd bland annat till att modellera livstiden för tekniska anordningar. Har en parameter som kan modellera olika grader av skevhet hos fördelningen: vänster, symmetrisk, höger.
    • Chitvåfördelningen, χ2-fördelning, vilket kvadratsumman av n oberoende normalfördelade slumpvariabler. Det är ett specialfall av gammafördelningen, och används mycket vid statistiska fördelningstest.
  • Med stöd på hela den reella tallinjen
    • Normalfördelningen, också kallad gaussisk fördelning eller klockkurva. Den är allmänt förekommande i naturen och statistiken genom centrala gränsvärdessatsen (CGS): alla variabler som kan modelleras som summan av många små oberoende variabler är approximativt normalfördelade.
    • Students t-fördelning, användbar till att skatta okända medelvärden och konfidenser för små stickprov ur normalfördelningspopulationer. Vid små stickprov är nämligen stickprovets standardavvikelse en dålig skattning av populationens standardavvikelse.
    • Cauchyfördelningen, ett exempel på en fördelning som inte har något väntevärde eller varians. Inom fysiken kallas den vanligen Lorentzfördelning och är till exempel fördelningen för ett instabilt tillstånd inom kvantmekaniken.

Måtteoretisk definition

Det finns också en definition för sannolikhetsfördelning som använder Andrej Kolmogorovs axiomatiska måtteori.[1] Här är sannolikhetsfördelningen ett bildmått med avseende på en stokastisk variabel. Mer precist är en sannolikhetsfördelning för en stokastik variabel X : ( Ω , F , P ) R {\displaystyle X:(\Omega ,{\mathcal {F}},P)\rightarrow \mathbb {R} } formellt ett sannolikhetsmått P X : B o r R [ 0 , 1 ] {\displaystyle P_{X}:\mathrm {Bor} \,\mathbb {R} \rightarrow [0,1]} , definierat som:

P X ( A ) = P ( X 1 ( A ) ) {\displaystyle P_{X}(A)=P(X^{-1}(A))\,} ,

för en Borelmängd A R {\displaystyle A\subset \mathbb {R} } . Formellt innebär detta att sannolikhetsfördelningen är bildmåttet X # P {\displaystyle X_{\#}P} .

En kumulativ fördelningsfunktion för X är P X {\displaystyle P_{X}\,} -måttet för intervallet ( , x ] {\displaystyle (-\infty ,x]\,} , dvs

F ( x ) = P X ( ( , x ] ) {\displaystyle F(x)=P_{X}((-\infty ,x])}

för varje x i R eftersom X 1 ( , x ] = { X x } {\displaystyle X^{-1}(-\infty ,x]=\{X\leq x\}\,} .

Det finns också en abstrakt definition för en sannolikhetsfördelnings täthetsfunktion. Om sannolikhetsfördelningen för X är absolutkontinuerligt med avseende på Lebesguemåttet L 1 {\displaystyle {\mathcal {L}}^{1}} , dvs

om L 1 ( A ) = 0 {\displaystyle {\mathcal {L}}^{1}(A)=0} så är P X ( A ) = 0 , {\displaystyle P_{X}(A)=0\,,}

Radon-Nikodyms sats säger att det finns en icke-negativ L 1 {\displaystyle L^{1}} -funktion f : R R {\displaystyle f:\mathbb {R} \rightarrow \mathbb {R} } med egenskapen att

P X ( A ) = A f ( x ) d x {\displaystyle P_{X}(A)=\int _{A}f(x)\,dx}

för alla Borelmängder A i R. Det här innebär att funktionen f är Radon-Nikodym derivata för P X {\displaystyle P_{X}\,} med avseende på 1-dimensionella Lebesguemåttet, dvs

f = d P X d L 1 . {\displaystyle f={\frac {dP_{X}}{d{\mathcal {L}}^{1}}}.}

Funktionen f är en täthet för sannolikhetsfördelningen X. "Täthet" är ett resonligt namn eftersom för A = ( , x ] {\displaystyle A=(-\infty ,x]\,} så är

x f ( x ) d x = A f ( x ) d x = P X ( A ) = P X ( ( , x ] ) = F ( x ) , {\displaystyle \int _{-\infty }^{x}f(x)\,dx=\int _{A}\,f(x)dx=P_{X}(A)=P_{X}((-\infty ,x])=F(x),}

dvs. den kumulativa fördelningsfunktionen för X.

Exempel

Låt X : ( Ω , F , P ) R {\displaystyle X:(\Omega ,{\mathcal {F}},P)\rightarrow \mathbb {R} } vara en stokastik variabel så att den är normalfödelad med väntevärdet μ {\displaystyle \mu } och variansen σ 2 {\displaystyle \sigma ^{2}} , det vill säga X N ( μ , σ 2 ) {\displaystyle X\sim N(\mu ,\,\sigma ^{2})} . Det här innebär att sannolikhetsfördelningen för X, det vill säga måttet P X = X # P {\displaystyle P_{X}=X_{\#}P\,} , är

P X = N ( μ , σ 2 ) . {\displaystyle P_{X}=N(\mu ,\,\sigma ^{2})\,.}

Här karakteriseras normalfördelningen av måttet N ( μ , σ 2 ) : B o r R [ 0 , 1 ] {\displaystyle N(\mu ,\,\sigma ^{2}):\mathrm {Bor} \,\mathbb {R} \rightarrow [0,1]} , definierat som:

N ( μ , σ 2 ) ( A ) = A 1 σ 2 π e ( x μ ) 2 2 σ 2 d x {\displaystyle N(\mu ,\,\sigma ^{2})(A)=\int _{A}{1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}\,dx}

för alla Borelmängder A i R.

Måttet N ( μ , σ 2 ) {\displaystyle N(\mu ,\,\sigma ^{2})\,} är absolutkontinuerligt med avseende på Lebesguemåttet. Så det finns en täthetsfunktion f för X. Definitionen ovan säger att f måste vara

f ( x ) = 1 σ 2 π e ( x μ ) 2 2 σ 2 {\displaystyle f(x)={1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}}

för alla x i R

Se även

Referenser

  • https://web.archive.org/web/20131111192555/https://www.doria.fi/bitstream/handle/10024/2838/tiheysfu.pdf?sequence=2

Noter

  1. ^ Williams, David. Probability with martingales, Cambridge University Press, 1991.

Externa länkar

  • Wikimedia Commons har media som rör Sannolikhetsfördelning.
    Bilder & media
v  r
Sannolikhetsfördelningar
Diskreta
Kontinuerliga