Voldoende (statistiek)

In de statistiek zegt men dat een steekproeffunctie voldoende is voor een bepaalde familie kansverdelingen, als de steekproeffunctie alle informatie bevat over de kansverdeling waaruit de steekproef komt. De gehele steekproef geeft dus niet meer informatie, dan de voldoende steekproeffunctie. Het begrip werd ingevoerd door Fisher en houdt in het geval van een geparametriseerde familie kansverdelingen in, dat de voorwaardelijke verdeling van de steekproef, gegeven de waarde van de steekproeffunctie, niet afhangt van de parameter.

Voorbeeld

In het geval van een normale verdeling met bekende variantie is het steekproefgemiddelde voldoende voor de verwachtingswaarde. Zodra het gemiddelde in de steekproef bekend is, kan uit de steekproef geen verdere informatie over de verwachtingswaarde verkregen worden.

Definitie

Zij { P X , θ } {\displaystyle \{P_{X,\theta }\}} een familie kansverdelingen van de stochastische variabele X {\displaystyle X} , en X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} een steekproef uit een van deze kansverdelingen. Een steekproeffunctie T = T ( X 1 , , X n ) {\displaystyle T=T(X_{1},\ldots ,X_{n})} heet voldoende voor de familie, ook voldoende voor (de parameter) θ {\displaystyle \theta } , als de voorwaardelijke verdeling van X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} , gegeven T = t {\displaystyle T=t} , onafhankelijk is van θ {\displaystyle \theta } .


Met behulp van de volgende factoriseringstelling van Fisher–Neyman laat het begrip 'voldoende steekproeffunctie' zich geschikt karakteriseren.

Factoriseringstelling

Een steekproeffunctie T = T ( X 1 , , X n ) {\displaystyle T=T(X_{1},\ldots ,X_{n})} is dan en slechts dan voldoende voor de familie kansfuncties of kansdichtheden { f θ } {\displaystyle \{f_{\theta }\}} van X {\displaystyle X} , als er functies g {\displaystyle g} en h {\displaystyle h} bestaan zodanig, dat voor x = ( x 1 , , x n ) {\displaystyle x=(x_{1},\ldots ,x_{n})} geldt:

f θ ( x ) = h ( x ) g θ ( T ( x ) ) , {\displaystyle f_{\theta }(x)=h(x)\,g_{\theta }(T(x)),}

wat wil zeggen dat { f θ } {\displaystyle \{f_{\theta }\}} het product is van een factor h ( x ) {\displaystyle h(x)} die niet afhangt van θ {\displaystyle \theta } , en een tweede factor die wel van θ {\displaystyle \theta } afhangt, maar alleen door T ( x ) {\displaystyle T(x)} van x {\displaystyle x} afhangt.

Voorbeelden

Bernoulli-verdeling

Als X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} een aselect steekproef is uit een Bernoulli-verdeling met parameter p {\displaystyle p} , is de som T = X 1 + + X n {\displaystyle T=X_{1}+\dots +X_{n}} een voldoende steekproeffunctie voor p {\displaystyle p} . Dit blijkt uit de factorisering:

P ( X 1 = x 1 , , X n = x n ) = p x 1 ( 1 p ) 1 x 1 p x n ( 1 p ) 1 x n = {\displaystyle P(X_{1}=x_{1},\dots ,X_{n}=x_{n})=p^{x_{1}}(1-p)^{1-x_{1}}\cdots p^{x_{n}}(1-p)^{1-x_{n}}=}
= p x i ( 1 p ) n x i = p T ( x ) ( 1 p ) n T ( x ) {\displaystyle =p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{T(x)}(1-p)^{n-T(x)}}

Uniforme verdeling

Als X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} een aselecte steekproef is uit de uniforme verdeling op het interval [ 0 , θ ] {\displaystyle [0,\theta ]} , is T = max ( X 1 , , X n ) {\displaystyle T=\max(X_{1},\dots ,X_{n})} voldoende voor θ {\displaystyle \theta } (het maximum van de steekproef is voldoende voor het maximum van de populatie). Dit blijkt weer uit de factorisering van de simultane dichtheid:

f X ( x 1 , , x n ) = 1 θ 1 { 0 x 1 θ } 1 θ 1 { 0 x n θ } = 1 θ n 1 { 0 min { x i } } 1 { max { x i } θ } , {\displaystyle f_{X}(x_{1},\ldots ,x_{n})={\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{1}\leq \theta \}}\cdots {\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{n}\leq \theta \}}={\frac {1}{\theta ^{n}}}\mathbf {1} _{\{0\leq \min\{x_{i}\}\}}\mathbf {1} _{\{\max\{x_{i}\}\leq \theta \}},}

waarin 1 de indicatorfunctie is.

De factorisering heeft dus de gewenste vorm met h ( x ) = 1 { min { x i } 0 } {\displaystyle h(x)=\mathbf {1} _{\{\min\{x_{i}\}\geq 0\}}} h(x), en de rest afhankelijk van θ {\displaystyle \theta } en van x {\displaystyle x} via T = max ( x 1 , , x n ) {\displaystyle T=\max(x_{1},\dots ,x_{n})} .

Poissonverdeling

Als X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} een aselecte steekproef is uit de Poissonverdeling met parameter λ {\displaystyle \lambda } , dan is de som T = X 1 + + X n {\displaystyle T=X_{1}+\dots +X_{n}} een voldoende steekproeffunctie voor λ {\displaystyle \lambda } . Dit blijkt uit de factorisering:

P ( X = x ) = e λ λ x 1 x 1 ! e λ λ x n x n ! = 1 x 1 ! x n ! e n λ λ x 1 + + x n {\displaystyle P(X=x)={\frac {e^{-\lambda }\lambda ^{x_{1}}}{x_{1}!}}\cdots {\frac {e^{-\lambda }\lambda ^{x_{n}}}{x_{n}!}}={\frac {1}{x_{1}!\cdots x_{n}!}}e^{-n\lambda }\lambda ^{x_{1}+\cdots +x_{n}}}

met h ( x ) = 1 / ( x 1 ! x n ! ) {\displaystyle h(x)=1/(x_{1}!\cdots x_{n}!)} .