Schiefe (Statistik)

Die Schiefe (englisch skewness bzw. skew) ist eine statistische Kennzahl, die die Art und Stärke der Asymmetrie einer Wahrscheinlichkeitsverteilung beschreibt. Sie zeigt an, ob und wie stark die Verteilung nach rechts (rechtssteil, linksschief, negative Schiefe) oder nach links (linkssteil, rechtsschief, positive Schiefe) geneigt ist.

Definition

Die Schiefe γ m {\displaystyle \gamma _{m}} einer Zufallsvariablen X {\displaystyle X} ist das zentrale Moment 3. Ordnung μ 3 {\displaystyle \mu _{3}} (falls das Moment 3. Ordnung existiert), normiert auf die Standardabweichung σ {\displaystyle \sigma } :

γ m := μ 3 σ 3 = E [ ( X μ σ ) 3 ] = E [ ( X μ ) 3 ] σ 3 = E ( X 3 ) 3 E ( X 2 ) μ + 2 μ 3 σ 3 = E ( X 3 ) 3 μ σ 2 μ 3 σ 3 {\displaystyle \gamma _{m}:={\frac {\mu _{3}}{\sigma ^{3}}}=\operatorname {E} \left[\left({\frac {X-\mu }{\sigma }}\right)^{3}\right]={\frac {\operatorname {E} \left[\left(X-\mu \right)^{3}\right]}{\sigma ^{3}}}={\frac {\operatorname {E} \left(X^{3}\right)-3\operatorname {E} \left(X^{2}\right)\mu +2\mu ^{3}}{\sigma ^{3}}}={\frac {\operatorname {E} \left(X^{3}\right)-3\mu \sigma ^{2}-\mu ^{3}}{\sigma ^{3}}}} .

mit dem Erwartungswert μ = E ( X ) {\displaystyle \mu =\operatorname {E} (X)} und der Varianz σ 2 = Var ( X ) {\displaystyle \sigma ^{2}=\operatorname {Var} (X)} . Diese Darstellung wird auch Momentenkoeffizient der Schiefe genannt. Mit den Kumulanten κ i {\displaystyle \kappa _{i}} ergibt sich die Darstellung

γ m = κ 3 κ 2 3 = κ 3 Var ( X ) 3 2 {\displaystyle \gamma _{m}={\frac {\kappa _{3}}{\sqrt {\kappa _{2}^{3}}}}={\frac {\kappa _{3}}{\operatorname {Var} (X)^{\frac {3}{2}}}}} .

Die Schiefe kann jeden reellen Wert annehmen.

  • Bei negativer Schiefe, γ m < 0 {\displaystyle \gamma _{m}<0} , spricht man von einer linksschiefen oder rechtssteilen Verteilung; sie fällt in typischen Fällen auf der linken Seite flacher ab als auf der rechten.
  • Bei positiver Schiefe, γ m > 0 {\displaystyle \gamma _{m}>0} , spricht man von einer rechtsschiefen oder linkssteilen Verteilung; sie fällt typischerweise umgekehrt auf der rechten Seite flacher ab als auf der linken.

Typische Vertreter rechtsschiefer Verteilungen sind die Bernoulli-Verteilung für p < 1 / 2 {\displaystyle p<1/2} , die Exponentialverteilung und die Pareto-Verteilung für k > 3 {\displaystyle k>3} .

Die Schiefe ist invariant unter linearer Transformation mit a > 0 {\displaystyle a>0} :

γ m ( a X + b ) = γ m ( X ) {\displaystyle \gamma _{m}(aX+b)=\gamma _{m}(X)}

Für die Summe unabhängiger normierter Zufallsgrößen X i {\displaystyle X_{i}} gilt:

γ m ( X 1 + X 2 + + X n ) = ( γ m ( X 1 ) + γ m ( X 2 ) + + γ m ( X n ) ) / n 3 2 {\displaystyle \gamma _{m}(X_{1}+X_{2}+\ldots +X_{n})=\left(\gamma _{m}(X_{1})+\gamma _{m}(X_{2})+\ldots +\gamma _{m}(X_{n})\right)/n^{\frac {3}{2}}} ,

d. h. die Schiefe der Summe unabhängiger und identisch verteilter Zufallsgrößen ist die ursprüngliche Schiefe, dividiert durch n {\displaystyle {\sqrt {n}}} .

Empirische Schiefe

Zur Berechnung der Schiefe einer empirischen Häufigkeitsverteilung wird die folgende Formel benutzt:

g m = m 3 s 3 = 1 n i = 1 n ( x i x ¯ ) 3 1 n i = 1 n ( x i x ¯ ) 2 3 = 1 n i = 1 n ( x i x ¯ s ) 3 {\displaystyle g_{m}={\frac {m_{3}}{s^{3}}}={\frac {{\tfrac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{3}}{{\sqrt {{\tfrac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}^{3}}}={\frac {1}{n}}\sum _{i=1}^{n}\left({\frac {x_{i}-{\overline {x}}}{s}}\right)^{3}}

Damit die Schiefe unabhängig von der Maßeinheit der Variablen ist, werden die Messwerte mit Hilfe des arithmetischen Mittelwertes x ¯ {\displaystyle {\overline {x}}} und der empirischen Standardabweichung s {\displaystyle s} der Beobachtungswerte x i {\displaystyle x_{i}}

z i = x i x ¯ s {\displaystyle z_{i}={\frac {x_{i}-{\overline {x}}}{s}}}

standardisiert. Durch die Standardisierung gilt

z ¯ = 1 n i = 1 n z i = 0 {\displaystyle {\overline {z}}={\frac {1}{n}}\sum _{i=1}^{n}z_{i}=0\quad } und s z 2 = 1 n i = 1 n z i 2 = 1 {\displaystyle \quad s_{z}^{2}={\frac {1}{n}}\sum _{i=1}^{n}z_{i}^{2}=1} .

Schätzung der Schiefe einer Grundgesamtheit

Zur Schätzung der unbekannten Schiefe γ m {\displaystyle \gamma _{m}} einer Grundgesamtheit mittels Stichprobendaten x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} ( n {\displaystyle n} der Stichprobenumfang) müssen der Erwartungswert und die Varianz aus der Stichprobe geschätzt werden, d. h. die theoretischen durch die empirischen Momente ersetzt werden:

γ ~ m = 1 n i = 1 n ( x i x ¯ s ) 3 {\displaystyle {\tilde {\gamma }}_{m}={\frac {1}{n}}\sum _{i=1}^{n}\left({\frac {x_{i}-{\overline {x}}}{s}}\right)^{3}}

mit x ¯ {\displaystyle {\overline {x}}} der Stichprobenmittelwert und s {\displaystyle s} die Stichprobenstandardabweichung. Dieser Schätzer ist jedoch nicht erwartungstreu für γ m {\displaystyle \gamma _{m}} im Gegensatz zu

γ ^ m = n ( n 1 ) ( n 2 ) i = 1 n ( x i x ¯ s ) 3 {\displaystyle {\hat {\gamma }}_{m}={\frac {n}{(n-1)(n-2)}}\sum _{i=1}^{n}\left({\frac {x_{i}-{\overline {x}}}{s}}\right)^{3}} .

Weitere Schiefemaße

Lage von Mittelwert und Median

Auf Karl Pearson geht die Definition

S = μ x med σ {\displaystyle S={\frac {\mu -x_{\text{med}}}{\sigma }}}

mit dem Erwartungswert μ {\displaystyle \mu } , dem Median x med {\displaystyle x_{\text{med}}} und der Standardabweichung σ {\displaystyle \sigma } zurück. Der Wertebereich von S ist das Intervall [ 1 , 1 ] {\displaystyle [-1,1]} . Für symmetrische Verteilungen ist S = 0 {\displaystyle S=0} . Rechtsschiefe Verteilungen besitzen häufig ein positives S {\displaystyle S} , es gibt jedoch Ausnahmen von dieser Faustregel.[1]

Wenn die Standardabweichung divergiert, kann die Pearsonsche Definition verallgemeinert werden, indem eine Verteilung rechtsschief bezeichnet wird, wenn der Median kleiner als der Erwartungswert ist. In diesem Sinn ist die Pareto-Verteilung für beliebigen Parameter k > 1 {\displaystyle k>1} rechtsschief.

Quantilskoeffizient der Schiefe

Der Quantilskoeffizient der Schiefe beschreibt die normierte Differenz zwischen der Entfernung des α {\displaystyle \alpha } - und des ( 1 α ) {\displaystyle (1-\alpha )} -Quantils zum Median. Er wird also wie folgt berechnet:

γ p = ( x 1 α x med ) ( x med x α ) x 1 α x α , α ( 0 , 1 2 ) {\displaystyle \gamma _{p}={\frac {(x_{1-\alpha }-x_{\text{med}})-(x_{\text{med}}-x_{\alpha })}{x_{1-\alpha }-x_{\alpha }}},\quad \alpha \in \left(0,{\tfrac {1}{2}}\right)}

Dabei kann der Quantilskoeffizient Werte zwischen 1 {\displaystyle -1} und 1 {\displaystyle 1} annehmen. Der Quantilskoeffizient existiert für beliebige Verteilungen, auch wenn Erwartungswert oder die Standardabweichung nicht definiert sein sollten.

Eine symmetrische Verteilung besitzt den Quantilskoeffizienten 0 {\displaystyle 0} ; eine rechtsschiefe (linksschiefe) Verteilung besitzt in der Regel einen positiven (negativen) Quantilskoeffizienten. Für α = 1 4 {\displaystyle \alpha ={\tfrac {1}{4}}} ergibt sich der Quartilskoeffizient. Die Pareto-Verteilung besitzt für beliebige Parameter k > 0 {\displaystyle k>0} positive Quantilskoeffizienten.

Deutung

Beispiel von experimentellen Daten mit einer positiven Schiefe (rechtsschief)

Ist γ p > 0 {\displaystyle \gamma _{p}>0} , so ist die Verteilung rechtsschief, ist γ p < 0 {\displaystyle \gamma _{p}<0} , ist die Verteilung linksschief. Für gutartige Verteilungen gilt: Bei rechtsschiefen Verteilungen sind Werte, die kleiner sind als der Mittelwert, häufiger zu beobachten, so dass sich der Gipfel (Modus) links vom Mittelwert befindet; der rechte Teil des Graphs ist flacher als der linke. Gilt γ p = 0 {\displaystyle \gamma _{p}=0} , so ist die Verteilung auf beiden Seiten ausgeglichen. Bei symmetrischen Verteilungen ist immer γ p = 0 {\displaystyle \gamma _{p}=0} . Umgekehrt müssen Verteilungen mit γ p = 0 {\displaystyle \gamma _{p}=0} nicht symmetrisch sein.

Als Faustregeln kann man für gutartige Verteilungen also festhalten:

  • rechtsschief: x mod < x med < x ¯ {\displaystyle x_{\text{mod}}<x_{\text{med}}<{\overline {x}}}
  • symmetrisch: x mod = x med = x ¯ {\displaystyle x_{\text{mod}}=x_{\text{med}}={\overline {x}}}
  • linksschief: x mod > x med > x ¯ {\displaystyle x_{\text{mod}}>x_{\text{med}}>{\overline {x}}}

Die Schiefe ist ein Maß für die Asymmetrie einer Wahrscheinlichkeitsverteilung. Da die Gaußsche Normalverteilung symmetrisch ist, also eine Schiefe von null besitzt, ist die Schiefe eine mögliche Maßzahl, um eine Verteilung mit der Normalverteilung zu vergleichen. (Für einen Test dieser Eigenschaft siehe z. B. den Kolmogorow-Smirnow-Test.)

Interpretation der Schiefe

Rechtsschiefe Verteilungen findet man z. B. häufig beim Pro-Kopf-Einkommen. Hier gibt es einige wenige Personen mit extrem hohem Einkommen und sehr viele Personen mit eher niedrigem Einkommen. Durch die 3. Potenz erhalten die wenigen sehr extremen Werte ein hohes Gewicht und es entsteht ein Schiefemaß mit positivem Vorzeichen. Es gibt verschiedene Formeln, um die Schiefe zu berechnen. Die gängigen Statistikpakete wie SPSS, SYSTAT, Stata etc. nutzen besonders im Falle einer kleinen Fallzahl von obiger, momentbasierter Berechnungsvorschrift abweichende Formeln.

Siehe auch

  • Wölbung (Statistik)

Literatur

  • W. H. Press et al.: Numerical Recipes in C. 2. Auflage. Cambridge University Press, 1992, Kapitel 14.1.

Einzelnachweise

  1. Paul T. von Hippel: Mean, Median, and Skew: Correcting a Textbook Rule. In: Journal of Statistics Education. 13. Jahrgang, Nr. 2, 2005 (amstat.org (Memento des Originals vom 14. Oktober 2008 im Internet Archive) [abgerufen am 16. November 2013]). 

Weblinks

  • Schiefe erklärt anhand von grafischen Beispielen