ヒストグラム

ヒストグラムの例。アメリカで1973年から1978年にかけて事故死した人数を月毎に集計したもの。横軸は各月に事故死した人数を500人毎に区切った階級を、縦軸は各階級に属する月の数(=度数)を表している。ヒストグラムからは(a)ひと月に事故死する人数の平均はおよそ8500人前後であること、(b)ひと月に事故死する人数は6500-11500人であること、(c)分布はおよそ対称であること、などが読み取れる。

ヒストグラム英語: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学数学画像処理等で用いられる。柱状図柱状グラフ度数分布ともいう[1]

工業分野では、パレート図チェックシート管理図特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。

語源

histogram (ヒストグラム)の語源は、定かではないが、古代ギリシャ語で「なにかを直立にする」(帆船マスト織機のバー、ヒストグラムの縦棒など)という意味の ἱστόςistos、イストス)と、「描いたり、記録したり、書いたりすること」という意味の γράμμαgramma、グラマ)を合わせた用語だといわれている。この用語は、イギリス統計学者カール・ピアソン1891年に historical diagram から創案したともいわれている[2]

定義

日本工業規格 JIS Z 8101-1:2015 (国際規格 ISO 3534-1:2006 と同等)の「1.61 ヒストグラム」では、次のとおりに規定している[3]

底辺の長さが級の幅(1.58)に等しく,その面積が級の度数に比例する近接する長方形からなる度数分布(1.60)のグラフ表現。

注記 1 級の幅が不均一な場合には,注意が必要である。級の幅が不均一な場合には,級の面積を級の度数に比例させるとよい。

注記 2 全ての級の幅を等しくし,長方形の高さを級の度数に比例させるのが一般的である。

同じデータから作られた一般的なヒストグラム(左)と累積度数図。このデータは平均 0、標準偏差 1 の正規分布から無作為に選んだ 10,000 点のサンプルを示している。

ヒストグラム

ヒストグラムは、各々が互いに素である区間・階級(カテゴリ、これをビン (bins) という。ヒストグラムのグラフの)のこと)に分類できる、観察結果の数を図にしたもの。計算する関数 mi である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある(後述)[4]。基準点も0を含む場合には0を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 n とすべての階級の数 k、ヒストグラム mi を与えて、これらには以下の式の関係が成り立つ。

n = i = 1 k m i . {\displaystyle n=\sum _{i=1}^{k}{m_{i}}.}

累積度数図

累積度数図(: cumulative histogram)は、特定の階級までのすべての階級に含む観察結果の累積数を記入する。累積度数関数と Mi はヒストグラム関数 mj を用いて以下の式のように定義できる。

M i = j = 1 i m j . {\displaystyle M_{i}=\sum _{j=1}^{i}{m_{j}}.}

なお、累積度数(cumulative frequency)を日本工業規格では、「ある値以下の観測値の度数または相対度数」と定義している[5]

具体例

ウィキペディア日本語版の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである[6]

閲覧回数 閲覧回数
1 78 16 625
2 126 17 606
3 156 18 483
4 231 19 377
5 215 20 370
6 304 21 587
7 484 22 667
8 544 23 643
9 566 24 756
10 545 25 505
11 478 26 436
12 258 27 399
13 225 28 611
14 373 29 679
15 620 30 575
31 565

[表の見方] 11 の欄が 478 となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が 478 回であったことを意味する。

図1.ウィキペディア日本語版の記事「ヒストグラム」の2013年1月における閲覧回数から作成されたヒストグラム

これを集計すると、次のようになる。上述の通り、階級の数と幅の設定には諸説あるが、ここでは階級の数を 8、幅を 100 とした。

閲覧回数 その回数を記録した日数
0 - 99 1
100 - 199 2
200 - 299 4
300 - 399 5
400 - 499 4
500 - 599 7
600 - 699 7
700 - 799 1

[表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。

したがって、これをヒストグラムにすると、図1のようになる。

階級の個数と幅

階級の個数についての最良の値はなく、階級の大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適な階級の個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまな階級幅が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある[7]

階級の幅 h は、直接的に与えられるか、下で示される階級の個数 k から次式で与えられる。

h = max x min x k . {\displaystyle h=\left\lceil {\frac {\max x-\min x}{k}}\right\rceil .}
上式の大括弧は天井関数を示す。
平方根選択(: Square-root choice
k = n , {\displaystyle k={\sqrt {n}},\,}
標本中のデータ数の平方根をとるものである[8]
スタージェスの公式(: Sturges' formula[9]
k = log 2 n + 1 , {\displaystyle k=\lceil \log _{2}n+1\rceil ,\,}
この式は階級の大きさに暗黙の仮定を置いている。そのため、n < 30 (階級数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。
スコットの選択(: Scott's choice[10]
h = 3.5 σ n 1 / 3 , {\displaystyle h={\frac {3.5\,\sigma }{n^{1/3}}},}
ここで σ は標本の標準偏差である。
フリードマン・ダイアコニスの選択: Freedman–Diaconis' choice[11]
h = 2 IQR ( x ) n 1 / 3 , {\displaystyle h=2\,{\frac {\operatorname {IQR} (x)}{n^{1/3}}},}
IQR で示される四分位範囲に基づく。
L2 危険関数推定の最小化に基づく選択[12]
a r g m i n h 2 m ¯ v h 2 {\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\frac {2\,{\bar {m}}-v}{h^{2}}}}
ここで mv は、階級の幅が h であるヒストグラムの平均値および標本分散である。つまり、m = 1/kk
i = 1
mi
であり、v = 1/kk
i = 1
(mim)2
である。

種類

次の4種類に分けられる。

  1. U字型分布
  2. 均一分布
  3. 山型分布
  4. 歪曲分布 次の2種類に分類できる。
    1. 左歪曲分布
    2. 右歪曲分布

以下の項目を例を用いて説明する。

U字型分布

最初の区間から徐々に下がっていき、中間(ほとんどの場合)で最小となり、再び上がっていく。このようなヒストグラムをU字型分布 (U-shaped distribution) という。 階級の数を 10、幅を 10 とする。

点数 この点数をとった学生の数
0.5-10.5 10
10.5-21.5 8
21.5-31.5 6
31.5-41.5 4
41.5-51.5 2
51.5-61.5 0
61.5-71.5 2
71.5-81.5 4
81.5-91.5 6
91.5-101.5 8

均一分布

詳細は「連続一様分布」、「離散一様分布」、および「一様分布」を参照

すべての区間の数が等しいとき、または、近いとき(だいたい差が 2 以下)、このヒストグラムを均一分布 (uniform distribution) という。一様分布ともいう。次の 2 種類に分類できる。

  1. 連続一様分布 (Continuous uniform distribution)
  2. 離散一様分布 (Discrete uniform distibution)

山型分布

中央区間が最大になっているヒストグラムを山型分布 (mound-shaped distribution) という。

歪曲分布

スケートボード場のような屈曲した形の分布を歪曲分布 (skewed distribution) という。から下がっていくのを歪曲分布 (right-skewed distribution)へ上がっていくのを歪曲分布 (left-skewed sidtribution) という。

脚注

  1. ^ a b “ヒストグラム”. J-GLOBAL. 2020年11月27日閲覧。
  2. ^ Magnello 2006.
  3. ^ JIS Z 8101-1.
  4. ^ 西岡, 1.4 度数分布 p.8.
  5. ^ JIS Z 8101-1 : 1999, 2.5 累積度数.
  6. ^ 閲覧回数のデータはWikipedia article traffic statisticsによった。
  7. ^ たとえば Venables & Ripley 2002, § 5.6 "Density Estimation".
  8. ^ Microsoft Excelのヒストグラムやその他多数で採用されている。
  9. ^ Sturges 1926.
  10. ^ Scott 1979.
  11. ^ フリードマン=ダイアコニスの法則の出典は Freedman & Diaconis 1981
  12. ^ Shimazaki & Shinomoto 2007.

参考文献

  • 日本工業標準調査会『JIS Z 8101-1:2015 統計 — 用語及び記号 — 第1部:一般統計用語及び確率で用いられる用語』日本規格協会、2015年10月20日。http://kikakurui.com/z8/Z8101-1-2015-01.html2018年12月24日閲覧 
  • 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。 
  • 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。 
  • 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。http://ebsa.ism.ac.jp/ebooks/ebook/204 
  • 文部省 編『学術用語集 数学編』大日本図書、1954年。ISBN 4-477-00170-3。http://sciterm.nii.ac.jp/cgi-bin/reference.cgi [リンク切れ]
  • Magnello, M. Eileen (2006-12). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician”. The New Zealand Journal for the History and Philosophy of Science and Technology 1. ISSN 1177-1380. http://www.rutherfordjournal.org/article010107.html. 
  • Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer. ISBN 978-0-387-95457-8 
  • Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66. http://www.jstor.org/stable/2965501. 
  • Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi:10.1093/biomet/66.3.605. 
  • Scott, David W. (1992). Multivariate density estimation. Theory, practice, and visualization (Second ed.). John Wiley & Sons. ISBN 978-0-471-69755-8. MR3329609. https://books.google.com/books?id=XZ03BwAAQBAJ&pg=PA51. "3. Histograms: theory and practice" 
  • Freedman, D.; Diaconis, P. (1981). “On the histogram as a density estimator: L2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi:10.1007/BF01025868. 
  • Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram”. Neural Computation 19 (6): 1503–1527. doi:10.1162/neco.2007.19.6.1503. PMID 17444758. http://www.mitpressjournals.org/doi/abs/10.1162/neco.2007.19.6.1503. 
  • 坂元慶行、石黒真木夫、北川源四郎、『情報量統計学 (情報科学講座 A・5・4)』 共立出版 1983/1 ISBN 978-4320021716

関連項目

外部リンク

ウィキメディア・コモンズには、ヒストグラムに関連するカテゴリがあります。
  • [1]ヒストグラム作成ツールボックス
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ