ヒストグラムの仕組みやメリットを理解しよう!Excelで作成する方法とは
用語・フレームワーク
ヒストグラムの仕組みやメリットを理解しよう!Excelで作成する方法とは

Share

ヒストグラムの仕組みやメリットを理解しよう!Excelで作成する方法とは

記載されている内容は2021年08月25日時点のものです。現在の情報と異なる可能性がありますので、ご了承ください。

また、記事に記載されている情報は自己責任でご活用いただき、本記事の内容に関する事項については、専門家等に相談するようにしてください。

初回公開日:2021年08月25日

更新日:2024年10月15日

ヒストグラムとは何か、どのような用途に使われるかについて記事にしています。また、エクセルを使ってヒストグラムを書く方法や、ヒストグラムを使ったデータの分析例と、描かれたグラフの形によりデータ分析する方法について説明しています。

ヒストグラムの仕組み

ヒストグラムとは、度数分布表をグラフ形式で視覚化したものです。ヒストグラムは縦横の2軸で表記したグラフで、横軸をいくつかの区間(階級)に分けて、縦軸をそれぞれの区間内の数字(度数)に応じた高さを持つ柱をグラフ上に表示します。

ここでは、ヒストグラムの意味、作成手順、使用例、例題などを交えながら、使い方を紹介します。

ヒストグラムと棒グラフの相違点

ヒストグラムと棒グラフは、どちらもデータを長方形の図で表しますが、それぞれのグラフと二つのデータは違う目的で使われます。それぞれの役割と表し方の違いはどこにあるのでしょうか。

ヒストグラムは「柱状グラフ」とも呼ばれ、柱の長さで度数を表します。連続したスケール(階級)でデータ数となる度数を表すため、横軸は連続した数字で、柱と柱の間に間隔を設けません。柱の色も柱ごとの違いはなく同じ色が使われます。

連続したスケールとは、年齢別の購買者、月ごとの平均気温、気温ごとの開花数、身長、体重別の人数などの項目によるスケール(階級)です。

棒グラフの作り方と利用目的は、量的データを棒の長さで表す部分は柱状グラフと同じですが、それぞれの棒は独立した項目の量(個数)を表すため、棒の間隔を設け目盛りの間隔も開けます。また、棒は色分けされるため、分類と比較ができ、読み取りがしやすい図表になります。

地域ごとのテレビの保有台数、出身大学別の経営者の数、ゲームソフトのカテゴリごとのダウンロード数など、横軸の軸ラベルとなる文字列に、連続性がないグラフです。

ヒストグラムの7つの種類

ヒストグラムは、表す度数(データ数、サンプル数)によって一本ごとの柱の長さが決まります。そして、柱の集合が作る山の峰形によって、それぞれを見分ける名前があります。

それぞれのグラフの名称によってどんな特徴があるか、どんなときに使われ何がわかるのか、さらに代表的な分析の仕方7種類について見ていきましょう。

1:一般型ヒストグラム

一般型ヒストグラムは左右対称型とも呼ばれ、累積分布が安定したデータのときに多く見られます。ヒストグラムの使われ方として、一番適しているグラフと言えます。

一般型ヒストグラフの書き方は、グラフの中に描く柱の集合体の、横軸の中央値に頂点となる柱があり、左右に向かってなだらかに下って、両端が度数ゼロになる富士山型の山を描き、左右均一に裾引き型を描く方法です。

2:右すそ引き型・左すそ引き型ヒストグラム

前述の一般形ヒストグラムの山の頂点が、左右いずれかに寄っているグラフがあります。

頂点が左寄りで右に裾が長いものを、右すそ引き型、頂点が右寄りのものを、左すそ引き型ヒストグラムと呼びます。上限もしくは下限に制限が設けられているときに、よくみられる形です。

なお、「裾」とはグラフ上で度数が0か、もしくは限りなくゼロから近い値を取る階級の名称です。

3:左絶壁型・右絶壁型ヒストグラム

一般形ヒストグラムの山の頂点が、極端にグラフの右端、左端にずれている形を絶壁型と呼びます。頂点が大きくずれているために片側に裾部分がなく、左絶壁型ではY軸(縦軸)によって、絶壁が作られます。右絶壁型では、最も大きい階級を含む柱の右側に絶壁が作られます。

頂点が左に寄っているものを左絶壁型、右に寄っているものを右絶壁型ヒストグラムと呼びます。これらは、データが選別されているグラフに良く見られます。

4:くし歯型ヒストグラム

データ区間内に頂点がいくつか現れ、デコボコした形やギザギザした形に歪みのある画像になるパターンを、くし歯型ヒストグラムと呼びます。

くし歯となる原因としては、データ数が少ない場合や、横軸の区間(階級)の分け方が良くない場合に多く起こります。

階級の幅を見直して対応したり、元データの有効数字、全体数量を多くしたりすることで、山形のヒストグラムに変わることがあります。

5:高原型ヒストグラム

同じ高さの柱が複数存在して、中心付近の頂点のラインがほぼ平らになるグラフを、高原型ヒストグラムと呼びます。

平均値が異なるデータが混在しているときに見られるグラフで、区間(階級)の見直しにより改善します。

6:離れ小島型ヒストグラム

中央が尖っている山とは別に、少し離れた位置に小さなピークができる状態を言います。測定方法の間違いや、間違ったデータの混入が考えられます。

離れ小島がある程度のピーク値の量がある場合には、本来予測していない作業や調整ミスが考えられるため、測定の再確認が必要です。

生産現場での品質管理において、工程能力指数をヒストグラムで表している場合、不良の発見につながる判断基準としてのヒストグラムの意義は「二山型」や「離れ小島型」の発見にあります。

7:ふた山型ヒストグラム

ふた山型ヒストグラムは、富士山型の山の頂点がへこみ、ほぼ同じ高さの山が二つある状態を言います。中央の値が間違っている、もしくは違うデータ(異常値)が混入した可能性があります。

山が二つあるのは、データのマッチングが良くないことが原因のため、傾向分析を行い、二つの山型ができる要因ごとに、測定のきざみなど度数分布の層別データを分けて組み合わせをやり直します。

その後、異質性データの考察と、正規化の補正をすることで、左右対称で単峰性のデータになる場合があります。

ヒストグラムによる3つのメリット

ヒストグラムは棒グラフに似ていますが、数値化された度数分布表をグラフにしたもので、柱の高さや柱の幅により量的変数を視覚するという特徴があります。イラストでデータを表すことは、良いアクセントとなります。

では、棒グラフではなく、ヒストグラムを使うメリットはどこにあるのでしょうか。さらに、ヒストグラムからわかることとは、どんなことであり、どういうときに使うのかについて見ていきましょう。

1:項目の散らばり具合を表現するのに向いている

ヒストグラムの特徴は、データの分布の様子がわかり、散らばり具合が図表から見てとれることです。

数字の分布表をグラフ化したもののため、どのあたりの階級にデータが集中しているか、逆に分散して少ないか(密度推定)を表現できます。

なお、横軸の値の幅(階級)の目盛り設定によりグラフの形状が変わります。

2:異常な値を見付けられる

ヒストグラムが正規分布にならない場合は、異常なデータや、間違ったデータの混入があったと判断できます。これがヒストグラムの原理であり一番の長所です。

この異常は、階級幅の見直しにより改善する場合があります。階級とはヒストグラムの幅のことです。

3:感覚的にデータの全体像や傾向を把握できる

ヒストグラムでは、データの全体像や、どのあたりにデータが集まっているかなどの傾向を感覚的に捉えられます。つまり、適切な階級値の設定によって、より見やすいヒストグラムを描けるということです。

外れ値など異常検知により、制作現場の標準化や製品の規格化、均一化の手助けとなります。

ヒストグラムによるデメリット

ヒストグラムの注意点は、同じグラフでも階級幅の決め方や階級数の設定の仕方によって、グラフの印象が変わってしまうことです。その結果、個別のデータが把握しづらくなることもあります。

これはヒストグラムのデメリット(欠点)でもありますが、階級の設定を適切にするということは、ヒストグラムを作成するときに重要なことです。

ヒストグラムをExcelで作成する5つの手順

表計算ソフトのExcelには、ヒストグラムを作成する機能を持つものがあります。

Excel2016以降であれば、適切な手順を踏むことで、ヒストグラムを簡単に作成できます。ここからは、Excel2016でのヒストグラムの作成手順を紹介します。

なお、Windows7で運用されるExcel2010、2013にはこの機能はありません。

1:データを準備する

ヒストグラムを作成するには、まず度数分布表の基になるデータを用意します。

度数分布を作るには、連続した階級値(階級数)を持つことが必要です。階級値とはヒストグラムの横軸となる値で、階級数とは階級に含まれる最大値と最小値の平均のことです。

次に、エクセル上で測定単位を設定します。測定単位とはデータの最小表示単位のことです。
エクセルの1行目に階級値を入力し、2行目にデータを入力します。

2:ヒストグラムを入れる

エクセル上で階級値とデータを入力したセルをすべて選択し、最上段のプルダウンメニューから、「挿入」を選択します。

グラフの枠内にあるプルダウンメニュー「統計グラフの挿入」、そして「ヒストグラム」の順に選択します。それによりスプレッドシート上にヒストグラムが表示されます。

ヒストグラムウィンドウに入力範囲、データ区間を入力し「OK」を押すとヒストグラムがワークシート上に作成されます。グラフタイトル等は一般的なグラフ作成と同様に操作できます。

入力範囲とはデータが入力された行の、最初と最後のセルのことです。連続したデータであることが要求され、満たしていないと「入力範囲は連続している必要があります」というエラーが出ます。

3:階層幅を設定する

ヒストグラムは階級の幅の設定により、グラフの形状が変わります。

前項で作られたヒストグラムは、階級の幅(柱のx軸方向への幅)がエクセルのプログラムにより自動作成されたものです。この幅は変更できるため、範囲指定による調整をして、グラフをわかりやすくまとめることが可能になります。

4:「軸の書式設定」からビン幅を設定する

エクセル上に表示されたヒストグラムの、x軸にマウスカーソルを合わせ右クリックしてメニューを表示させます。メニューから「軸の書式設定」「軸のオプション」を選択し、「ビンの幅」の値を理想の階級幅で選定します。

状況に応じて「ビンのオーバーフロー」「ビンのアンダーフロー」欄の入力も行います。

5:不要な部分を削除する

ヒストグラムの分布の形状において、山の裾の部分にデータなしの部分があれば不要のため、グラフから削除します。

削除方法は、0を表示しない設定ではなく、エクセル上に入力した度数分布表の度数0の行を削除します。

Excelでヒストグラムと正規分布曲線を重ねてグラフにする方法

正規分布とは、数学や統計解析で使われる連続的な変数に関する確率分布の一つです。正規分布曲線は、その確率分布を描画したグラフで、なめらかな線が左右対称、平均値と中央値が一致する、という性質を持っています。

また、標準偏差が大きくなるとグラフの山は低くなる特性があります。

エクセル上では、ヒストグラムと正規分布曲線を同一グラフ内に表示できます。

以下にその手順を記します。

1.エクセル上にヒストグラムの元となる度数分布表を表1として作成し、データの平均値と標準偏差を公式を使い求めておきます。
2.表2として正規分布表を作成します。正規分布表はエクセル関数のNORM.DIST(データ、平均値、標準偏差、FALSE )を使います。
3.表2から度数(発生頻度)と正規分布の値を求めます。
4.度数のグラフとうまく重なるように正規分布の値を一定の倍率で調整します。
5.度数分布の階級を横軸にして、度数を棒グラフ、正規分布を手順4.の倍率で調整した値を折れ線グラフにして一つのチャートにします。

ヒストグラムの活用事例

プレゼンテーションや報告書などでグラフを使い、分析ツールとして有効活用することは多いでしょう。では、ヒストグラムはどのようなデータの分析に向いているのでしょうか。

例えば、売上の時間帯別の推移や購入者の年齢分布、一人当たりの購買金額などのデータ分析に向いています。有用性や問題点の図示化により読み取りができ、より良い説明の仕方となるためです。

ここでは、テストの点数に対する人数の例を素材として紹介します。

度数分布表からヒストグラムへ変換した例

基本的に、ヒストグラムは度数分布表をグラフ化したもののため、ほとんどの度数分布表はヒストグラム化できます。

グラフ化されたヒストグラムを見れば、データの偏りや境界値などが、数字が苦手な人でも視覚的にわかるという利点があります。

また、累積分布関数からも同様にヒストグラム化できますが、この場合は累積分布から積み上げるヒストグラム絶壁型のグラフになります。

点数のヒストグラムの作成事例

ヒストグラムの素材として、小学校の一つの学級でのテストの点数の度数分布表を考えてみます。

小学生30名のクラスで、最低点を0点、合い交点を100点として20点ごとに階級を決めます。その階級に属する点数を取った人数を度数とします。

平均点を60点から80点としたテストの結果で、度数が一番多いヒストグラムの山の頂点が60から80の間の階級であれば、想定通りの結果だと言えます。

もし、それ以外の階級に頂点があれば、テストの設問は難しすぎたということが言えるでしょう。

ヒストグラムしかない場合の4つの計算方法

ここまで見てきたように、度数分布表をヒストグラムに変換するとデータの分布がわかりやすくなります。

しかし、ヒストグラムだけがあり、度数分布表がない場合、ヒストグラムからデータ分析するには、平均値、標準偏差、統計量を必要とします。

ここからは、ヒストグラムからそれらの値を求める方法について解説していきましょう。

1:中央値を計算したい場合

中央値とはメディアン(Median)とも呼ばれ、データを順番に並べるときに、真ん中に来る値のことを言います。そのため、データ数が奇数のときは中心の値で、偶数のときは真ん中の二つの値の平均値となります。

ヒストグラムから中央値を計算する場合は、度数と階級の積の合計で全体数を求め、その半分の値が含まれる階級の中にある中央値を求めましょう。

2:最頻値を計算したい場合

最頻値とは最も多い度数(頻度)のことですが、ヒストグラムでは最も度数の多い階級の階級値を表すため、一番高い柱が最頻値となります。

ヒストグラムがある場合、最頻値はグラフから読み取れるため、計算で導き出す必要はありません。

3:平均値を計算したい場合

平均値は、度数の合計を階級の総数で割ったものです。度数分布表がない場合には、ヒストグラムの階級値を用いて計算します。(階級値×度数)+(階級値×度数)+(階級値×度数)を階級の数だけ計算し、総和で割ります。

階級値とは各階級の中心になる値のことです。

例えば、20歳から80歳まで10歳ごとの年齢で階級分けした年齢分布のヒストグラムの場合、階級値は25、35、45、55、65、75歳となります。

4:標準偏差を計算したい場合

標準偏差は分散の平方根(ルート)です。ヒストグラムから標準偏差を計算するには以下の方法を使います。

偏差を二乗して度数を掛けて合計し、それを度数の総和で割ったものが分散です。偏差の計算式は「偏差=階級値―平均値」です。度数分布表がない場合、階級値と平均値もヒストグラムから抽出して計算しておきます。

ヒストグラムを作成するときの注意点

ヒストグラムは解析が難しい度数分布を、わかりやすい図形のグラフにして、評価・分析するのにとても便利です。

ただし、ヒストグラムは階級幅(区間の幅)のとり方によってグラフの印象が変わります。そのため、データのばらつきが大きい(分散が大きい)、あるいは階級に対して度数が連続しないデータには向いていません。

ヒストグラムの特徴と作り方を理解しよう

本記事では、ヒストグラムの見方や、棒グラフとの違い、エクセルでのヒストグラムの作り方などを解説してきました。

データのばらつきや、工程能力などをプレゼンや会議で伝えるときに、数値が記載された度数分布表とともにヒストグラムを使って理解を深めましょう。

書き方や見方を学んで、ヒストグラムを活用しましょう。

75 件

Share

RELATED