ヒストグラムの作り方と読み方のポイント|Tableau

histogramTableau
この記事は約3分で読めます。

量的データを取り扱う場合にデータ全体の様子を知ることが大切です。データ全体の分布を可視化する方法として、ヒストグラムが用いられます。

ヒストグラム(histogram)とは

主な用途は”分布を把握”するもので、連続データ(小数点を含む連続な値をとるデータ)の度数分布を柱の面積で表したものをヒストグラム(柱状グラフ)と呼びます。棒グラフと混同されることがありますが、別物で度数分布表だけでは発見しづらいデータのばらつき(分布)を視覚的に理解するのに役立ちます。

ヒストグラムは、連続データを取り扱いますので横軸が必ず数値を示します。連続データは小数点を含む値ですので、質的データや離散データのように個々の値で度数を数えるのは適切ではありません。ヒストグラムでは値の範囲をいくつかのビン(階級)に分けて、ビンの範囲内に収まるデータの件数を数えます。

描画のポイント:量のつながりを表現するために柱どうしの間隔は開けずに詰めて描画するのが一般的です。

【動画】Tableauでのヒストグラム作成方法

それでは、実際にTableau作成してみましょう。今回は、18歳男女の身長を表すSAMPLEデータを用いて作成します。

ヒストグラム作成時のポイント

ビン(階級)の数に決まりはありませんが、数を決める目安としてスタージェスの公式が利用されます。

(スタージェスの公式)  階級の数=1+log2n (n=データの数)

例:64個のデータの場合

階級の数=1+log264=1+6=7

Tableauでは階級の幅を自動的に推奨してくれますので、それを利用するのでも良いと思います。

ヒストグラムを読むポイント

ヒストグラムの形状は、分布の特徴を示す情報を保有し、山やベルの形に例えて表現されます。データが集中しているところを「峰」や「ピーク」と呼びます。

ポイント
ヒストグラムの形状を見分ける。
「単峰性・左右対称」、「多峰性」、「左右非対称」、「外れ値が存在」

単峰姓・左右対称

最も基本的なヒストグラムの形。データの集団が同じ種類の集団であれば、山の頂点を中心に左右対称の形状を示すことが多いです。

単峰性のヒストグラムで、山が鋭く尖ったものはばらつきが小さく、なだらかな山形はばらつきが大きい分布を示します。

単峰性・左右非対称

単峰性を示す場合、ヒストグラムの中心がどこにあるかを確認することも重要です。山が一つの場合でも右か左に偏り、片側に裾のを引く場合があります。裾の部分に他と異なる偏ったデータが混在している場合や、分布そのものが間違っている場合が考えられます。

多峰性、外れ値

データの集中する部分が2つ以上あるヒストグラムを多峰性と呼びます。ピークが2つ以上ある場合には、大人と子供など異なる種類の集団が混在している可能性があるため、層別して分析するなどの工夫が必要です。

集団の多くが示す値と離れたところにある、少数のデータを外れ値といい、異なる種類のデータがが存在している可能性があります。外れ値は、表からは分かりにくいのでヒストグラムを書くことで発見することができます。入力ミスや異質なデータが混在していないかの確認の為に、ヒストグラムを描くことが大切です。

スポンサーリンク

ビンの範囲をパラメーターで指定する方法

Tableauのパラメータを用いれば、ビンの範囲を簡単に変更することが可能です。次にその方法を解説します。

1.データペインの(ビン)を右クリック->編集をクリック。

2.新しいパラメーターの作成を選択する。

3.現在の値:(パラメータに初期表示させる値)と最小値・最在地・ステップサイズを指定する。

4.データペインからパラメーターを右クリック->パラメーターの表示を選択すると完成です。

表示されたパラメータのスライダーを変更することで、ビンの範囲を任意に指定することができます。