データ分析の第一歩 代表値をマスタする

代表値として使われる「平均値」「中央値」「最頻値」をTableauで表示する方法と各代表値についてご紹介します。
代表値とは
代表値とは、ある集団の特徴を表す代表的な値で、一般的に「平均値」「中央値」「最頻値」などを示します。
ある集団に属する群の世帯収入のデータがあった場合、高収入の世帯もあれば低収入の世帯もあります。個々のデータには差異が生じており、差異があるデータが集まってできた集団の特徴を一言で表す際に「高収入の集団なのか、低収入の集団なのか」を知る必要性が生じます。そこで、収入の分布や中央値、割合などを求めることになり、このような集団の特徴を示す中央値や割合を代表値と呼びます。
平均値
平均値にはいくつかの種類が存在します。それぞれの平均値について触れてみたいと思います。
算術平均値(相加平均値)
算術平均値とは、「平均年齢」・「平均体重」といったような日常で最もよく使われる平均値です。
算術平均値=(X1+X2+X3+・・・+Xn)÷n
平均値では小数点以下がかなり表示されますが、レポートなどに利用する場合は、平均化する前のデータの桁数に一桁加えた値を表示させると良いです。
例えば、体重「68.5kg」、「70.2kg」のように小数点第一位まで測定している場合の算術平均値は、69.35kgと小数点第2位まで表示すると良いでしょう。
幾何平均(相乗平均)
使いどころ:売上の年平均伸長率など
幾何平均値とは、変化率の平均値のことです。企業の年間売上の1年あたりの平均伸び率などを表すときなどに使います。
例えば、1年目の売上が100万円、2年目が250万円、3年目が500万円の会社の売上平均伸長率を求めるとき、2年目の伸長率「2.5」、3年目の伸長率「2」の場合、(2.5+2)÷2ではありません。
次の式で求められます。正解は、2.23ですね。

または

それでは、Tableauで幾何平均を求めてみましょう。幾何平均を求めるためには数式を計算フィールドに入力する必要があります。スーパーストアSAMPLEを用いて実証したいと思います。
Tableauで2017年から2020年の平均伸長率を求める
① 開始年のデータ:2017年の売上のメジャーを作成する

LOOKUP関数で開始年を指定する。
LOOKUP(SUM([売上]),-3)
② 年平均伸長率を求める計算式を作成する

Tableauにはルートの計算式がないので累乗を計算するPOWER関数を用いてみました。
POWER( SUM([売上])/[売上(2017年)] ,1/3 )-1
③ 列シェルフに[売上]を設定し、②で作ったメジャーを表示させる。

中央値(メジアン)
使いどころ:世帯ごとの貯蓄額や社員の給料を求めるとき
データを数値の降順もしくは昇順に並べたときに、ちょうど真ん中に位置する数値。
なお、データ数(n)が偶数の場合は、n/2番目のデータとn/2+1番目のデータの平均値が中央値となります。
Tableauで中央値を含めたデータのサマリを見る方法
① ワークスペースの空いているところで右クリック
②サマリーにチェックボックスをつけるとカードが表示される。

画像に記載されている項目のほか、標準偏差や四分位数などデータのばらつきを知る指標も表示できるため、分析に着手する前にデータを俯瞰して見るためにも、サマリーのチェックを行うことが望ましいです。
平均値と中央値の使い分けの注意点
データをよく観察すると、平均値と中央値が異なる場合があります。このような時には、外れ値が見つかることがあります。平均値を使うときは、外れ値を除外して用いるとよいです。
例) | 平均値 | 中央値 | データ数 |
ずべてのデータ | 29.8万円 | 24.0万円 | 10個 |
外れ値を除外したデータ | 23.7万円 | 24.0万円 | 9個 |
上記の例のように、外れ値を除外すると、平均値と中央値が近似することが分かります。
ざっくりと使い分けすると次のようになります。
- 平均値と中央値が異なる場合→中央値を適応(平均値を用いたい場合は、外れ値を除外する)
- 平均値と中央値がほぼ等しい場合→平均値を適応
百分位(パーセンタイル)
使いどころ:自社の売り上げが業界のどの位置にあるかをざっくり知りたいとき
百分位(パーセンタイル)は、データを大きさの順に並べて100個に区切り、小さいほうからどの位置にあるかを見るもの。例えば、50パーセンタイルは、「小さいところから50/100のところにあるデータ」という位置を示す用語です。
- 第1四分位数:25パーセンタイル
- 中央値:50パーセンタイル
- 第3四分位数:75パーセンタイル
データの小さいほうから40%や80%などの位置を示す値を総称してパーセンタイルと呼び、25/100区切りで呼び名がついています。
なお、パーセンタイル(百分位)はパーセント(百分率)とは異なります。
最頻値(モード)
使いどころ:ある部門の最も多い有給休暇取得日数を求めるときなど
データの中で最もよく現れる数値あるいは階級の階級値のことを最頻値と呼びます。
最頻値の特徴は「外れ値の影響を受けない」ということですが、「データが少ない場合には役に立たない」という問題点があります。
Tableauでの求め方
ヒストグラムを作成し、最頻値を求めるのが良いです。ヒストグラムの作り方は次にまとめています。

まとめ
集団におけるデータの位置を知るための代表値特徴一覧を記載しました。代表値間の関係を知り、用途や目的に応じて使い分けしてください。
平均値 | 中央値 | 最頻値 | |
位置の特徴 | 釣り合う位置 | 半分に分ける位置 | 峰の位置 |
質的データの場合 | × | × | ○ |
量的データの場合 | ○ | ○ | ○ |
分布:左右対称 | ○ | ○ | ○ |
分布:歪んでいる | × | ○ | ○ |
分布:山が二つ | × | △ | × |
外れ値の影響 | 受ける | 受けない | 受けない |
その他 | 階級のとり方によって変わる |
出典:日本統計学会編 資料の活用より