平均値

出典: 謎の百科事典もどき『エンペディア(Enpedia)』
平均から転送)
ナビゲーションに移動 検索に移動

平均値(へいきんち)とは、統計学において、全てのデータの値を足し合わせた後、データの個数(件数)で割った値のことである。

たとえば、3人の生徒のテストの点数が「30点・50点・70点」であれば、平均値は (30+50+70)÷3 で「50点」となる。

概要[編集]

単に平均というと、相加平均が一般的に使われる。しかし、他にも相乗平均(幾何平均)、調和平均などがある。

相加平均[編集]

算術平均とも。 もっとも一般的で、統計学上でもいくつかの好ましい性質をもつ(普遍性など)。 全てのデータの値を足し合わせた後、データの個数(件数)で割った値のこと。 テストの平均点などに使える。

  • 例:3人の生徒のテストの点数が「30点・50点・70点」であれば、平均点は (30+50+70)÷3 で「50点」となる。

相乗平均[編集]

幾何平均とも。 全てのデータの値を掛け合わせた後、データの個数(件数)乗根を取った値のこと。 n乗根を取るので正の値で使う。 相加平均と相乗平均の関係が有名。 指数関数的に変化するものの指標などに使える。

  • 例:1月から2月、2月から3月、3月から4月の物価上昇率が「20倍・40倍・10点」であれば、1か月あたりの平均物価上昇率は (20×40×10)^(1/3) で「20倍」となる。

調和平均[編集]

各データの逆数の相加平均の逆数。逆数を取るので非零の値を使う。 相加平均と相乗平均の関係から、相乗平均と調和平均の関係を導ける。 速度の平均を求めたり、電気回路において並列接続の抵抗値の計算に使える。

  • 例:3kmを走る時、はじめの1km、次の1km、最後の1kmでの速さが「2km/h・6km/h・3km/h」であれば、平均の速さは 1/{(1/2+1/6+1/3)÷3}で「3km/h」となる。

対数平均[編集]

互いに異なる2つの正の数に対して、その差をその対数の差で割ったもの。
調和平均≦相乗平均≦対数平均≦相加平均 の関係が成立する。

加重平均[編集]

重みづけ平均とも。 相加平均のように足し合わせて割るのだが、このときデータによって異なる係数(重み)をつける。 てんびん算の考え方も加重平均として捉えられる。

  • 例:質量塩分濃度が5%の水100gと、10%の水400gを混ぜたら、(5×100+10×400)÷(100+400)で「9%」の水500gになる。

算術幾何平均[編集]

互いに異なる2つの正の数に対して、算術平均(相加平均)と幾何平均(相乗平均)を無限に繰り返して極限を取ったもの。

移動平均[編集]

系列データを平滑化する手法。 画像や音声等、デジタル信号処理に留まらず、テクニカル分析などの金融分野気象水象を含む計測分野等、広い技術分野で使われている。 テクニカル分析の移動平均線が有名。

ベクトルの平均[編集]

相加平均や加重平均はベクトルに対しても拡張することができる。 ベクトルの平均は物理学における質点重心や数学的な重心と関係がある。 相乗平均や調和平均は定義できない。 三角形の重心は頂点の位置ベクトルの平均である。

他の値との関係[編集]

この章ではとくにことわりのない限り、平均とは相加平均(算術平均)を意味する。

はずれ値[編集]

はずれ値があると、平均値は役に立たなくなりやすい。平均値は、中央値や他の四分位数などとずれた値になっていまう。

詳細は平均値#「平均値」はどの程度、役に立つか?を参照されたい。

中央値[編集]

中央値=平均値ではない(一致することもある)。 中央値は、データが偶数個の場合、中央順位2個の値の相加平均である。 分布が正規分布などの対称な分布であれば、中央値=平均値になる。 複数のピークやはずれ値がある分布では、平均値に代わって代表値とされることが多い。

詳細は平均値#「平均値」はどの程度、役に立つか?を参照されたい。

最頻値[編集]

分布が正規分布であれば、平均値は最頻値になる。

最大最小[編集]

最大値≧平均値≧最小値になる。等号が成立するのは、すべての値が同じとき(通常そんな時は平均を取らないだろう)。

分散[編集]

平均値とともに、分散あるいはその二乗根である標準偏差を表記することが多い。 分散は、平均値からの偏差の二乗和の平均である。 不偏分散を用いる場合は、データの数ではなく、(データの数-1)で割って求める。

「平均値」はどの程度、役に立つか?[編集]

「数字は嘘をつかないが、嘘吐きは数字を使う」by マーク・トゥエイン[1]

分布が正規分布であれば、平均値は最頻値でありかつ全体のちょうど真ん中、即ち一番普通の値となる。そのため、平均値は便利な値と言えるが、現実の分布傾向ではかえって実態を見えづらくすることもある。以下は、平均値の「過信」を戒めるため、よく引き合いに出される「笑い話」である。

  • 人間は、1人あたり平均1個の金玉を持っている。(世界の男女比はほぼ半々であるため。しかし、実際にはそのような人はほぼいない。[2])(複数のピークがある際の平均値は役に立たない)
  • 日本全国の校長は、1人あたり平均1.2人を買春している。(公立中学校の元校長・高島雄平は、12,600人以上をフィリピンで売春しているため。日本全国にいる校長の数はおよそ一万人のため、1人あたり平均1.2人となる。)(はずれ値があると平均値は役に立たない)

上記の様な笑い話でなくとも、同様の数値分布になるケースはあり得る。そのため、実態を正しく掴むためには、平均値の他にも中央値(メジアン・モードなどいろいろある)など様々な指標を、時と場合に応じてうまく使い分ける必要がある。
個々の標本値(サンプル)を多次元のデータと見なすと、平均値はサンプル集合の重心にあたる。ただし、百点満点のテストでマイナス五十点とか百二十点とかを取る奴はいないわけで、まず「偏っていないか?」を疑う必要がある。次に「どの程度のバラツキがあるか?」の指標として標準偏差(σ(シグマ)という)を求め、「平均値からどれだけズレているか?」を調べる。この値がσの三倍を超えると異常値とされることが多いため、「3σ限界」と呼ばれることがある。
次に見るべきは「相関」であり、「数学ができる奴は物理もできる」ことが確からしいとなれば普通だが、数学が国語や社会と相関があったとすると「なぜだろう?」といった話にもなる。そこからいろいろと情報を引き出すのが統計学というものである。

一方、統計家の西内啓は著書『統計学が最強の学問である』のなかで、「ビジネスで成果を上げること」を目的にするならば「平均値」は積極的に利用すべきであると力説している。例えば、ある商品の売上の平均値が上がったとき、多くの人に少しずつ買われたのか、一部の人が爆買いしたのかは実は重要ではない。原因が何であれ、全体としての売上が上がったことがビジネスにおいては重要である。

現実のビジネスで、全てのデータを採取・計算することは余りにもコストが高く、費用対効果が望めない。従って、一部のデータをサンプリングして戦略を立てることを考えなければならない。「全データの実態」と「一部をサンプリングしたデータ」のズレを小さく収めるためには「平均値」が役に立つ概念である、[3]と西内は語る。

脚注[編集]

  1. マーク・トゥエインの台詞ではないという説もある。この「名言」自体が疑ってかかるべき存在であるという、ややこしいトラップである。
  2. 勝海舟や爆笑問題・田中のような例はなくはないが....
  3. さらに丁寧に、ズレを小さく収めるなら「標準誤差」や「カイ二乗検定」などの手法を駆使する必要がある。平均値は手っ取り早く「便利」というだけで、もちろん最強のツールではない。詳細を知りたいそこの君は『統計学が最強の学問である [実践編]』を読もう。

関連項目[編集]