データの種類(尺度)について

感想調査で扱うデータには色々な種類があります。それぞれの種類によって、適用する解析手法が違ってくるので、「自分が扱おうとしているのはいったいどのようなデータなのか?」を常に意識することが大切です。

データの種類とは、データの情報量と言い換えることができます。統計学的にはこれを尺度と呼び、一般的にデータは次の4つの尺度に分類されます。

1. 名義尺度

血液型や都道府県、男女など、その違いだけに意味がある尺度。ほとんどの解析は適用することができません*1。感想調査で言うと「見切り」や「見てない」が名義尺度になります。

代表値としては、最頻値が使われます。

2. 順序尺度

5段階評価やランキングなど、順序だけに意味がある尺度。適用できる解析には制限がありますが、順序尺度に適用できる解析手法は数多く発見されています*2。感想調査でいうと、「殿堂入り」「名作」などの評価は本来この順序尺度です。

代表値としては、中央値が使われます。

3. 間隔尺度

温度や西暦年など、値の間隔に意味がある尺度。値の間隔には意味がありますが、値の比には意味がありません。例えば10℃と100℃を比較して「10倍熱い」とは言えませんが、その間隔の90℃という値には意味があります。

大抵の解析手法を適用することができ、代表値は平均値が使われることが多いです。

感想調査でいうと、「殿堂入り」=5 のように数値に変換された評価は間隔尺度になります。

4. 比例尺度

個数や長さなど、値の比に意味がある尺度。現実的には全ての解析手法が適用できると思います。

補足:絶対尺度

値そのものが意味を持つ、絶対的な尺度。通常使われるのは上の4つの尺度ですが、これに絶対尺度を加えて5つの尺度を定義している場合もあります。

例えば比例尺度である重さは、1kg=1000gのように単位によって値が変化するため、値そのものには意味がありませんが、10kg/1kg = 10000g/1000g = 10 と値の比は同じになります。

この「比」が絶対尺度となります。

まとめ

こんな感じの図を作る予定。

┏━━━━┳━━┳━━━┳━━━━━━━━━┓
┃尺度    ┃性質┃代表値┃解析手法          ┃
┣━━━━╋━━╋━━━╋━━━━━━━━━┫
┃名義尺度│質的│最頻値│ノンパラメトリック┃ 
┠────┼──┼───┼─────────┨
┃順序尺度│    │中央値│                  ┃
┠────┼──┼───┼─────────┨
┃間隔尺度│量的│平均値│パラメトリック    ┃
┠────┼──┼───┼─────────┨
┃比例尺度│    │      │                  ┃
┗━━━━┷━━┷━━━┷━━━━━━━━━┛
*1 カイ2乗検定など、ごく限られた解析が適用できます
*2 いわゆるノンパラメトリックな解析を適用することができます