Table of contents

データの種類(尺度)について

感想調査で扱うデータには色々な種類があります。それぞれの種類によって、適用する解析手法が違ってくるので、「自分が扱おうとしているのはいったいどのようなデータなのか?」を常に意識することが大切です。

データの種類とは、データの情報量と言い換えることができます。統計学的にはこれを尺度と呼び、一般的にデータは次の4つの尺度に分類されます。

名義尺度

血液型や都道府県、男女など、その違いだけに意味がある尺度。ほとんどの解析は適用することができません*1。感想調査で言うと「見切り」や「見てない」が名義尺度になります。

代表値としては、最頻値が使われます。

順序尺度

5段階評価やランキングなど、順序だけに意味がある尺度。適用できる解析には制限がありますが、順序尺度に適用できる解析手法は数多く発見されています*2。感想調査でいうと、「殿堂入り」「名作」などの評価は本来この順序尺度です。

代表値としては、中央値が使われます。

間隔尺度

温度や西暦年など、値の間隔に意味がある尺度。値の間隔には意味がありますが、値の比には意味がありません。例えば西暦100年と西暦1000年を比較して、宇宙の誕生(=絶対0点)から10倍の時間が経っているとは言えませんが、その間隔の900年という値には意味があります。

大抵の解析手法を適用することができ、代表値は平均値が使われることが多いです。

感想調査でいうと、「殿堂入り」=5 のように数値に変換された評価は間隔尺度になります。

比例尺度

個数や長さなど、値の比に意味がある尺度。現実的には全ての解析手法が適用できると思います。

絶対尺度

値そのものが意味を持つ、絶対的な尺度。通常使われるのは上の4つの尺度ですが、これに絶対尺度を加えて5つの尺度を定義している場合もあります。

例えば比例尺度である重さは、1kg=1000gのように単位によって値が変化するため、値そのものには意味がありませんが、10kg/1kg = 10000g/1000g = 10 と値の比は同じになります。

この「比」が絶対尺度となります。

まとめ

こんな感じの図を作る予定。

┏━━━━┳━━┳━━━┳━━━━━━━━━┓
┃尺度    ┃性質┃代表値┃解析手法          ┃
┣━━━━╋━━╋━━━╋━━━━━━━━━┫
┃名義尺度│質的│最頻値│ノンパラメトリック┃ 
┠────┼──┼───┼─────────┨
┃順序尺度│    │中央値│                  ┃
┠────┼──┼───┼─────────┨
┃間隔尺度│量的│平均値│パラメトリック    ┃
┠────┼──┼───┼─────────┨
┃比例尺度│    │      │                  ┃
┗━━━━┷━━┷━━━┷━━━━━━━━━┛

データの代表値について

サイトごとの評価値に関する考察

感想調査(以降、ここでは終了番組評価のことを意味しています)結果の分析としては、

の2つのアプローチが考えられます。ここでは、そのうちのサイト同士の関係について考えていきます。

2サイト間の一致度について

相関係数/回帰係数

サイト間の評価傾向を計の指標としては、相関係数ρが挙げられる。ずれの大きさだけでは「好き嫌い自体は同じだが評価の幅が違う」サイトと「好み自体が逆」のサイトを判断することができない。相関係数を考慮することで、これらの差を判断する指標となる。

逆に考えると、強い正の相関があったからといって評価が一致しているとは限らず、強い負の相関があったからといって評価が異なるとは限らないため、相関係数と他の統計量を合わせて一致度を評価するのが妥当であると考えられる。

サイトj_1とサイトj_2の相関係数ρ(j_1, j_2)は以下の式で与えられる。

TeX:\rho(j_1  j_2) = \frac{Cov(j_1  j_2)}{\sqrt{V(j_1)}\sqrt{V(j_2)}}

ここでV(j)はサイトjの評価値の分散

TeX:V(j) = \frac{1}{M} \sum_{i=1}^{M} (S_{ij} - S_{j})^2

また、Cov(j_1, j_2)はサイトj_1 , j_2の評価値の共分散

TeX:Cov(j_1  j_2) = \frac{1}{M} \sum_{i=1}^{M} (S_{ij_1} - S_{j_1}) (S_{ij_2} - S_{j_2})

である。

適合度検定

評価値のずれ

アニメi (i; 1, 2, ... , M)に対して、サイトj (j; 1, 2, ... , N) が与える評価をSijとする。ここで評価値Sijを

TeX:S_{ij} = S_j + \alpha_{ij}

とする。ここでS_jはサイトjにおける評価の平均値

TeX:S_{j} = \frac{1}{M} \sum_{i=1}^{M} S_{ij}

である。この値はアニメに依らないサイト自身が持つ特性と考えられるため、

TeX:\alpha_{ij} = S_{ij} - S_j

は評価値からサイト自身の特性を除いた部分となり、「自分の中の平均に対してどれだけ上下したか」という傾向を図る指標となる。

自分j_1の評価が他のサイトj_2と比べてどれだけずれているかという指標として、自 分の評価値の周りの2次のモーメントm^2を求める。

TeX:m^2(j_1  j_2) = \frac{1}{M} \sum_{i=1}^{M} (S_{ij_2} - S_{ij_1})^2

この平方根をとることで、相手と自分の評価値のずれの期待値が求められる。また

TeX:m^2(j_1  j_2) = \frac{1}{M} \sum_{i=1}^{M} (\alpha_{ij_2} - \alpha_{ij_1})^2

と変形することで、相手と自分の、サイト自体の特性を除いた傾向のずれを求めることができる。

2サイト間の評価の差に関する検定

サイト間で評価に差があるかどうかを統計学的に評価する方法として、サイト j_1の評価平均Sj1と、サイトj_2の評価平均Sj_2に有意な差があるか

の検定を行うことが考えられる。以下、パラメトリック(評価が正規分布に従う)とノンパラメトリック(評価が正規分布に従わない)のそれぞれについて考える。

パラメトリックな手法では、適当な分布を仮定して検定を行うことになる。アニメ感想調査においては各サイトの母平均および母分散は不明であるため*3、t検定を行うのが一般的である。

2サイト間の一致度を評価するためのノンパラメトリックな手法として、代表的なものがWilcoxonの順位和検定とMann-WhitneyのU検定である。前者は対応のあるデータに用いられ、後者は対応のないデータに用いられる。

感想調査においては、全アニメに対する評価値が分かっている場合は「対応がある」、サイトごとに評価したアニメが異なる場合は「対応がない」と考えられる。

正規分布への適合度検定

F検定

各サイトの分散が等しい場合と異なる場合では検定方法が異なるため、まず等分散の検定を行う。

にて、帰無仮説H_0が棄却されれば各サイトの分散は異なるものと判断する。

サイトj_1の評価したアニメ数をM_{j_1}、サイトj_2の評価したアニメ数 をM_{j_2}とする。このとき、

TeX:F = \frac{(M_{j_1} - 1)M_{j_2} \hat{\sigma}_{j_2}^2}{(M_{j_2} - 1)M_{j_1} \hat{\sigma}_{j_1}^2}

は自由度(M_{j_2} - 1, M_{j_1} - 1)のF分布F(M_{j_2} - 1, M_{j_1} - 1)に従うことが分かっている。よって、有意水準αのもとで

TeX:F &<& F\left(1-\frac{\alpha}{2};\; M_{j_2} - 1  M_{j_1} - 1 \right)

または

TeX:F &>& F\left(\frac{\alpha}{2};\; M_{j_2} - 1  M_{j_1} - 1 \right)

であれば帰無仮説H_0を棄却する検定を行うことができる。

t検定

続いて、本来の目的である等平均の検定

を行う。統計量には

TeX:W = \frac{S_{j_1} - S_{j_2}}{\sqrt{U_{j_1}^2 / M_{j_1} + U_{j_2}^2 / M_{j_2}}}

を用いる。ここでU_{j}はサイトjの不偏分散

TeX:U_j = \frac{1}{M-1}\sum_{i=1}^M (S_{ij} - S_j)^2

である。2サイトの分散が等しい場合は、Wは自由度(M_{j_1} + M_{j_2} -2)のt分布に従う。よって有意水準αのもとで

TeX:|W| > t\left( \frac{\alpha}{2};\; M_{j_1} + M_{j_2} -2 \right)

のとき帰無仮説H_0を棄却でき、2サイトの評価が異なっていると判断できる。

しかし、現実として2つのサイト間で統計学的に有意な差が出るとは考えにくく、|W|とt分布の逆関数を用いて求めたp値をサイト間の一致度を図る相対的な指標とするのが妥当であると考えられる。

2サイトの分散が異なる場合には、Wはt分布に従わないため、Welchによる近似t検定を行う。Welchのt検定に用いる統計量は同じく|W|であるが、t分布の自由度dfを

TeX:\frac{1}{df} = \left( \frac{R}{1+R} \right)^2 \frac{1}{M_{j_1} -1} +  \left( \frac{1}{1+R} \right)^2 \frac{1}{M_{j_2}-1}
TeX:R = \frac{U_{j_1}/M_{j_1}}{U_{j_2}/M_{j_2}}

を満たす値とする。通常dfは整数にならないため、t分布表より補完するか、適当な整数に丸める等の処理が必要になる。

Wilcoxonの順位和検定

各サイトでアニメごとの評価値が分かっている場合は、それを対応があるデータとして扱うことができる。評価値が分からない場合は、何らかの手法で欠測した評価値を補完することで、対応がある完全データとして扱うことが可能になる。

サイトj_1とj_2の各評価を合わせて、その中で順位をつける。つまりアニメ数Mに対して、各評価値には(1, ... , 2M)の順位がつけられる。サイトjのアニメiに対する評価をS_{ij}とし、その順位をR_{ij}とする。このとき、各サイトの評価値に違いがなければ順位は均等に分布し、違いが大きければ順位に偏りが出るはずである。したがって

TeX:W= \sum_{i=1}^{M} R_{ij_1}

を統計量とし、有意水準αにおいて

TeX:W > W_{\frac{\alpha}{2}}

または

TeX:W< W_{1-\frac{\alpha}{2}}

のときに帰無仮説を棄却する検定が可能になる。

Mann-Whitney のU検定

各サイトでアニメごとの評価値が分からない場合は、アニメごとの対応をとることができない。そのため対応がないデータとして扱われる。Mann-WhitneyのU検定を用いることで、このような対応のないデータに対して検定を行うことができる。

Mann-WhitneyのU検定は、Wilcoxonの順位和検定を各集団のサンプル数が違う場合に対して拡張したものであり、用いる統計量は基本的に同じ意味を持つ。そのため、両者は等価な検定であるといえる。

Mann-Whitneyで使用される統計量Uは、平均順位が小さいほうのサイトjの順位和から、順位和の最小値を引いた値

TeX:U &=& \sum_{i=1}^{M_j} R_{ij} - \sum_{i=1}^{M_j} i \\ &=& \sum_{i=1}^{M_j} R_{ij} - \frac{M_j(M_j - 1)}{2}

で与えられる。このUに対し、有意水準αにおいて

TeX:U >U_{\frac{\alpha}{2}}

または

TeX:U < U_{1-\frac{\alpha}{2}}

のときに帰無仮説を棄却する検定が可能になる。

アニメごとの評価値に関する考察

好評層と不評層について

あるアニメの評価について、好評層と不評層という2つのクラスターを定義し、クラスター間に有意な差があるかを考える。有意な差があれば、そのアニメの評価は好評層と不評層という異なる分布から与えられたものということになる。しかし、この場合もサイト間の一致度と同様に、統計的な有意性よりも統計量の相対的な大小を比較することで大まかな傾向が分かる、といった指標に用いることが妥当だと思われる。

クラスターを分類する方法として、以下にk-mean法と混合正規分布の2つの手法について考える。

k-means法

簡単な方法としては、k-means法で好評層と不評層の2つのクラスターに分類する方法である。通常、k-meansではひとつのノードは必ずいずれかのクラスターに属することになるが、アニメ感想調査の場合はサンプル数が少ないため、どのクラスターに属するかは確率的に決定することにする。

具体的なアルゴリズムは以下のステップで表される。

step-3はEMアルゴリズムのEステップとMステップに相当すると思われる。

step-3の具体的な計算としては、ノードi(i; 1,...,N)がクラスタcに属する確率がp_{ic}、評価値sを与えた人数がn_sのとき、クラスタcの平均値μ_cは

TeX:\mu_c &=& \frac{1}{n_c} \sum_{i=1}^{N} s \cdot p_{ic} \cdot n_s \\ n_c   &=& \sum_{i=1}^{N} p_{ic} \cdot n_s

で与えられる。

EMアルゴリズムによる正規混合分布のパラメータ推定

k-means法のほかに、好評層と不評層の2つの正規分布があると考え、アニメ評価はこの2つの分布が混合されたものだという混合正規分布モデルを考える。この場合、2つの正規分布のパラメータをEMアルゴリズムで求める方法がよく用いられる。

EMアルゴリズムのステップを以下に示す。

  1. 各分布の初期値を設定する。
  2. E-step: 各正規分布に属するノード数の期待値を計算する。
  3. M-step: 各正規分布に属するノード数の期待値を用いて、各パラメーターを更新する。
  4. 対数尤度の変化量が十分少なくなるまでステップ2〜3を繰り返す。

尤度関数$L(\theta)$は以下の式で与えられる。$w_c$はクラスター$c$ごとの重み、$s$は評価値である。

TeX:L(\theta) &=& \prod_{c} \prod_{s} w_c \cdot f(s  \theta)^{n_{cs}} \\ f(s  \theta; \mu_c  \sigma_c^2) &=& \frac{1}{\sqrt{2 \pi} \sigma_c}\exp \left\{ - \frac{(s - \mu_c)^2}{2 \sigma_c^2} \right\}

通常は、対数尤度関数

TeX:LL(\theta) &=& \sum_{c} \sum_{s} \log (w_c \cdot f(s  \theta)) \cdot \log n_{cs}

を用いる。

■E-step 各分布$c$に属するノード数$n_c$の期待値を求める。

TeX:n_c    &=& \sum_s n_{cs} \\ &=& \sum_s n_s \cdot p(n_{cs}|n_{s}) \\ &=& \sum_s n_s \cdot \frac{w_c \cdot f(s  \theta_c)}{\displaystyle \sum_{c'} w_{c'} \cdot f(s  \theta_{c'})}

■M-step 各パラメータ$w, \mu, \sigma$を更新する。

TeX:w_c^{*}     &=& \frac{1}{S} \sum_s p(n_{cs}|n_{s}) \\ \mu_c^{*}   &=& \frac{1}{n_c} \sum_s s \cdot n_{cs}\\ \sigma_c^2{*} &=& \frac{1}{n_c} \sum_s (s - \mu_c^{*})^2 \cdot n_{cs}

アニメ評価どうしの独立性の検定

評価値の信頼区間について

正規分布を仮定した場合

ブートストラップ法

アニメごとの評価一致性について

評価値推定に関する考察

サンプルサイズの見積もり

*1 カイ2乗検定など、ごく限られた解析が適用できます
*2 いわゆるノンパラメトリックな解析を適用することができます
*3 いわゆる「サイトの平均値」というのは標本平均であるため、真の平均値(=母平均)は観測データからは知ることができない