回帰分析

まずは単回帰分析から。
単回帰分析:1変量から1変量を予測する
各営業所の売上と宣伝費のデータが以下のように与えられている。

営業所 宣伝費(x)(百万円) 売上(y)(千万円)
1 5.5 73
2 4.5 59
3 4.1 56
4 3.5 31
5 2.5 28
6 2.3 31
7 2.7 30
8 2.8 25

このとき、売上yと宣伝費xの間の関係をうまく表したい。
Yを売上yの推定値として、
Y=ax+b
と表した時のaとbの最適値を求める。
推定値Yと実測値yの残差を以下のように定義する。

残差 \epsilon_i = y_i - Y_i = y_i - (a x_i + b)

また、\epsilon_iの残差平方和Qを以下のように定義する。

 Q = {\epsilon_1}^2 + {\epsilon_2}^2 + {\epsilon_3}^2 + ... = \sum_i{ \epsilon_i}^2

Q \epsilon_iを代入して、
 Q = (y_1 - a x_i - b)^2 + (y_2 - a x_2 - b)^2 + ...
極値条件、 \large \frac{\partial Q}{\partial b} = 0を用いると

 (y_1 + y_2 + ...) - a(x_1 + x_2 + ...) - nb = 0

両辺をデータサンプル数nで割ると、
 \large \frac{y_1 + y_2 + ...}{n} - \frac{x_1 + x_2 + ...}{n} - b = 0
これは変量x,y の平均 \bar{x}, \bar{y}を使って書き直すと

 \bar{y} = a \bar{x} + b

つまり変量の平均は回帰直線上に位置することになる。
上式を変形して、
 b = \bar{y - a \bar{x} ]
これをQの式に代入すると、
 Q = \{ y_1 -a x_1 - (\bar{y} - a \bar{x} ) \}^2 + \{ y_2 - a x_2 -(\bar{y} - a \bar{x} ) \}^2 + ...
 = \{ (y_1 - \bar{y}) - a( x_1 - \bar{x} ) \}^2 + \{ (y_2 - \bar{y}) - a( x_2 - \bar{x} ) \}^2 + ...
これにもう一つの極値条件、 \large \frac{\partial Q}{\partial a} = 0を適用して、

 \{(x_1 - \bar{x}) (y_1 - \bar{y}) + (x_2 - \bar{x}) (y_2 - \bar{y}) + ...\} - a \{(x_1 - \bar{x})^2 + (x_2 - \bar{x}) ^2 + ...\}  = 0

この両辺をn-1で割って、共分散 s_{xy}, 分散 {s_x}^2を用いて書き換えると

 s_{xy} - a {s_x}^2 = 0  \Longleftrightarrow a = \large \frac{s_{xy}}{ {s_x}^2 }

よって、回帰方程式は

 y = \large \frac{s_{xy}}{{s_x}^2} x + (\bar{y} - \frac{s_{xy}}{ {s_x}^2} \bar{x} )

同様に、2変量及び3変量の場合を示す(重回帰)。

 \left( \begin{array}{cc} {s_x}^2 & s_{xu} \\ s_{xu} & {s_u}^2 \\ \end{array} \right)  \large \left( \begin{array}{c} a \\ b \\ \end{array} \right)     =   \left( \begin{array}{c} s_{xy} \\ s_{uy} \\ \end{array} \right)

 Y = ax + bu + cv + d
 \bar{y} = a \bar{x} + b \bar{u} + c \bar{v} + d
 \left( \begin{array}{ccc} {s_x}^2 & s_{xu} & s_{xv} \\ s_{xu} & {s_u}^2 & s_{uv} \\ s_{xv} & s_{uv} & {s_v}^2 \end{array} \right)  \large \left( \begin{array}{c} a \\ b \\ c \\ \end{array} \right)     =   \left( \begin{array}{c} s_{xy} \\ s_{uy} \\ s_{vy} \\ \end{array} \right)