線形回帰では,データから推定される線形予測関数を用いて関係性がモデル化される。このようなモデルは線形モデルと呼ばれる。
説明変数(または予測変数)に対して目的変数の条件付き期待値は、アフィン写像で与えられる。(通常は条件付き期待値だが、条件付メジアンまたは他の分位数を用いることもある。)
線形回帰が非線形回帰に比べて用いられる頻度が高いのは、未知のパラメータに線形に依存するモデルの方が、パラメータに非線形に依存するモデルよりもフィッティングが容易で、推定値の統計的性質を決定しやすいためである。
線形回帰が取り扱う範囲は、予測変数の値を与えられた応答の条件付き確率分布に限る。
全ての変数の同時確率分布は多変量解析の領域として、ここでは扱わない。
線形回帰の用途
編集
線形回帰は多くの実用的な用途があり、大まかには以下の二種類の用途に分類される。
○予測、予想、またはエラーの削減を目的とする。
→線形回帰は、応答変数と説明変数の値の観測されたデータセットに予測モデルを適合させるために使用できる。
説明変数の追加値が収集された場合、このモデルから応答変数を予測できる。
○説明変数の変動に起因する応答変数の変動を説明することを目的とする。
→線形回帰分析を適用して、応答と説明変数の関係の強さを定量化できる。
これにより各説明変数が応答と全く線形関係を持たないかどうかを判断したり、説明変数のどのサブセットに応答に関する冗長な情報が含まれているかを特定できる。
線形モデルのフィッティング方法
編集
線形回帰モデルは多くの場合、最小二乗法を用いてフィッティングされる。
それ以外のフィッティング方法としては、最小絶対値法や、リッジ回帰(L2ノルムペナルティ)やラッソ回帰(L1ノルムペナルティ)のように、最小二乗コスト関数のペナルティ付きバージョンを最小化する方法などがある。
逆に最小二乗法は、線形モデルではないモデルのフィットにも使用できる。
このように、「最小二乗法」と「線形モデル」という言葉は密接に関連しているが、同義ではない。
線形回帰モデルは、目的変数[注釈 1] Y と説明変数[注釈 1] Xi, i = 1, ..., p および擾乱項[注釈 2] ε の関係を以下のようにモデル化したものである。
-
ここで β0 は切片(「定数」項)、βi は各々の説明変数の係数であり、p は説明変数の個数である。線形回帰においては、説明変数の係数および切片の組 {βi}i∈[0,p) をパラメタとするモデルを与える。また、擾乱項 ε は説明変数 X とは独立である。
ベクトル・行列記法を用いれば、線形回帰モデルは以下のように表せる。
-
線形回帰が「線形」であるのは、目的変数 Y が説明変数 X の係数 β に対して線形であるためである。たとえば
-
という回帰は x に対して明らかに線形ではないが、係数 β に対して線形であるから、線形回帰の問題に分類される。
単回帰(英語版)の場合、説明変数は1つだけであり回帰パラメタは2つである。上式は以下のようになる。
同等な定式化に、線形回帰を条件付き期待値のモデルとして陽に表すものがある。
ここで、所与の x に対する y の条件付き確率分布は擾乱項の確率分布に一致する。
最小二乗モデル
編集
最小二乗法はカール・フリードリッヒ・ガウスが1820年代に発展させた。本方法は、擾乱項 εi の振る舞いに次のような仮定をする(ガウス=マルコフ仮定)。
- 擾乱 εi の期待値は 0 である
-
- 擾乱 εi は相互に無相関である(統計的な独立の仮定よりは弱い)
-
- 擾乱 εi は等分散、すなわちみな等しい分散をもつ(ガウス=マルコフの定理も参照)
-
以上の仮定は、最小二乗法がある意味で最適なパラメタの推定量を与えることを保証する。
説明変数の個数が p 個のモデルを考えると、線形回帰によって決定すべきパラメタは係数 β1,..., βp と切片 β0 の p + 1 個である。目的変数と説明変数の測定結果の組 (yk; xk1,...,xkp) を1つのデータとし、n 個のデータを用いた線形回帰は以下のように表すことができる。
-
上記の連立方程式は、目的変数の観測値を n 成分の列ベクトル Y、説明変数の観測値および切片 β0 の係数 (=1) を n × (p + 1) 行列 X、回帰パラメタを (p + 1) 成分の列ベクトルβ、観測ごとの擾乱を n 成分の列ベクトル ε とすれば、行列の記法を用いて以下のように表せる。
-
n = p の場合、回帰パラメタの標準誤差は算出できない。n が p より小さい場合、パラメタは算出できない。
回帰パラメタの推定量は、
で与えられ、ガウス=マルコフの定理より推定量 は最良線形不偏推定量になる。つまり、任意の線形不偏推定量 に対して
が成立する。
回帰の二乗和 SSR は下式で与えられる。
ここで であり は n × 1 の1ベクトル(各要素が1)である。
項 は と等価である。
誤差の二乗和 ESS は下式で与えられる。
二乗和の全和 TSS' は下式で与えられる。
決定係数, R² は下式で与えられる。
擾乱項が正規分布に従うモデル
編集
以下では擾乱項εiが互いに独立な平均 , 分散 の正規分布に従うと仮定する。
残差は、観測値とモデルによる予測値の差を表し、以下のように決定される。
この時、統計量 は分散 の不偏推定量( )になる[1]。また、最小二乗推定量 と統計量 について以下が成立することが知られている。証明は久保川(2017)[2]や解説記事[3]が詳しい。
- は多次元正規分布 に従う
- は自由度 の 分布に従う
- と は独立
上記の事実をもとに回帰係数の有意性検定、信頼区間や予測区間を構成できる。
回帰係数の有意性検定
編集
回帰係数の推定量 は正規分布 に従うことから
-
は自由度 の 分布に従う[4]。ここで は行列 の第 成分である。(添え字 は0から始まることに注意。)
これより適当な有意水準 で
- 帰無仮説:
- 対立仮説:
を検定することできる。
信頼区間と予測区間
編集
値 における の信頼区間は下式[5]で表される。
同様に値 における の予測区間は下式[6]で表される。