AICは真のモデルを選ばない?

こんにちは、D3の大久保です。

先日「p 値とは何だったのか(Fisher の有意性検定とNeyman-Pearson の仮説検定を超えるために)」という論文を書いたのですが(大久保&會場[2019],生物科学70(4))、今日はそのプロモーションを兼ねて(?!)、この論文では主題として扱えなかった「AICと真のモデルの関係」について紹介したいと思います.

・はじめに
生態学の統計分析で赤池情報量規準(AIC)によるモデルの評価・選択は、本当によく見かけますよね。p値と並んで、データを解釈する上で最も重要な役割を果たしている指標と言えるかもしれません。しかしAICに関して、こんなことを聞いたことがある人はいないでしょうか。

「AICは予測のための指標である」
「AICは正しいモデルを選ぶために作られてない」
「AICはnを増やしても一致性がない」

どれも統計学的にはよく指摘されます。しかし上記論文では、『なぜ予測が上手くいくのに正しいモデルを選ばないのか』ということを上手く説明できませんでした。そこでこの記事では、AICとBIC(ベイズ的検定)の関係から説明してみたいと思います。よく「AICは複雑なモデルに罰則を課し、単純なモデルを選ぶ」と言われることが多いですが、実はそうとも言い切れない・・・ということが見えてきます。

・情報量規準と罰則の強さ
まず、AICの式についておさらいします。
AIC=-2 (最大対数尤度) + 2*(自由パラメータ数)
ここで対数尤度とは、モデルのパラメータを最尤推定値にした時の対数尤度です。

(*注:単純な線形回帰モデルや一般化線形回帰モデルの場合は、モデルの自由度=自由パラメータ数(説明変数の数)が成立しますが、混合効果モデル、階層モデル、罰則付き最尤法を使った場合にはそうとは限りません。この記事では簡単のため”自由パラメータ数”で表記を統一しますが、関心のある方は小西・北川(2004)のChap.4やHodgesのcAICなどを参照してみてください。)

比較のために、AICと並んで代表的な指標であるベイズ情報量規準(BIC)の式も確認しておきます。
BIC= -2 (最大対数尤度) + log(サンプルサイズ)*(自由パラメータ数)

AICでは、サンプルサイズの大きさにかかわらずモデルの自由パラメータ数に対する罰則の強さは一定です。これに対してBICでは、自由パラメータを増やした時の罰則の強さがサンプルサイズに依存して変化するということがわかりますね。ふつうAICの方がよく使われる規準なので「BICでは、サンプルサイズが増えると罰則が厳しくなる」と紹介されることが多いように思いますが、ここでは後半の議論のために見方を逆にして「AICでは、サンプルサイズが増えると罰則が甘くなる」と表現しておきましょう。

・AICと予測分布

なぜAICが検定に使えないのか見る前に、改めてAICの目的とアイデアを確認しておきます。まず前提として、我々が現実世界で出会うデータというのは多かれ少なかれ確率的に揺らいでいます。それは単なる測定誤差だけでなく、バラツキを持つこと自体が本質的なのかもしれません。ここで、統計学の目的について「統計モデルという道具を通して、手持ちのデータから現実世界を構成している真の確率分布を推定すること」という立場に立ってみましょう。これを「我々が直接知ることのできない真のモデルと、真のモデルを近似した予測分布の間のカルバック=ライブラー情報量(あるいは交差エントロピー)」という観点から評価することがAICのゴールと言えます(小西・北川2004など)。

即ち真の分布をq(x)、我々が作った回帰モデル(例えばy~x1+x2+…)をp(x|θ)で表すと、

・我々が持っているサンプルサイズnのデータはq(x)から取ったn個のランダムサンプル
・p(x|θ)は、q(x)を近似するために作られた回帰モデル
・最尤推定値は、q(x)とp(x|θ)の間の交差エントロピーを最小化するようなθの値
・最大対数尤度は、その時の交差エントロピーの近似値

です。ただしこのままだと、q(x)からの同じランダムサンプルを1)最尤推定値と2)q(x)とp(x|θ)の間の交差エントロピーを近似計算、という目的で再利用しているので、交差エントロピーを過小評価してしまいます。この過小評価の大きさを補正するのが、AICの罰則項である自由パラメータ数なのです。こうして回帰モデルp(x|θ)のθに、最尤推定値を使った場合に、q(x)に対する予測分布が得られます。また、その時の予測分布がどれぐらいq(x)に近いかを、AICで比較することができるようになります。ここまでの説明で予測分布という言葉がわかりづらければ、「最尤推定でつくった回帰線と、その95%信頼区間」とイメージしてOKかと思います。

以上のことから、AICの目的に照らして一つ重要な示唆が得られます。もし異なる説明変数を使って2つの異なる回帰モデルを作ったとしても、仮に2つのモデルから同じ予測分布が得られるのであれば、予測精度の意味では2つのモデルに大きな差はないはずです。従って、AICは“どちらを使っても良い(AICの値に大きな差がない)”と判断するはずです。

・AICと最尤推定
しかし異なるモデルを作っているはずなのに予測分布が同じになるなんて、ありえるんでしょうか。この点を考察する上で重要な役割を果たすのが、先に言及したサンプルサイズの増加と罰則の強さの関係です。

ここで、2つのネストした回帰モデル
M1: y~x1
M2: y~x1+x2

を考えてみます。yの従う分布は、M1とM2で同じであれば正規分布でも二項分布でもポアソン分布でも構いません。仮に、実際にyと相関を持っている説明変数はx1のみでx2は冗長な変数だとすると、正しいモデルはM1になります。この時間違ったモデルM2で最尤推定をすると、推定値はどのような性質を持つでしょうか。

最尤推定値には、不偏性、(漸近)正規性、一致性などの優れた性質が知られています。つまり、我々が直接把握することのできない真の確率分布について、

  • 真の分布からn個の有限なサンプルを取る
  • n個のサンプルで最尤推定を行い、真の分布を推測する
  • 以上のプロセスを、無限回行うと仮定する

 

と、その推定値は
・1回1回は的中することもあるし外すこともあるが、無限回の期待値としては真の値からのバイアスがない(不偏性)
・無限個の最尤推定値の分布は、真の値を平均とする正規分布に従う(正規性)
・小さなnだと、無限回反復してもこの正規分布の分散が広い(推定の精度が低い)が、nを大きくするにつれてやがて分散は0に収束する(一致性)

ということが知られています。(*注:繰り返しになりますが、1回1回は推定を的中させることもあれば外すこともある、という点に注意してください。ちなみに、もちろん現実に我々がデータを分析するときは、「n個のサンプルを1回だけ取った」状況なのですが、これを仮想的に「n個のサンプルを無限回取った」と考えて、その時の性質に基づいて統計的推論の良し悪しを論じる立場を頻度主義と呼びます。)

M2の最尤推定とAICに関していうと、ここで一番のポイントになるのは一致性です。もし我々が間違った説明変数x2を使っても、サンプルサイズnが大きければx2の回帰係数は0の近くに集まることが“期待”されます。しかも、nを大きくするにつれて0からのズレの大きさ(正規分布の分散)もどんどん小さくなる”はず”です。その結果

・M2の予測分布は、正しいモデルM1を使って作られたものとほぼ同じになるハズだ
・両者の違いは、nが大きければ大きいほど小さくなるハズだ

ということがわかります。これが、サンプルサイズが大きい場合にはAICの罰則が甘くなる理由です。以上の理由から、AICによるモデル選択には一致性がありません:つまり、N→∞にしてもAICが真のモデルを選ぶ確率は1に収束しません。気になる方は、ぜひRなど使ってシミュレーション実験をしてみてください。

・まとめ
予測分布の精度が悪化しないのであればAICは単純なモデルを好む必要ないんですね。また、不要な説明変数が入っていてもAICスコアが悪化しないのであれば、帰無モデルと対立モデルのAICを比較して「説明変数の必要性」を検定することもできません。

こうした現象は決してAICの欠陥ではなく、単に「AICは予測分布を評価するという目的のために作られたものなので、検定という目的には使えない」というだけです。実際、AICを導出した赤池先生もこの現象のことは認識していて、本人によると、1978年にSchwartzが「AICはnを増やしても真のモデルを選ばない」と批判してBICを提案した際には、即座に反論を書いたということです(赤池1996)。

“精度が同じ予測分布”が引き起こす現象は、ベイズ統計においても生じます。階層ベイズモデルなどで使われる広く使える情報量規準“WAIC”は、最尤推定量の性質を利用したものではありませんが予測分布を評価するという点では変わりません。また擬似ベイズファクターやクロスヴァリデーションを使ったモデル選択でも、冗長な説明変数を排除できないことがわかります(例えばGronau & Wagenmakers 2019. )

ここまでを読んで「ではAICでモデル選択をした後に、最尤推定値を確認したり、選ばれた説明変数の検定をすればいいということ?」と想像した方もいるかもしれません。しかし、ここにも重大な罠があります。気になった方は、”post-model selection estimator”等で検索してみてください。モデル選択の後に最尤推定を行うと、本項中盤で触れた漸近正規性が失われてしまい推定値の不偏性が失われ通常の検定もできなくなる、という現象です。

この記事の執筆にあたって内容には注意を払ったつもりですが、査読を受けた記事ではありませんのでご注意をお願いいたします。お気付きの問題等は、大久保までお知らせいただけると幸いです。

 

ohkubo_yusaku[あっと]eis.hokudai.ac.jp

p値論文は以下の生物科学HPより!

http://shop.ruralnet.or.jp/search/?ctid=01212902

https://www.researchgate.net/profile/Yusaku_Ohkubo

 

・参考文献

粕谷英一. (2015). 生態学における AIC の誤用: AIC は正しいモデルを選ぶためのものではないので正しいモデルを選ばない (< 特集 2> 生態学におけるモデル選択). 日本生態学会誌, 65(2), 179-185.