AIC、BIC、QAIC及HQ准则-白红宇的个人博客

AIC、BIC、QAIC及HQ准则

发布日期：2021-06-30 13:55:40 浏览次数：2 分类：技术文章

本文共 2359 字，大约阅读时间需要 7 分钟。

很多参数估计问题均采用似然函数作为目标函数，当训练数据足够多时，可以不断提高模型精度，但是以提高模型复杂度为代价的，同时带来一个机器学习中非常普遍的问题——过拟合。所以，模型选择问题在模型复杂度与模型对数据集描述能力（即似然函数）之间寻求最佳平衡。

人们提出许多信息准则，通过加入模型复杂度的惩罚项来避免过拟合问题，此处我们介绍一下常用的两个模型选择方法——赤池信息准则 （Akaike Information Criterion，AIC）和贝叶斯信息准则 （Bayesian Information Criterion，BIC）。

1.AIC准则(Akaike Information Criterion)

AIC是衡量统计模型拟合优良性的一种标准，由日本统计学家赤池弘次在1974年提出，它建立在熵的概念上，提供了权衡估计模型复杂度和拟合数据优良性的标准。

通常情况下，它是拟合精度和参数未知个数的加权函数，AIC定义为：

$A I C = 2 k - 2 l n (L)$

当在两个模型之间存在着相当大的差异时，这个差异出现于上式第二项，而当第二项不出现显著性差异时，第一项起作用，从而参数个数少的模型是好的模型。

让 $n$ 为观察数， $R S S$ 为剩余平方和，那么AIC变为：

$A I C = 2 k + n l n (R S S / n)$

其中 $k$ 是模型中未知参数个数， $L$ 是模型中极大似然函数值似然函数。从一组可供选择的模型中选择最佳模型时，通常选择AIC最小的模型。

当两个模型之间存在较大差异时，差异主要体现在似然函数项，

当似然函数差异不显著时，上式第一项，即模型复杂度则起作用，从而参数个数少的模型是较好的选择。

一般而言，当模型复杂度提高（ $k$ 增大）时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象。目标是选取AIC最小的模型，AIC不仅要提高模型拟合度（极大似然），而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。可见AIC准则有效且合理地控制了参数的维数k。显然AIC准则追求似然函数尽可能大的同时，k要尽可能的小。

举例：

设 $y_1,y_2,\cdots,y_n$ 是来自未知总体 $g (y)$ 的样本。总体的概率密度为 $f (y; θ)$ , $θ$ 是 $r * 1$ 未知参数向量。若 $θ$ 的极大似然估计是 $θ^*$ ，则 $L(θ^*)=\sum_{i=1}^n(lnf(y_i;θ^*)〗$ 就是对数似然函数，由此，

$AIC=-2L(θ^*)+2r$

可以度量 $f (y; θ)$ 与 $g (y)$ 之间的差异。

2.BIC准则(Bayesian InformationCriterion)

BIC（Bayesian InformationCriterion）贝叶斯信息准则与AIC相似，用于模型选择，1978年由Schwarz提出。训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象，针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。

$B I C = k l n (n) - 2 l n (L)$

其中， $k$ 为模型参数个数， $n$ 为样本数量， $L$ 为似然函数。 $k l n (n)$ 惩罚项在维数过大且训练样本数据相对较少的情况下，可以有效避免出现维度灾难现象。

3.QAIC准则

为了使用过度离散（或缺乏拟合），提出了改进的AIC准则QAIC：

$Q A I C = - 2 l n (L) / c + 2 k$

其中，c是方差膨胀因子。

4.QH准则(hannan-quinn criterion)

$H Q = - 2 l n (L) + l n (l n (n)) * k$

其中 $L$ 是在该模型下的最大似然， $n$ 是数据数量， $k$ 是模型的变量个数。

注意这些规则只是刻画了用某个模型之后相对“真实模型”的信息损失【因为不知道真正的模型是什么样子，所以训练得到的所有模型都只是真实模型的一个近似模型】，所以用这些规则不能说明某个模型的精确度。

这些规则理论上是比较漂亮的，但是实际在模型选择中应用比较困难的，如若有 5个变量则有32个变量组合，若为10个变量呢？2的10次方，故不可能对所有这些模型进行一一验证AIC, BIC，QAIC，HQ规则来选择模型，工作量太大。

转载自：

博客一：

博客二：

转载地址：https://jensen-lee.blog.csdn.net/article/details/89075582 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：共轭复数的性质及复数模的运算性质

下一篇：详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章