【如何计算拟合优度】在统计学中,拟合优度(Goodness of Fit)是用来衡量一个统计模型与实际数据之间匹配程度的指标。它常用于检验观测数据是否符合某种理论分布,如正态分布、泊松分布等。常见的拟合优度检验方法有卡方检验(Chi-square test)、K-S检验(Kolmogorov-Smirnov test)等。
本文将简要介绍几种常用的拟合优度计算方法,并通过表格形式总结其适用场景和计算步骤。
一、卡方检验(Chi-square Test)
卡方检验是一种非参数检验方法,适用于分类变量的数据,用于判断样本数据是否符合某个理论分布。
适用场景:
- 数据为分类变量
- 每个类别期望频数大于5
计算步骤:
| 步骤 | 内容 |
| 1 | 确定理论分布(如均匀分布、二项分布等) |
| 2 | 计算每个类别的期望频数(Expected Frequency) |
| 3 | 记录每个类别的实际频数(Observed Frequency) |
| 4 | 计算卡方统计量:$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $ |
| 5 | 根据自由度查卡方分布表,判断是否拒绝原假设 |
结论:
- 若卡方值大于临界值,则拒绝原假设,认为数据不符合该分布。
- 否则,接受原假设,数据符合该分布。
二、K-S检验(Kolmogorov-Smirnov Test)
K-S检验是一种基于经验分布函数的非参数检验方法,适用于连续变量,用于检验样本数据是否来自某一特定分布。
适用场景:
- 数据为连续变量
- 无需分组,适合大样本
计算步骤:
| 步骤 | 内容 | ||
| 1 | 建立原假设:样本数据来自某一特定分布 | ||
| 2 | 计算样本的经验分布函数(ECDF) | ||
| 3 | 计算理论分布的累积分布函数(CDF) | ||
| 4 | 计算最大差异值 $ D = \max | F_{\text{obs}}(x) - F_{\text{theo}}(x) | $ |
| 5 | 根据样本大小查找K-S临界值或计算p值 | ||
| 6 | 判断是否拒绝原假设 |
结论:
- 若D值超过临界值或p值小于显著性水平(如0.05),则拒绝原假设。
- 否则,接受原假设。
三、AIC 和 BIC 准则(信息准则)
AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)是用于比较不同模型拟合优度的指标,尤其适用于回归分析或时间序列模型。
适用场景:
- 比较多个模型的拟合效果
- 需要平衡模型复杂度与拟合精度
公式:
- AIC = 2k - 2ln(L)
- BIC = k ln(n) - 2ln(L)
其中:
- k 为模型参数数量
- n 为样本数量
- L 为模型的最大似然值
结论:
- AIC 或 BIC 值越小,表示模型拟合越好。
- 通常选择AIC或BIC最小的模型作为最佳模型。
四、R²(决定系数)
R² 是回归分析中常用的拟合优度指标,表示自变量对因变量的解释能力。
适用场景:
- 线性回归模型
- 衡量模型对数据的解释力
计算公式:
$$ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} $$
其中:
- $ y_i $ 为实际值
- $ \hat{y}_i $ 为预测值
- $ \bar{y} $ 为实际值的均值
结论:
- R² 接近1表示模型拟合较好。
- R² 接近0表示模型拟合较差。
总结表格
| 方法 | 适用场景 | 计算方式 | 结论标准 |
| 卡方检验 | 分类变量,期望频数>5 | $ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $ | 卡方值 > 临界值 → 拒绝原假设 |
| K-S检验 | 连续变量,大样本 | 最大差异 $ D $ | D > 临界值 → 拒绝原假设 |
| AIC/BIC | 模型比较 | AIC=2k-2ln(L), BIC=k ln(n)-2ln(L) | AIC/BIC 越小越好 |
| R² | 线性回归 | $ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} $ | R² 越接近1越好 |
以上是对常见拟合优度计算方法的总结,实际应用中应根据数据类型和研究目的选择合适的方法。


