六、回归分析⚓︎
约 1497 个字 预计阅读时间 7 分钟
回归分析是处理变量间“不确定相关关系”的核心数理统计方法。它不仅能帮助我们从杂乱的实验数据中提取数学模型,还能对模型的可靠性进行严格的统计评估。
一、 回归分析的基本逻辑⚓︎
1. 函数关系与相关关系⚓︎
在物理世界中,变量间的关系主要分为两类。函数关系表现为一一对应的确定性;而相关关系则表现为非确定的统计规律。回归分析的任务,就是从这些看似随机的观测数据中,寻找隐藏在背后的最优统计规律。
2. 回归分析与最小二乘法的联系⚓︎
最小二乘法是回归分析的理论基石。
核心区别:最小二乘法主要关注如何通过最小化残差平方和来求取参数的最优估计;回归分析在此基础上,研究变量间的相关程度,并对数学模型进行显著性检验和预测分析。
二、 一元线性回归模型⚓︎
1. 数学模型与假定⚓︎
一元线性回归描述的是因变量 \(y\) 与一个自变量 \(x\) 之间的线性关系,其理论表达式为:
其中 \(\epsilon_i\) 为随机误差。为了使统计推断有效,我们假定误差项满足:均值为零、等方差性、相互独立且服从正态分布。
2. 回归系数的最小二乘估计⚓︎
通过最小化残差平方和,我们可以推导出回归系数 \(\hat{a}\) 和 \(\hat{b}\) 的估计值。
回归系数的物理意义:
- 截距 \(\hat{a}\):回归直线在 \(y\) 轴上的截距,代表自变量 \(x=0\) 时因变量 \(y\) 的期望值。
- 斜率 \(\hat{b}\):直线的斜率,表示自变量 \(x\) 每变动一个单位时,因变量 \(y\) 平均变动的大小。
计算公式: 首先定义三个关键的中间量:
- 自变量离差平方和:\(\displaystyle l_{xx} = \sum x_i^2 - \frac{1}{N}(\sum x_i)^2\)
- 因变量离差平方和:\(\displaystyle l_{yy} = \sum y_i^2 - \frac{1}{N}(\sum y_i)^2\)
- 协方差项:\(\displaystyle l_{xy} = \sum x_i y_i - \frac{1}{N}(\sum x_i)(\sum y_i)\)
得到斜率和截距公式如下:
3. 回归方程的稳定性⚓︎
回归方程的稳定性描述了回归值及其系数在重复实验中的分散程度。
(1)回归值 \(\hat{y}\) 的稳定性 其稳定性由标准不确定度 \(U(\hat{y})\) 来表述:
(2)回归系数 \(\hat{a}\) 和 \(\hat{b}\) 的稳定性
- 截距 \(\hat{a}\) 的标准不确定度:\(\displaystyle U(\hat{a}) = \sigma \sqrt{\frac{1}{N} + \frac{\bar{x}^2}{l_{xx}}}\)
- 斜率 \(\hat{b}\) 的标准不确定度:\(\displaystyle U(\hat{b}) = \sigma \sqrt{\frac{1}{l_{xx}}}\)
4. 回归直线的简便求法——分组法⚓︎
在不需要极高精度或计算条件受限时,可以使用分组法(平均值法)快速求取回归系数。
具体步骤:
-
将实验数据按自变量 \(x\) 的大小顺序排列。
-
将数据分成个数相等(或接近相等)的两组,每组包含 \(k\) 个点(若总数为 \(N\),则第一组 \(k\) 个,第二组 \(N-k\) 个)。
-
分别计算两组数据的 \(x\) 和 \(y\) 的总和,建立如下两个观测方程组:
- 解此二元一次方程组,即可求得回归系数 \(a\) 和 \(b\)。
这种方法计算量远小于最小二乘法,虽然精度稍低,但在工程初步分析中非常实用。
三、 显著性检验与方差分析⚓︎
建立回归方程后,必须判断该方程是否具有统计学意义。这通常通过方差分析来实现。
1. 平方和的分解(S = U + Q)⚓︎
从数学关系上看,每一个观测值的总偏差可以分解为:
对等式两端平方并求和,由于最小二乘法的特性(交叉项之和为零),可得平方和分解恒等式:
即 \(\displaystyle S = U + Q\)。各部分的物理意义及具体计算公式如下:
总离差平方和 (S):\(\displaystyle S = l_{yy} = \sum_{i=1}^{n}(y_i - \bar{y})^2\)
回归平方和 (U):\(\displaystyle U = \hat{b}l_{xy} = \frac{l_{xy}^2}{l_{xx}}\)
残余平方和 (Q):\(\displaystyle Q = S - U\)
2. F 检验法⚓︎
为了检验回归效果是否显著,我们构造 F 统计量:
判定准则:若 \(F > F_{\alpha}(1, N-2)\),则认为回归显著。
3. 残余标准差⚓︎
残余标准差 \(\sigma\) 衡量了观测点在回归直线周围的分散程度:
四、 回归预测与稳定性⚓︎
利用回归方程进行预测时,预测值 \(\hat{y}\) 的不确定度 \(U(\hat{y})\) 由下式给出:
五、 典型例题解析(例 6.b)⚓︎
已知数据:\(N=34, \bar{x}=150.09, \bar{y}=158.28, l_{xx}=25453, l_{xy}=32325, l_{yy}=50094\)。
求解过程:
-
回归系数:\(\hat{b} = 32325 / 25453 \approx 1.27\), \(\hat{a} = 158.28 - 1.27 \times 150.09 \approx -32.3\)。
-
方差分析:\(U = 41037, Q = 9057, F = 145.0\)。
-
决策:\(F > F_{0.01}(1, 32)=7.50\),高度显著。
六、 非线性回归的线性化变换⚓︎
-
指数函数 \(\displaystyle y = ae^{bx} \Rightarrow \ln y = \ln a + bx\)。
-
幂函数 \(\displaystyle y = ax^b \Rightarrow \lg y = \lg a + b \lg x\)。
-
双曲线函数 \(\displaystyle \frac{1}{y} = a + \frac{b}{x} \Rightarrow\) 令 \(y'=1/y, x'=1/x\)。
通过这些变换,利用一元线性回归理论解决非线性拟合问题。