回归分析相关定义

回归分析是一类数学模型，特别当因变量和自变量为线性关系时，它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量，且它们大体上有线性关系，这叫一元线性回归，即模型为Y＝a＋bX＋ε，这里X是自变量，Y是因变量，ε是随机误差，一般的情形，有k个自变量和一个因变量，因变量的值可以分解为两部分：一部分是由自变量的影响，即表示为自变量的函数，其中函数形式已知，但含一些未知参数；另一部分是由于其他未被考虑的因素和随机性的影响，即随机误差。当函数形式为未知参数的线性函数时，称线性回归分析模型；当函数形式为未知参数的非线性函数时，称为非线性回归分析模型。

相关分析研究的是现象之间是否相关、相关的方向和密切程度，一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式，确定其因果关系，并用数学模型来表现其具体关系。两个变量之间到底是哪个变量受哪个变量的影响，影响程度如何，则需要通过回归分析方法来确定。一般来说，回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测数据；如果能够很好的拟合，则可以根据自变量作进一步预测。

R2又称为方程的确定性系数（coefficient of determination），表示方程中变量X对Y的解释程度。R2取值在0到1之间，越接近1，表明方程中X对Y的解释能力越强。通常将R2乘以100％来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的，通过显著性水平（significant level）检验回归方程的线性关系是否显著。一般来说，显著性水平在0.05以下，均有意义。

回归分析的步骤

根据预测目标，确定自变量和因变量

明确预测的具体目标，也就确定了因变量。如预测具体目标是下一年度的销售量，那么销售量Y就是因变量。通过市场调查和查阅资料，寻找与预测目标的相关影响因素，即自变量，并从中选出主要的影响因素。建立回归预测模型

依据自变量和因变量的历史统计资料进行计算，在此基础上建立回归分析方程，即回归分析预测模型。

进行相关分析

回归分析是对具有因果关系的影响因素（自变量）和预测对象（因变量）所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时，建立的回归方程才有意义。因此，作为自变量的因素与作为因变量的

预测对象是否有关，相关程度如何，以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。进行相关分析，一般要求出相关关系，以相关系数的大小来判断自变量和因变量的相关的程度。检验回归预测模型，计算预测误差

回归预测模型是否可用于实际预测，取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验，且预测误差较小，才能将回归方程作为预测模型进行预测。

计算并确定预测值

利用回归预测模型计算预测值，并对预测值进行综合分析，确定最后的预测值。

三、一元线性回归模型

对于具有线性因果关系的两个变量，由于有随机因素的干扰，两变量的线性关系中应包括随机误差项，即有：

yabxu （9—3）

对于x某一确定的值，其对应的y值虽有波动，但在大量观察中随机误差的期望值为零，即E()=0，因而从平均意义上说，总体线性回归方程为：

YE(Y)abX （9—4）

上式中，a是回归直线的截距项，即X为0时Y的值，从数学意义上理解，它表示在没有自变量X的影响时，其它各种因素对因变量Y的平均影响；b是回归系数（直线的斜率），表示自变量x每变动一个单位时，因变量Y平均变动b个单位。

我们可通过样本观察值计算参数a、b的估计值，求得参数的估计值后，即求得样本回归方程，用它对总体线性回归方程进行估计。样本回归直线方程又称一元线性回归方程，其表达形式为：

ˆxˆaˆb y (9－5)

ˆ是待定参数a和b的估ˆ表示因变量的估计值（回归理论值）ˆ和b式中：y；a

计值。一元线性回归方程中的待定参数是根据样本数据资料估计确定的。确定回ˆˆ，ˆaˆbˆ及b归方程就是要找出a与b的估计值a使直线y总体看来与所有的散点

ˆ，ˆ与b最接近，即确定最优的a统计学上常采用最小二乘法（Ordinary least squares

estimation,亦称最小平方法）。

设样本回归模型为：

ˆeˆbxyia, n , （9－6） i i1, 2

ˆyyˆbxˆi ii 于是有：eiyia

ˆ取不同值就有不同的样本回归直线，从而有ˆ和b 从式（9－6）可以看出，a

不同的残差ei。为了保证残差最小，希望ei接近于0，但由于有n个ei，还必须考虑总体残差最小，又因为ei可能存在正负相互抵消，ei最小不能真正表达总体残差最小的思想。故此又想到使ei最小，但使ei达到最小，确定参数

ˆ，就是估计使得所ˆ和b估计值的计算较为复杂，最终选择普通最小二乘法确定a

ˆ即： ˆ、b有Y的估计值与观察值的残差平方和ei达到最小的参数a

这就是最小二乘法的基本原理。

由于本书旨在介绍该种方法在统计中的应用，故数学推导过程省略,根据最小二乘法原理，利用微积分中求极值的方法，求得a、b的估计值， 2ˆˆbxi)minQei(yia22ˆnxyxybnx2(x)2aˆb （9－7）

ˆˆ求出后，一元线性回归方程yˆaˆbˆ、b当a便确定了。

单次测量值x1与测定平均值之差的平方的总和，以Q表示，Q值越大，表示测定值之间的差异越大，用偏差平方和表征差异的优点是能充分利用测度数据所提供的信息，缺点是Q随着测定值数目的增多而增大，为了克服这一缺点，用方差S2=Q/f来表征差异的大小，其中f为自由度。如一个测定结果受多个因素影响，则总偏差平方和等于实验误差与各因素（包括固定因素与随机因素）所形成的偏差平方和之总和。

为了明确解释变量和随机误差各产生的效应是多少，统计学上把数据点与它在回归直线上相应位置的差异称残差，把每个残差的平方后加起来称为残差平方和，它表示随机误差的效应

意义：

每一点的y值的估计值和实际值的平方差之和称为残差平方和,而y的实际值和平均值的平方差之和称为总平方和。

残差平方和：为了明确解释变量和随机误差各产生的效应是多少，统计学上把数据点与它在回归直线上相应位置的差异称残差，把每个残差的平方后加起来称为残差平方和，它表示随机误差的效应。

回归平方和

总偏差平方和=回归平方和 + 残差平方和。残差平方和与总平方和的比值越小，判定系数 r2 的值就越大。

残差图的评价

“残差图”以回归方程的自变量为横坐标，以残差为纵坐标，将每一个自变量的残差描在该平面坐标上所形成的图形。当描绘的点围绕残差等于0的直线上下随机散布，说明回归直线对原观测值的拟合情况良好。否则，说明回归直线对原观测值的拟合不理想。

从“残差图”可以直观地看出残差的绝对数值都比较小，所描绘的点都在以0为横轴的直线上下随机散布，回归直线对各个观测值的拟合情况是良好的。说明变量X与y之间有显著的线性相关关系。

回归分析相关定义

相关文章