回归分析相关定义
回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,一般的情形,有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。
相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以下,均有意义。
回归分析的步骤
根据预测目标,确定自变量和因变量
明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。 建立回归预测模型
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
进行相关分析
回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的
预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。 检验回归预测模型,计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
计算并确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
三、一元线性回归模型
对于具有线性因果关系的两个变量,由于有随机因素的干扰,两变量的线性关系中应包括随机误差项,即有:
yabxu (9—3)
对于x某一确定的值,其对应的y值虽有波动,但在大量观察中随机误差的期望值为零,即E()=0,因而从平均意义上说,总体线性回归方程为:
YE(Y)abX (9—4)
上式中,a是回归直线的截距项,即X为0时Y的值,从数学意义上理解,它表示在没有自变量X的影响时,其它各种因素对因变量Y的平均影响;b是回归系数(直线的斜率),表示自变量x每变动一个单位时,因变量Y平均变动b个单位。
我们可通过样本观察值计算参数a、b的估计值,求得参数的估计值后,即求得样本回归方程,用它对总体线性回归方程进行估计。样本回归直线方程又称一元线性回归方程,其表达形式为:
ˆxˆaˆb y (9-5)
ˆ是待定参数a和b的估ˆ表示因变量的估计值(回归理论值)ˆ和b式中:y;a
计值。一元线性回归方程中的待定参数是根据样本数据资料估计确定的。确定回ˆˆ,ˆaˆbˆ及b归方程就是要找出a与b的估计值a使直线y总体看来与所有的散点
ˆ,ˆ与b最接近,即确定最优的a统计学上常采用最小二乘法(Ordinary least squares
estimation,亦称最小平方法)。
设样本回归模型为:
ˆeˆbxyia, n , (9-6) i i1, 2
ˆyyˆbxˆi ii 于是有:eiyia
ˆ取不同值就有不同的样本回归直线,从而有ˆ和b 从式(9-6)可以看出,a
不同的残差ei。为了保证残差最小,希望ei接近于0,但由于有n个ei,还必须考虑总体残差最小,又因为ei可能存在正负相互抵消,ei最小不能真正表达总体残差最小的思想。故此又想到使ei最小,但使ei达到最小,确定参数
ˆ,就是估计使得所ˆ和b估计值的计算较为复杂,最终选择普通最小二乘法确定a
ˆ即: ˆ、b有Y的估计值与观察值的残差平方和ei达到最小的参数a
这就是最小二乘法的基本原理。
由于本书旨在介绍该种方法在统计中的应用,故数学推导过程省略,根据最小二乘法原理,利用微积分中求极值的方法,求得a、b的估计值, 2ˆˆbxi)minQei(yia22ˆnxyxybnx2(x)2aˆb (9-7)
ˆˆ求出后,一元线性回归方程yˆaˆbˆ、b当a便确定了。
单次测量值x1与测定平均值之差的平方的总和,以Q表示,Q值越大,表示测定值之间的差异越大,用偏差平方和表征差异的优点是能充分利用测度数据所提供的信息,缺点是Q随着测定值数目的增多而增大,为了克服这一缺点,用方差S2=Q/f来表征差异的大小,其中f为自由度。如一个测定结果受多个因素影响,则总偏差平方和等于实验误差与各因素(包括固定因素与随机因素)所形成的偏差平方和之总和。
为了明确解释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异称残差,把每个残差的平方后加起来 称为残差平方和,它表示随机误差的效应
意义:
每一点的y值的估计值和实际值的平方差之和称为残差平方和,而y的实际值和平均值的平方差之和称为总平方和。
残差平方和:为了明确解释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异 称残差,把每个残差的平方后加起来 称为残差平方和,它表示随机误差的效应。
回归平方和
总偏差平方和=回归平方和 + 残差平方和。 残差平方和与总平方和的比值越小,判定系数 r2 的值就越大。
残差图的评价
“残差图”以回归方程的自变量为横坐标,以残差为纵坐标,将每一个自变量的残差描在该平面坐标上所形成的图形。当描绘的点围绕残差等于0的直线上下随机散布,说明回归直线对原观测值的拟合情况良好。否则,说明回归直线对原观测值的拟合不理想。
从“残差图”可以直观地看出残差的绝对数值都比较小,所描绘的点都在以0为横轴的直线上下随机散布,回归直线对各个观测值的拟合情况是良好的。说明变量X与y之间有显著的线性相关关系。
相关文章
- 第2章软件生命周期中的测试
- 如何用spss软件处理问卷
- 公共卫生学院353[卫生综合]考试大纲编制
- 回归自然乡村休闲旅游农庄建设项目可行性研究报告
- 基于Logistic回归分析的违约概率预测研究
- 我国实际城镇失业率测算方法研究
- 现金持有水平的动态调整机理研究_基于融资约束视角_岳文忠
- 空间统计及计量方法学习笔记
- 问卷调查的方法用得很广泛
ISTQB初级认证 初级认证 第2章 软件生命周期中的测试 章 作者:郑文强 声明 本课件的开发基于ISTQB Foundation Level Syllabus 本课件的开发基于 (Version 2007). . 本课件为个人开发,只能 ...
如何用spss软件处理问卷(2007-07-02 19:30:04) 转载 标签: spss教程 spss软件 spss问卷处理 分类: 电脑/科技 当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我 ...
中南大学2013年全国硕士研究生入学考试 <卫生综合>考试大纲 本考试大纲由公共卫生学院教授委员会于2012年7月7日通过. I. 考试性质 卫生综合考试是我校公共卫生与预防医学专业招收硕士研究生设置的具有选拔性质的一门入学专业 ...
回归自然乡村休闲旅游农庄建设项目 可 行 性 研 究 报 告 目 录 第一章 总 论 ........................................................... 错误!未定义书签. 1.1 建设单 ...
第30卷第9期 2004年9月财经研究 Journal of Finance and Economics Vol 130No 19 Sep 12004 基于Logistic 回归分析的违约 概率预测研究 于立勇, 詹捷辉12 (11北京大学 ...
摘要:就业作为经济和社会发展的优先目标和民生之本,其重要性不言而喻,但我国当前所采用的城镇登记失业率指标难以反映真实的就业状况.为此,本文引入名义国内生产总值指数和人口因素作为参数构建模型,测算我国1990-2014年实际城镇失业率,进而检 ...
2016年第1期 Journal of Chongqing University of Science and Technology (Social Sciences Edition ) 重庆科技学院学报(社会科学版) No. 12016 ...
空间统计及计量方法学习笔记 1. 背景及文献综述 ....................................................... 2 2. 空间效应 ............................. ...
问卷调查的方法用得很广泛,第一步面临的就是问卷编码问题,有很多外专业的同学都在问这个问题,现在通过举例的方法详细讲解如下,以方便第一次接触SPSS的同学也能做简单的分析.后面还有分析时的操作步骤,以及比较适用的深入统计分析方法的简单介绍.自 ...