应用回归分析课程设计 .docx
《应用回归分析课程设计 .docx》由会员分享,可在线阅读,更多相关《应用回归分析课程设计 .docx(24页珍藏版)》请在点石文库上搜索。
1、基千多元线性回归模型对我国钢铁生产的分析摘要: 钢铁工业是国民经济中最重要的基础原材料产业和重要支撑产业。本文根据我国 钢材产量为研究对象,选取可 能影响钢材产量的粗钢产量、发电量、房屋建筑面积、总能源消耗、铁路运输量、对建筑工程的投资和汽车生产量七个因素, 运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和 多重共线性诊断, 用 迭代法消除了自变量之间的自相关。对千多重共线性问题,先 是用逐步回归和剔除变噩的方法,最终转变为用岭回归剔除粗钢产量和发电噩两个变噩解决多重共线性,建立最终的岭回归方程: y = - 2.73 155304 1+ 0.000
2、002 198x3 + 0 . 000007388x4+ 0 . 0000 l0 632x 5 + 0 . 00000 9249 x6 + 0 . 000837960x 7 以 其探究最后进入回归方程的几个变 量在影响钢材生产方面孰轻孰重, 达到学习与生活结合的效果。关键词: 多元线性回归 异方差 自相关 多重共线性 逐步回归 岭回归一、引言中国的钢铁工业历经 50 年的发展,特别是改革开放 30 年以来有了巨大的进步, 取得了举世瞩目的成就。钢铁工业的钢产量增加速度加快、技术水平得到明显提高, 产品结构不断调整,成为名副其实的钢铁大国。1996 年我国钢产量首次超过 1 亿吨大关,跃居世界第
3、一位, 此后我国产量一直保持世界排名第一的位置。2002 年实现钢产噩 1. 8亿吨,到 2003 年钢产量突破 2 亿吨,达到 22234 万吨2004 年全国共产钢 27279 万吨比上年增长 22. 7%, 生铁、钢材的产噩分别达到创记录的 25185 万吨与 29723 万吨(含重复材),同比增长均在 20%以 上。在钢材品种和质量方面, 已经逐步形成能冶铁包括高温合金、精密合金再内的 1000 多个钢材品种, 轧制和加工包括板、带、管、型、线等各种形状的 4 万多个品种规格的钢材; 各项技术经济指标明显提高。钢铁行业是国民经济的支柱产业,是加快实现工业化的先导产业, 其在拉动上下游产
4、业发展、扩大城乡劳动力就业以及推动区域经济发展等方面做出了重要的贡献。虽然 整个现代化建设以传统原材料为主的状况已经发生改变,但 钢铁行业对我国来说仍然是基础工业,直接影响着国民经济的健康发展。可以说钢铁行业的稳定发展是实现我国新 型工业化战略目标的关键一环,其发展水平的高低是衡量我国工业化水平和综合国力高 低的重要标志。随着国际产业的转移和我国国民经济的快速发 展, 我国钢铁工业取得了巨大成就。本文研究了粗钢产量、发电量、房屋建筑面积、总能源消耗量、铁路运输量、对建筑工程的投资以及汽车生产总噩7 个变盈对钢材生产噩的影响,以及 它们之间的关系; 以此可以看出这7 个指标中哪些指标对钢材生产量
5、有着驻足轻重的关系, 哪些指标对钢铁产噩的影响相对较弱。由此, 可以看出怎么样才能使钢材产量更上一层楼, 让钢铁事业有着更加长足且辉煌的发展。二、模型假设l 、假设选取的自变量指标能基本上全面反映钢铁生产;2、假设选取的年份期间没有大的金融市场波动;3 、 假设随机误差& N(O, a 勹。三、符号说明l 、y 表示钢材产量;2、xl 表示粗钢产量;3 、 x2 表示发电噩;4 、 x 3 表 示房屋建筑面积;5 、 x4 表示总能源消耗;6 、 x 5 表 示铁路运输董 ;7、x6 表示对建筑工程投资 ;8 、 x7 表示汽车生产总量;9 、 c 表 示模型的随机误差项。四、模型分析与建立4
6、. 1 多元线性回归模型1. 多元线性回归模型的一般形式设随机变量 y 与一般变量 x, x五,x的 线性回归模 型 为y = /。+/3,x, + p凸 + /3 /xJJ +t ( 4 . 1)其中, j3。/,31,., /3, 是p + I 个未知参数, j3。称为回归常数, /31,/pJ 称 为回归系数。y 称为被解释变量(因变量), X1, X五,xP 是 p 个可以精确测量并控制的一般变量,称 为解释变噩(自变噩)。 6 是随机误差, 与一元线性回 归一样, 对随机误差项我们常假定E (e) = Ovar(&)= CY2( 4 . 2 )称E ( y) = /3。,+ /3,x
7、, + /3凸 +JJx + ( 4. 3)为理论回归方程。对一个实际问题, 如 果 我们获得n 组观测数据(x,;, X;2, Xp ;Y;) , (i= 1, 2, n),则线性回归模型 ( 4. 1 )式可表示为Yi= fJ。+ /J1 XJJ + /J2入1; 2 + + /Jpx Jp + &1) 2 = /3。+ /J,x2, + /32环 +/3,入;2, +2( 4. 4 )写成矩阵形式为Y11 = /3 。,+ /J 心,ii+ /J2X112 + .+ /J尺,l J) +lly = X/3+&( 4 . 5 )其中Y1 llXIIX12XIp/3。|I E。Y2lX21X
8、22X2p/31名y = 1.X=/3 =/32&=务( 4 . 6 )Y,丿lX11)X112X 叩 I/J PIL名X 是一个n x (p + l) 阶矩阵, 称 为回归设计矩阵或资料矩阵。2. 多元线性回归模型的基本假定为了方便地进行模型的参数估计, 对回归方程 ( 4. 4 )式有如下一些基本假定:(1)解释变量Xp X2, , XJJ 是 确 定 性 变 量 , 不 是 随 机 变 量 , 且 要 求rank(X) = p +1 n 。这里的 ra nk (X) = p +1 n ,表明设计矩阵 X 中的自变噩列之间不相关, 样本蛊的个数应大于解释变噩的个数, X 是一满秩矩阵。(
9、2 )随机误差项具有零均值和等方差, 即E(1:;) = O, i = 1,2 ,- , n(j?-, i = j( 4. 7)cov(&;, )=,。i,;j ,i,J=l,2,-,n-这个假定常称为高斯 马尔柯夫条件。E(&;) = 0,假 设 观 测 值 没 有 系 统 错 误 ,随机误差项 &; 的 平均值为 0。随机误差项g 的协方差为 o,表 明 随 机 误 差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关, 并且有相同的精度。( 3 )正态分布的假定条件为 &; N(O, o2-),i = 1,2,-,n(4.8)名,环,& ,相 互 独 立对千多元线性
10、回归的矩阵模型 ( 4. 5 )式, 这个条件便可表示为& N(O, 矿 I,)( 4 . 9)由 上述假定和多元正态分布的性质可知, 随 机 变 量 y 服从n 维正态分布,回归模型( 4. 5 )式的期望向噩) Ol4(E(y) = X/3) l l4(var( y) = 矿I ll因此4. 2 回归参数的普通最小二乘估计Y N(Xj3,CY21 ,)( 4 . 12)线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准 则, 对 方 程 中 的 各 个 参数 进行估计。普通最小二乘就是一种最为常见的统计拟合准则, 在 该 准 则 下 得 到的回归参数的估计称为回归参数
11、的普通最小二乘估计。对 千 ( 4. 5 )式表示的回归模型 y = X/J + E所 谓 最 小 二乘法, 就 是 寻找参数/3。/,Ji, /23. .,. /3p的估计值/Jo,众,肉,凡,使离差平方和Q(/3。,/31/23 , , /3,) = I (y; -/3。,i = I- /3凸- /2JX2;-.- /J,x;,2)达到 极 小 ,即寻找岛众,肉,凡满足Q(/3。,,/3,/23 ,./JJ) =L(Y; -/3。,i = J- /3凸- P凸- - /Jpx;)2几=minL (Y;-/J 。- /3- /3西- .- /3,x; )2( 4. 13)凸fJ。/,J, ,
12、/Ji ,/Ji= I依照 ( 4. 13 )式 求 出的 氏 ,众,危, ,凡就称为回归参数 j3。/,3, /23./3) 的 最 小 二 乘 估 计。+y = /,J.i/,J.,x1+ /3/J凸( 4. 14)凸 +为经验回归方程。五、案例分析5. 1 数据说明原始数据(见附录 1 ) )选取 1990- 2010 年间钢材产量 ( y ) 、粗钢产量 ( X1) 、发电量( X2) 、 房 屋 建 筑 面积( 入3) 、 总 能 源 消 耗( X4) 、 铁 路 运 输 量 ( 入5) 、 对 建 筑 工 程 投资(x6)和 汽 车 生 产 总 量( X7)八 个 指 标 , 以
13、钢 材 产 量为因变噩, 其 余 七 个 为自变噩, 研 究 钢 材 产 盔(y)与 粗 钢 产 虽( Xi) 、发电星( Xz ) 、 房 屋 建筑 面积 ( X3) 、 总 能 源 消耗( X4) 、 铁 路 运 输 噩 ( 入5) 、 对 建 筑 工 程 投 资 ( 入6)和 汽 车 生 产 总 噩 ( 入7)之 间 的 关系 。 数 据 来 源 国 家 统 计 局 网 站 统 计 年 鉴 。5. 2 求解分析5. 2. 1 直接进入法模型RR方调 整R方标准估计的误差Dur bi n- Wa t s o n11 . 000 1. 000. 999529. 4552. 560表 1模型汇
14、总模型汇总b由表 1 可以看出调整后的决定系数旷= 0.999,说明回归方程的拟合优度比较好。表 2方差分析表Anovab模型平方和df均方FS i g.1回归1. 099El071. 569E95598. 148. 000残差364419 6. 5171328 03 22. 8 09总计l. 099El 020由表 2 方差分析表可以看出, F 检验的检验值 F=5598. 148 非常大, 再看 F 检验的 P 值=l.41E- 2 巨 0. 000 ,可知此回归方程高度显著, 即 做 出 7 个 自变 噩整 体 对 因 变 量 y 产生显著线性影响的判断所犯错误的概率仅为 1. 41E-
15、 2匡0. 000 。表 3系数表系数模型非标准化系数标准系数tSi g.B 的 9 5. 0% 宜 信区间B标准误差试用版下限上限1(常量)-6831. 0553995. 65。-1. 710. 111- 15463. 1321801. 021粗 钢 产 量. 915. 114. 7228. 026. 000. 669l. 161发电量. 541. 436. 2551. 242. 236- . 4001. 482房屋建筑面积- . 016. 019- . 133- . 815. 430- . 058. 026总能源消耗- . 051. 030-. 158-1.689. 115- . 115.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用回归分析课程设计 应用 回归 分析 课程设计
