简单线性回归
Aaron · 2010-08-04 23:03 · 33494 次点击
在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。一个带有一个自变量的线性回归方程代表一条直线。我们需要对线性回归结果进行统计分析。
理论模型
给定一个随机样本,一个线性回归模型假设回归子Yi和回归量之间的关系可能是不完美的。我们加入一个误差项(也是一个随机变量)来捕获除了之外任何对Yi的影响。所以一个多变量线性回归模型表示为以下的形式:
其他的模型可能被认定成非线性模型。一个线性回归模型不需要是自变量的线性函数。线性在这里表示Yi的条件均值在参数β里是线性的。例如:模型在β1和β2里是线性的,但在里是非线性的,它是Xi的非线性函数。
数据和估计
区分随机变量和这些变量的观测值是很重要的。通常来说,观测值或数据(以小写字母表记)包括了n个值.我们有p+1个参数需要决定,为了估计这些参数,使用矩阵表记是很有用的。其中Y是一个包括了观测值的列向量,包括了未观测的随机成份以及回归量的观测值矩阵X:X通常包括一个常数项。如果X列之间存在线性相关,那么参数向量β就不能以最小二乘法估计除非β被限制,比如要求它的一些元素之和为0。
古典假设
样本是在总体之中随机抽取出来的。因变量在实直线上是连续的,残差项是独立同分布的,也就是说,残差是i.i.d.且服从高斯分布。这些假设意味着残差项不依赖自变量的值,所以和自变量(预测变量)之间是相互独立的。在这些假设下,建立一个显示线性回归作为条件预期模型的简单线性回归。
最小二乘法估计
回归分析的最初目的是估计模型的参数以便达到对数据的最佳拟合。在决定一个最佳拟合的不同标准之中,最小二乘法是非常优越的。