偏最小二乘法
仪器信息网 · 2009-09-04 08:30 · 38263 次点击
最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。
偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析
与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。
多重相关性的诊断
1经验式诊断方法
1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反。
3、对重要自变量的回归系数进行t检验,其结果不显著。
特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。
4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。
5、重要自变量的回归系数置信区间明显过大。
6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。
但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。
2方差膨胀因子
最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量xj的方差膨胀因子记为(VIF)j,它的计算方法为
(4-5)(VIF)j=(1-Rj2)-1
式中,Rj2是以xj为因变量时对其它自变量回归的复测定系数。
所有xj变量中最大的(VIF)j通常被用来作为测量多重相关性的指标。一般认为,如果最大的(VIF)j超过10,常常表示多重相关性将严重影响最小二乘的估计值。
(VIF)j被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。
不妨假设x1,x2,…,xp均是标准化变量。采用最小二乘法得到回归系数向量B,它的精度是用它的方差来测量的。B的协方差矩阵为
Cov(B)=σ2(X'X)-1
式中,σ2是误差项方差。所以,对于回归系数bj,有
Var(bj)=σ2cjj
cjj是(X'X)-1矩阵中第j个对角元素。可以证明,
cjj=(VIF)j
岭回归分析
1岭回归估计量
岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。
根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。
在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为
rXXb=ryX
式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。
岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+
(4-8)(rXX+cI)bR=ryX
所以,在岭回归分析中,标准化回归系数为
(4-9)bR=(rXX+cI)-1ryX
2岭回归估计量的性质
(1)岭回归系数是一般最小二乘准则下回归系数的线性组合,即
(4-10)bR=(I+crXX-1)-1b
(2)记β是总体参数的理论值。当β≠0时,可以证明一定存在一个正数c0,使得当0
(4-11)E||bR-β||2≤E||b-β||2
(3)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即
(4-12)||bR||=w2'E1'F1c2
w2是对应于E1'F1F1'E1矩阵最大特征值的单位特征向量,而c2是对应于F1'E1E1'F1矩阵最大特征值θ22的单位特征向量。计算回归系数
p2=E1't2/||t2||2
r2=F1't2/||t2||2
因此,有回归方程
E1=t2p2'+E2
F1=t2r2'+F2
如此计算下去,如果X的秩是A,则会有
(7-16)E0=t1p1'+…+tApA'
(7-17)F0=t1r1'+…+tArA'+FA
由于t1,…,tA均可以表示成E01,…,E0p的线性组合,因此,式(7-17)还可以还原成yk*=F0k关于xj*=E0j的回归方程形式,即
yk*=αk1x1*+…+αkpxp*+FAk,k=1,2,…,q
FAk是残差矩阵FA的第k列。
3交叉有效性
如果多一个成分而少一个样本的预测误差平方和(所有因变量和预测样本相加)除以少一个成分的误差平方和(所有的因变量和样本相加)小于0.952,则多一个成分是值得的。
4一种更简洁的计算方法
用下述原则提取自变量中的成分t1,是与原则式(7-1)的结果完全等价的,即
(7-24)
(1)求矩阵E0'F0F0'E0最大特征值所对应的单位特征向量w1,求成分t1,得
t1=E0w1
E1=E0-t1p1'
式中,p1=E0't1/||t1||2
(2)求矩阵E1'F0F0'E1最大特征值所对应的单位特征向量w2,求成分t2,得
t2=E1w2
E2=E1-t2p2'
式中,p2=E1't2/||t2||2
……
(m)至第m步,求成分tm=Em-1wm,wm是矩阵Em-1'F0F0'Em-1最大特征值所对应的单位特征向量.
如果根据交叉有效性,确定共抽取m个成分t1,…,tm可以得到一个满意的观测模型,则求F0在t1,…,tm上的普通最小二乘回归方程为
F0=t1r1'+…+tmrm'+Fm
偏最小二乘回归的辅助分析技术
1精度分析
定义自变量成分th的各种解释能力如下
(1)th对某自变量xj的解释能力
(8-1)Rd(xj;th)=r2(xj,th)
(2)th对X的解释能力
(8-2)Rd(X;th)=/p
(3)t1,…,tm对X的累计解释能力
(8-3)Rd(X;t1,…,tm)=Rd(X;t1)+…+Rd(X;tm)
(4)t1,…,tm对某自变量xj的累计解释能力
(8-4)Rd(xj;t1,…,tm)=Rd(xj;t1)+…+Rd(xj;tm)
(5)th对某因变量yk的解释能力
(8-5)Rd(yk;th)=r2(yk,th)
(6)th对Y的解释能力
(8-6)Rd(Y;th)=/q
(7)t1,…,tm对Y的累计解释能力
(8-7)Rd(Y;t1,…,tm)=Rd(Y;t1)+…+Rd(Y;tm)
(8)t1,…,tm对某因变量yk的累计解释能力
(8-8)Rd(yk;t1,…,tm)=Rd(yk;t1)+…+Rd(yk;tm)
2自变量xj在解释因变量集合Y的作用
xj在解释Y时作用的重要性,可以用变量投影重要性指标VIPj来测度
VIPj2=p/
式中,whj是轴wh的第j个分量。注意VIP12+…+VIPp2=p
3特异点的发现
定义第i个样本点对第h成分th的贡献率Thi2,用它来发现样本点集合中的特异点,即
(8-10)Thi2=thi2/((n-1)sh2)
式中,sh2是成分th的方差。
由此,还可以测算样本点i对成分t1,…,tm的累计贡献率
(8-11)Ti2=T1i2+…+Tmi2
当
Ti2≥m(n2-1)F0.05(m,n-m)/(n2(n-m))
时,可以认为在95%的检验水平上,样本点i对成分t1,…,tm的贡献过大。
单因变量的偏最小二乘回归模型
1简化算法
第一步已知数据E0,F0,由于u1=F0,可得
w1=E0'F0/||E0'F0||
t1=E0w1
p1=E0't1/||t1||2
E1=E0-t1p1'
检验交叉有效性。若有效,继续计算;否则只提取一个成分t1。
第h步(h=2,…,m)已知数据Eh-1,F0,有
wh=Eh-1'F0/||Eh-1'F0||
th=Eh-1wh
ph=Eh-1'th/||th||2
Eh=Eh-1-thph'
检验交叉有效性。若有效,继续计算h+1步;否则停止求成分的计算。
这时,得到m个成分t1,…,tm,实施F0在t1,…,tm上的回归,得
F0^=r1t1+…+rmtm
由于t1,…,tm均是E0的线性组合,即
th=Eh-1wh=E0wh*
所以F0^可写成E0的线性组合形式,即
F0^=r1E0w1*+…+rmE0wm*=E0
最后,也可以变换成y对x1,…,xp的回归方程
y^=α0+α1x1+…+αpxp