统计学:回归分析

线性回归是用来建立自变量和因变量之间的模型,针对1个自变量的线性回归,我们称之为简单回归,最近学了简单回归(其实还学了决策树,但能力不足先不整理0.0)。

最小二乘法

针对一堆看似有规律的数据,是否可以使用一条线把他们连起来,从而之后根据自变量预测因变量?

如上面这幅图使用了一条直线来贯穿全部的点,之后我们在知道自变量的情况,就可以去预测因变量了,如温度和冰饮料的销量,我们如果有一条预测的直线,那么就可以根据当天的温度,去预测冰饮料的销量。

这条直线的表达式是:

那么问题是我们该如何去得出这条线呢,且这条线造成的误差是最小的,答案是有的,就是使用最小二乘法(least squares method)来去描述他们之间的关系。在这里我们使用来去描述预测值,Y表示原来的观测值。

设有有以下的情景:

1570766691337

有人得到一份当地的收入(X)和销售额(Y)之间的关系,认为收入会影响到销售额,利用最小二乘法算出它们之间的关系,得出结果如下,之后我们还会用这个例子。

相关性

刚刚我们算出来模型,但是我们怎么知道自变量和因变量之间的相关性呢?可以使用决定系数来求出他们的关系。

这里我们先引入三个误差的指标。

总平方和

总平方和(sum of squares of total)用来计算观测值和平均值的总误差。

回归平方和

回归平方和(sum squares of regression)用来计算预测值和平均值的总误差。

残差平方和

残差平方和(/blog/img/statistics/regression/sum squares of errors)用来计算预测值和观测值之间的总误差。

三者的关系可以通过下图来大致表现一下:

1570610045827

决定系数

决定系数(coefficient of determination)用来表示自变量和因变量之间的相关性

数值越接近1,就证明两者之间的相关性更高。

在例子里算出这个值是:0.6944

残差图

虽然我们可以使用最小二乘法求出线性曲线,还有根据相关系数去看相关性,但是我们还是不知道这条回归线是否适合这个模型,说不定用曲线更适合呢,这时候就引入了残差图(residual plot)去判断这个模型,残差是指预测值与观测值之间的差异,我们将根据全部的观测值整理出残差整理,画成图。

img

正常而言,残差应该会围绕着预测值上下波动,就像身高,和正态分布一样,个体值会围绕着平均值均匀地上下波动,否则,证明当前的回归不适合这个预测。

F检验

即便我们用了以上的方法求出了回归的公式和相关性,但是我们还是不敢确定得到的结论是否是偶然的,因为极有可能因为数据量少,而得出了两者之间有关系的结论。

虚无假设

统计学家通过一些方法,可以算出两者之间完全没关系的概率,这个完全没关系的假设在学术上叫做虚无假设null hypothesis,也就是H0

然后我们还要选一个显著值α,一般选0.05或者0.01,如果算出来的概率低于α,那么我们认为可以否定虚无假设H0,也就是两者之间是有关系的,否则不能说明两者之间是否有关系。

均方误差

这里先引入均方误差(mean square error)的概念,这个东西首先是算出虚无假设的概率的参数之一,其次可以用来表示预测数据和原始数据之间的误差均值。

其中SSE在上面有给出算法,n是样本的数量,k是自由度。

上面例子算出MSE=1.7188

F值

F值可以拿来根据F分布去找到H0的概率。

F值的计算如下:

首先F值的计算需要计算MSE和MSR,其中MSR计算如下,k是自由度:

在上面的例子中,F值计算为9.09。

而F分布的图所表现需要看两个参数df1df2,其中n是样本的数量,k是自由度:

在上面例子中,df1为1,df2为4,对应F分布为:

选择显著值α为0.05,对应的概率为0.05的F值为7.71,对应df1为1,df2为4的那个数据。

而在F分布中,0.05的值的计算是按照右边面积来算的,所以只要是F值大于0.05对应的7.71,虚无假设的概率都比0.05小,也就是只要F值比7.71大的,我们都可以回绝虚无假说H0。