回归是确定因变量和一组自变量之间的关系的过程。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。本文会通过EXCEL构建一个多元线性回归模型,来预测广告投入对销售的影响。本文的主要内容包括:

  • 线性回归的基本概念
  • 回归模型的重要参数
  • 多元线性回归模型案例
  • 谁发明了最小二乘法

线性回归的基本概念

给定由d个属性描述示例x=(x1;x2;…;xd),其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即

f(x)=w1x1+w2x2+…+wdxd+b

其中,b为常数项,w1,w2..wd为偏回归系数

上述的公式中w与b是未知的,那么该如何求解w与b呢?通过均方误差来进行求解,即最小二乘法,在线性模型中最小二乘法就是试图找到一条直线,使所有样本到直线的欧式距离之和最小。

回归模型的重要参数

  • R^2判定系数

R平方即R的平方,又可以叫判定系数、拟合优度,取值范围是[0,1],R平方值越大,表示模型拟合的越好。一般大于70%表示拟合较好,60%以下的就需要修正模型了

  • 调整的R^2判定系数

这个值是用来修正因自变量个数增加而导致模型拟合效果过高的情况,多用于衡量多重线性回归。

  • F值

Significance F是回归方程总体的显著性检验,F检验主要是检验因变量与自变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当,越小越显著。

  • 残差

残差是实际值与预测值之间的差,残差图用于回归诊断,回归模型在理想条件下的残差图是服从正态分布的。

  • P值

用来检验回归方程系数的显著性,一般以此来衡量检验结果是否具有显著性,如果P值>0.05,则结果不具有显著的统计学意义,如果0.01<P值<0.05,则结果具有显著的统计学意义,如果P<=0.01,则结果具有极其显著的统计学意义。

多元线性回归模型案例

构建模型

假设有如下的广告投入与销售收入的数据,[电视渠道,地铁渠道,搜索渠道, 销售额]。该表显示了在不同渠道广告投入与销售额之间的关系。具体如下表:

电视渠道 地铁渠道 搜索渠道 销售额
230.1 37.8 69.2 22.1
44.5 39.3 45.1 10.4
17.2 45.9 69.3 12
151.5 41.3 58.5 16.5
180.8 10.8 58.4 17.9
8.7 48.9 75 7.2
57.5 32.8 23.5 11.8
120.2 19.6 11.6 13.2
8.6 2.1 1 4.8

上述的数据有多个变量,我们先简化一下,假设只有两个变量,比如查找电视渠道广告与销售额之间的关系。最直接的办法就是绘制一个散点图,通过散点图观察两个变量之间是否有相关关系。

假设具有相关关系,那么该如何量化呢,同样很简单,只需要绘制一条最适合散点图中显示的所有点的直线,该直线方程式就是两个变量之间的关系,这就是回归的基本思想,即通过使用函数拟合所有点来量化变量之间的关系。

上面描述的示例成为简单线性回归,它涉及一个自变量和一个因变量。我们可以将相同的回归概念扩展到多个自变量,称之为多元线性回归。如上表的数据,存在3个因变量,虽然无法在2维平面上可视化他们之间的关系,但是线性回归的概念仍然可以用于确定这些点的最佳拟合函数

下面将使用EXCEL进行多元线性回归分析

  • 首先添加数据分析工具库

默认情况下,Data Analysis ToolPak不可用,您需要单独激活该加载项。要激活,请转到文件->选项->加载项,然后激活分析工具库。激活加载项后,该加载项应显示在工具栏的“ 数据”选项卡下。

  • 执行回归分析

选择回归之后,确定之后,再选择数据集,点击确定

模型分析

上述会构建一个多元线性回归模型,具体分析如下:

上面第三张表,第一列就是系数。此列提供了多元线性回归方程式中每个变量的系数值。

销售额= 0.0544 *(电视渠道)+ 0.1070 *(地铁渠道)+ 0.0003 *(搜索渠道)+ 4.6251

预测

预测模型是通过为自变量提供值来预测因变量值的过程。上述的多元线性回归方程是预测模型函数,如果我们输入自变量的值,则可以得到销售额的预测值。

例如,如果要预测以下广告支出组合的销售收入,

电视渠道= 100

地铁渠道= 200

搜索渠道= 500

将值输入多元线性回归方程式。这将为您带来31.6377的销售收入,这是预期的收入。

谁发明了最小二乘法

1801年,意大利天文学家皮亚齐发现了1号小行星“谷神星”,但在跟踪观测了40天后,因谷神星转至太阳背后,皮亚齐失去了谷神星的位置。许多天文学家试图重新找到谷神星,但都徒劳无获。这引起了德国数学家高斯的注意,他发明了一种方法,根据皮亚齐的观测数据计算出了谷神星的轨道,后来德国天文学家奥博斯在高斯语言的时间和星空领域重新找到了谷神星。1809年,高斯在他的著作《天体运动论》中发表了这种方法,即最小二乘法。

1805年,在椭圆积分、数论和几何方面都有重大贡献的法国数学家勒让德发表了《计算彗星轨道的新方法》,其附录中描述了最小二乘法,勒让德是法国18-19世纪数学界的三驾马车之一,早已是法国科学院院士。但勒让德的数中没有涉及最小二乘法的误差分析,高斯在1809年的著作中包括了这方面的内容,这对最小二乘法用于数理统计、乃至今天的机器学习有着极为重要的意义。由于高斯的这一重大发现,以及他声称自己在1799年就已经开始用这个方法,因此很多人将最小二乘法的发明优先权归之为高斯。当时这两位大数学家发生了著名的优先权之争,此后有许多数学史家专门进行研究,但至今也没弄清楚到底是谁最先发明了最小二乘法。