• 加入Google Analytics、Google Tag Manager QQ群一起交流谷歌分析小站—总群
  • 加入Adobe Analytics、Adobe Launch交流群,加入请附上Adobe的组织ID,没有请勿加Adobe Analytics交流群
  • Google Analytics和Google Tag Manager视频课程第三版http://ke.ichdata.com/course/50

机器学习-线性回归与Logistic

算法 GA小站 4年前 (2016-11-23) 4825次浏览 已收录 0个评论

变量间的关系:
      不确定:相关关系,通常用相关系数表示,相关系数的取值范围是[-1,1],大于0 表示正相关,小于0表示负相关;绝对值接近于1,表示相关性越强
       确定:函数关系,通常用公式表示:Y=a+bX,通常也叫线性回归
线性回归

一元线性回归Y=a+bX
求解参数通常是通用最小线性二乘法求解参数a和b
检验通常包含:方程检验,拟合度用R^2,RSS,方程显著性用P-value,
参数检验:方差分析,用P-value
实际意义检验:是否符合实际
残差检验:是否符合正太分布

多元线性回归Y=a+b1X1+b2X2……
1、导入数据,查看数据结构和分布:head和summary函数
2、数据预处理与变量选择
数据预处理:缺失值处理,平滑噪声,异常值检验,虚拟变量等
变量选择:相关系数,相关系数越接近于1的,选择1个变量就够;尽量选择变量组合数量比较少的,能够提高R^2
Kappa值,大于1000,存在多重共线性
Pairs图,通过目测图形去做对变量做选择
3、逐步回归建模:向前,向后,两者
模型选择:AIC,BIC,越小越好
4、模型检验
方程检验,拟合度用R^2,RSS,方程显著性用P-value,
参数检验:方差分析,用P-value或T值
实际意义检验:是否符合实际
残差检验:是否符合正太分布,越大越好
5、预测

Logistic回归:能够转化为线性回归,将离散变量转成连续变量

广义线性回归(GLM):通过函数转化,能用现有的线性回归规则使用的回归
指数
对数
幂函数
倒数

喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址