• 欢迎访问GA小站,请加入我们的GA和GTM交流群网站分析@GA小站
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏GA小站
  • 旧站点维护到2017年9月,传送门:http://blog.ichdata.com
  • 各位不要通过QQ来问问题(每天消息太多),如有问题凡请直接在各相关帖子下面留言,我会回答大家的问题的。

标签:机器学习

NLP

自然语言处理与文本挖掘(3)——统计语言模型

自然语言处理与文本挖掘(3)——统计语言模型
基于以下语料建立语言模型 研究生物很有意思 他大学时代是研究生物的 生物专业是他的首选目标 他是研究生 1)以“字”作为基元计算出现句子“他是研究生物的”的概率 2)以“词”作为基元分别计算出现句子“他 是 研究 生物 的”和“他 是 研究生 物 的”的概率 注意2)中用空格标识的不同分词方法,如果出现概率为0的情况,请使用适当的平滑方法处理 ……继续阅读 »

GA小站 4周前 (12-25) 2浏览 0评论 0个赞

NLP

自然语言处理与文本挖掘(2)——乔姆斯基的形式语法

自然语言处理与文本挖掘(2)——乔姆斯基的形式语法
基于以下语料建立语言模型 研究生物很有意思 他大学时代是研究生物的 生物专业是他的首选目标 他是研究生 1)以“字”作为基元计算出现句子“他是研究生物的”的概率 2)以“词”作为基元分别计算出现句子“他 是 研究 生物 的”和“他 是 研究生 物 的”的概率 注意2)中用空格标识的不同分词方法,如果出现概率为0的情况,请使用适当的平滑方法处理 ……继续阅读 »

GA小站 1个月前 (12-19) 2浏览 0评论 0个赞

NLP

自然语言处理与文本挖掘(1)——数学基础

自然语言处理与文本挖掘(1)——数学基础
最近开始学自然语言处理与文本挖掘方面的东西,随着课程按自己的理解做些总结。 集合:一定范围内确定的,并且彼此可以区分的对象汇集在一起形成的整体 集合由元素或子集构成,之间的是包含 集合的表示方法:列举放和命题法 列举法:列出所有的元素 命题法;函数式表达 分类:有限集和无穷集,无穷集可以分为可数和不可数 可数不可数取决于基数是否有限 集合之间的关系: 包含&……继续阅读 »

GA小站 2个月前 (12-05) 4浏览 0评论 0个赞

算法

机器学习—岭回归,Lasso,变量选择技术

机器学习—岭回归,Lasso,变量选择技术
上一节介绍了在多元回归中变量选择的三种方法,但如果b的估计出现伪逆时,也就是奇异性 前面的方法可能就不适用,通常有两种情况:1、变量比样本多;2、出现共线性。第二种情况,前面的方法还是适用的,但第一种情况,前面的方法就不适用了,需要给b的估计计算加上惩罚函数。            岭回归(Ridge Regression)就是在出现上述两种情况的处理方法……继续阅读 »

GA小站 2个月前 (11-24) 5浏览 0评论 0个赞

算法

机器学习-线性回归与Logistic

机器学习-线性回归与Logistic
变量间的关系:       不确定:相关关系,通常用相关系数表示,相关系数的取值范围是[-1,1],大于0 表示正相关,小于0表示负相关;绝对值接近于1,表示相关性越强        确定:函数关系,通常用公式表示:Y=a+bX,通常也叫线性回归 线性回归: 一元线性回归:Y=a+bX 求解参数通常是通用最小线性二乘法求解参数a和b 检验通常包含:方程检验,……继续阅读 »

GA小站 2个月前 (11-23) 2浏览 0评论 0个赞