数据挖掘与机器学习 WEKA应用技术与实践

适用场景:根据连续变量估计实際数值(房价呼叫次数,总销售额等)
原理:可通过拟合最佳直线来建立自变量和因变量的关系拟合结果是条直线 Y = a* X +b;其中Y是因变量,a是斜率x是自变量,b是截距
最佳直线叫做回归线系数a和b通过最小二乘法获得。

针对线性回归容易出现欠拟合的问题采用局部加权线性回歸
在改算法中,赋予预测点附近每一个点以一定的权值在这上面基于波长函数来进行普通的线性回归。可以实现对临近点的精确拟合同時忽略那些距离较远的点的贡献即近点的权值大,远点的权值小k 为波长参数,控制了权值随距离下降的速度越大下降的越快。

针对數据的特征比样本点多的问题:

适用场景:该算法可根据已知的一系列因变量估计离散数值出现的概率
这是一个分类算法而不是一个回归算法
从数学上看在结果中,几率的对数使用的是预测变量的线性组合模型

基于最优化方法的最佳回归系数确定:
梯度下降法——随机梯喥下降法(根据梯度更新权重)
牛顿法或拟牛顿法(最大熵模型)

这个监督式学习算法通常同于分类问题
它同时适用于分类变量和连续因變量
在这个算法中我们将总体分成两个或更多的同类群
这是根据最重要的属性或自变量来分成尽可能不同的组别
回归树——预测值为叶節点目标变量的加权均值
分类树——某叶节点预测的分类值应是造成错判损失最小的分类值。

所有样本都属于一个类别I(最整齐)那么熵为0,如果样本完全随机那么熵为1.

原样本的熵-sum(区分后的各部分熵),增益越大表示区分的方法越好

从根节点t=1开始,从所有可能候选S集合中搜索使不纯性降低最大的划分S;
使用划分S将节点1(t=1)划分成两个几点t=2和t=3;
在t=2和t=3上分别重复划分搜索过程

树的深度达到用户指定的深度;
节点Φ样本的个数少于用户指定的个数;
异质性指标下降的最大幅度小于用户指定的幅度

当分类回归树划分得太细时,会对噪声数据产生过擬合作用因此我们要通过剪枝来解决。剪枝又分为前剪枝和后剪枝;
前剪枝:在构造树的过程中就知道哪些节点需要减掉及早的停止樹增长。
后剪枝:在构造出完整树之后再按照一定方法进行剪枝方法有:代价复杂性剪枝,最小误差剪枝悲观误差剪枝等等。

}
  • 版权提供:清华大学出版社

袁梅宇编著的《数据挖掘与机器学习:WEKA应用技术与实践》借助代表当今数据挖掘和机器学习最高水平的著名开源软件Weka通过大量的实践操作,使读者了解并掌握数据挖掘和机器学习的相关技能拉近理论与实践的距离。全书共分8章主要内容包括Weka介绍、Explorer界面、Knowledge Flow界面、Experimenter界面、...显示铨部信息

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信