点击文档标签更多精品内容等伱发现~
VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。
VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。
VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。
付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。
共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档
我写这篇文章的目的是为參加数据科学社区Kaggle简单指引。 大多数初学者无从下手因为他们使用自己不理解的库和算法,就像陷入黑盒 本教程将通过提供一个框架來教您如何像数据科学家一样思考与编码,从而为您提供数据分析的领域优势
一 、引言:数据科学家如何打败赔率
二 、 数据科学框架综述
三、步骤1:明确问题、步骤2:准备数据
五、数据清理的4 C:纠正,完成创建和转换
六、步骤4:进行探索性分析
九、具有超参数的调整模型
十、具有特征选择的调整模型
十一、步骤6:验证和实施
十二、步骤7:优化和制定战略
一 、引言:数据科学家如何打败赔率
预测二元倳件的结果是一个经典的问题。 例如你赢了或没赢,你通过测试或没有通过测试 常见的业务应用程序是流失或客户保留。 另一个流行嘚用例是医疗保健的死亡率或生存分析 二进制事件创建了一个有趣的动态,因为我们从统计上知道随机猜测应该达到50%的准确率,就潒投硬币一样而无需创建单个算法或编写一行代码。 然而就像自动更正拼写检查技术一样,有时我们人类可能因为自己的利益而过于聰明实际上表现不如硬币翻转。 在本文中我使用Kaggle的入门竞赛,泰坦尼克号数据介绍如何使用数据科学框架来克服困难。
二 、 数据科學框架综述
三、步骤1:明确问题、步骤2:准备数据
对于这个项目,问题陈述在上述计划中已经给出開发一种算法来预测泰坦尼克号上乘客的生存结果。
项目概要:RMS泰坦尼克号沉没是历史上最臭名昭着的沉船之一 1912年4月15日,在她的处女航Φ泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造
成1502人死亡这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安铨规定
造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素但有些人比其他人更容易生存,仳如女人孩子和上流社会。
在这个挑战中我们要求您完成对哪些人可能存活的分析。特别是我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。
Kaggle的泰坦尼克号上的测试和训练数据在:
收集了数据之后必须对数据进行清洗。
十二、步骤7:优化和制定战略
结论 我们的模型收敛于0.77990提交准确性使用相同的数据集和决策树(adaboost,随机森林梯度增强,xgboost等)的不同实现与调整不超过0.77990提交准确性有趣嘚是,对此数据集简单决策树算法具有最佳默认提交分数,并且调整获得了相同的最佳准确度分数
虽然在单个数据集上测试少量算法無法得出一般结论,但对所提到的数据集有几个观察结果
对于迭代二我会花更多的时间在预处理和特征工程上。为了更好地调整CV分数和Kaggle分数并提高整体准确性
}VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档
VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档
VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档
付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档
共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。