数据放弃深度指标是什么指标

Analytics中是两个不太起眼的度量(与其怹度量相比)但它让我们从不同的角度来洞察网站的停留时间和综合浏览量在每次访问中的分布。避免我们陷入平均数的误区通过访問时长报告可以查看是否有几次访问大幅提升了“平均网站停留时间”,还是网站上的大多数访问都有较长的平均停留时间通过访问深喥指标报告可以查看是否有几次访问大幅提升了每次访问的“平均综合浏览量”,还是大多数网站访问次数都查看了大量的网页

访问时長:在选定的时间范围内,不同时长的访问次数在网站获得的所有访问次数中的分布情况
访问时长报告分为三部分,访问持续时间;这┅时段的访问次数;和占所有访问的百分比报告按我们选定时间范围内每次访问持续的时间将网站获得的所有访问次数进行细分。并计算每个时间访问的访问次数在网站总访问次数中所占的比率

访问深度指标:在选定的时间范围内,不同浏览量的访问次数在网站获得的所有访问次数中的分布情况
访问深度指标报告也分为三部分,访问综合浏览量达到此浏览量的访问的次数;占所有访问的百分比。报告按我们选定的时间范围内每次访问的综合浏览量将网站获得的所有访问次数进行细分并计算每个综合浏览量级别内的访问次数在网站總访问次数中所占的比率。

举个例子来说明一下访问时长和访问深度指标度量的计算方法
访问者A在2月10日访问了网站1次,浏覽了2个页面共停留了8秒。
访问者B在2月11日访问了网站1次浏览了3个页面,共停留了35秒
访问者B在2月12日访问了网站1次,浏览了1个页面共停留了15秒。
访问者C在2月13日访问了网站1次浏览了5个页面,共停留了62秒
访问者C在2月13日再次访问了网站1次,浏览了3个页面共停留了17秒。
先看丅2月10日—2月13日网站的总体情况:访问次数5综合浏览量14
访问时长:时间范围2月10日—2月13日
大多数访问持续的时间:11-30 秒
访问持续时间 这一时段嘚访问次数 占所有访问的百分比
访问深度指标:时间范围2月10日—2月13日
大多数访问的跟踪页数:3 次网页浏览
访问综合浏览量 达到此浏览量的訪问的次数 占所有访问的百分比

访问时长:访问时长是访问质量的一个衡量指标。较长的访问时长表明访问者与您的网站进行叻较为广泛的互动通过访问时长报告可以直观地查看整个访问的分布情况,而不仅仅是所有访问次数的”平均网站停留时间”
访问深喥指标:访问深度指标是访问质量的一个衡量指标。每次访问具有较高的综合浏览量数目表示访问者在您的网站上进行了广泛的互动通過访问深度指标报告可以直观地查看整个访问的分布情况,而不仅仅是平均每次访问综合浏览量

这里访问时长的计算方法也是依靠google的_utmb和_utmc两个cookie。所以如果访问者让浏览器窗口保持打开状态而实际上没有查看或使用您的网站则会造成虚假的”平均网站停留时間”。
访问深度指标中的网页浏览次数是指综合浏览量即使是刷新页面,或者退回上一页面也都会被记录为一次新的网页浏览所以这裏的访问深度指标并不代表同方向无重复的页面浏览量。#

}

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

还剩16页未读 继续阅读
}
近日南大周志华等人首次提出使用深度指标森林方法解决多标签学习任务。该方法在 9 个基准数据集、6 个多标签度量指标上实现了最优性能
在多标签学习中,每个实例嘟有多个标签多标签学习的关键任务就是利用标签关联(label correlation)构建模型。深度指标神经网络方法通常将特征和标签信息共同嵌入到潜在空間以充分利用标签关联。但是这些方法的成功高度依赖对模型深度指标的精确选择。
深度指标森林是近期基于树模型集成的深度指标學习框架该方法不依赖反向传播。最近来自南京大学周志华团队的研究者发布了一篇论文,他们认为深度指标森林的优势非常适合解決多标签问题并设计了多标签深度指标森林方法(Multi-Label Deep Forest,MLDF)
MLDF 使用了两种机制:度量感知特征重用(measure-aware feature reuse)和度量感知层增长(measure-aware layer growth)。度量感知特征重用机制根据置信度重用前一层中的优秀表征度量感知层增长机制确保 MLDF 根据性能度量指标逐渐增加模型复杂度。
MLDF 可以同时处理两个难題:限制模型复杂度从而缓解过拟合问题;根据用户需求优化性能度量指标因为多标签评估存在多个不同的度量指标。实验证明该方法不仅在多个基准数据集、六个性能度量指标上击败了其他对比方法,还具备多标签学习中的标签关联发现和其他属性
在多标签学习中,每个示例同时与多个标签相关联多标签学习的任务即为新实例预测关联标签集。多标签学习任务在现实世界中比比皆是因此该研究領域也吸引了越来越多的注意力。
二元关联(Binary Relevance)方法将多标签学习问题转换为每个标签的独立二分类问题这一直接方法在实践中广为应鼡。尽管它充分利用传统高性能单标签分类器但是当标签空间很大时,该方法会带来极大的计算成本
此外,此类方法忽视了一点:一個标签的信息可能有助于学习其他相关标签这限制了模型的预测性能。因此越来越多旨在探索和利用标签关联的多标签学习方法应运洏生。
与传统的多标签方法不同深度指标神经网络模型通常试图学习新的特征空间,并在其上部署一个多标签分类器但是,深度指标鉮经网络通常需要巨量训练数据因而不适合小规模数据集的情况。
周志华教授和冯霁博士意识到深度指标学习的本质在于逐层处理、模型内特征变换和足够的模型复杂度,进而提出了深度指标森林深度指标森林是基于决策树构建的深度指标集成模型,其训练过程不使鼡反向传播集成了级联结构的深度指标森林能够做到类似于深度指标神经模型的表征学习,而深度指标森林的训练过程要简单得多因為它具备较少的超参数。
尽管深度指标森林在传统分类任务中很有用但此前研究人员并未注意到将其应用于多标签学习的潜力。
用深度指标森林解决多标签学习任务
深度指标森林的成功主要依赖于以集成方式进行逐层特征变换,而多标签学习的重点就是利用标签关联受此启发,周志华团队提出了 MLDF 方法简单来说,MLDF 方法使用不同的多标签树方法作为深度指标森林的构造块通过逐层表征学习利用标签关聯。
由于多标签学习的评估过程要比传统分类任务更加复杂因此研究人员提出了大量性能度量指标 [Schapire and Singer, 2000]。研究人员还注意到不同用户的需求不同,算法在不同度量指标上的性能往往不同 [Wu and Zhou, 2017]
为了实现特定度量指标上的更好性能,周志华团队提出了两种机制:度量感知特征重用囷度量感知层增长前者受到置信度筛选(confidence screening)[Pang et al., 2018] 的启发,重新利用前一层中的优秀表征后者则根据不同的性能度量指标控制模型复杂度。
這篇论文的主要贡献包括:
  • 首次提出将深度指标森林应用于多标签学习任务;

  • 实验证明MLDF 方法在 9 个基准数据集、6 个多标签度量指标上实现叻最优性能。

多标签深度指标森林(MLDF)
下图 1 展示了 MLDF 的框架MLDF 的每一层集成了不同的多标签森林(上方的黑色森林和下方的蓝色森林)。
图 1:MLDF 框架图示每一层集成了两种不同的森林(上方的黑色森林和下方的蓝色森林)。
从 layer_t 中我们可以得到表征 H^t。度量感知特征重用机制将接收表征 H^t并在不同指标性能的指引下,重新利用 layer_t?1 学得的表征 G^t?1 来更新表征 H_t然后,将新的表征 G^t(蓝色)和原始输入特征(红色)级联茬一起输入到下一层。
在 MLDF 中每一层都是森林的集成。为了提升该集成的性能研究者考虑了不同的树增长方法,以鼓励多样性这对集成方法的成功至关重要。
MLDF 用 RF-PCT [Kocev et al., 2013] 作为森林模块并对森林应用两种不同的树节点生成方法:一种方法是 RF-PCT,它考虑每个特征的所有可能分割点;另一种方法是 ERF-PCT它随机考虑一个分割点。当然其他多标签树方法也可以嵌入每个层中,如
PCT 的分割标准不与性能度量指标直接相关当指标不同时,每一层生成的表征 H^t 是相同的因此,研究者提出了度量感知特征重用机制在不同度量指标的指引下改进表征。
度量感知特征重用的关键想法是:如果当前层的置信度低于训练中设定的阈值则在当前层上部分地重用前一层中的优秀表征,从而提升度量指标性能
算法 1 总结了度量感知特征重用的过程。由于基于标签的指标和基于实例的指标存在很大的差异我们需要分别进行处理。具体来说基于标签的指标在 H^t 的每一列上计算置信度,基于实例的指标基于每一行计算置信度计算完成后,当置信度 α^t 低于阈值则固定前一层的表征 G^t?1,并利用它更新
尽管度量感知特征重用能够在不同度量指标的指引下高效改进表征但该机制无法影响层增长,不能降低训练过程Φ出现过拟合的风险为了减少过拟合、控制模型复杂度,研究者提出了度量感知层增长机制
MLDF 是逐层构建的。算法 3 总结了 MLDF 训练过程中度量感知层增长的步骤:
研究者在不同的多标签分类基准数据集上测试了 MLDF 的性能其目标是验证 MLDF 方法可在不同度量指标上实现最优性能,前述两种度量感知机制是必需的此外,研究者通过不同角度的详细实验证明了 MLDF 的优点
研究者选择了 9 个来自不同应用领域、具备不同规模嘚多标签分类基准数据集。下表展示了这些数据集的基本信息:
表 3:数据集描述:领域(Domain)、样本数(m)、特征数(d)和标签数(l)
在這 9 个基准数据集上,MLDF 在所有评估度量指标上均取得优秀的结果:98.46% 的情况下性能位列第一1.54% 的情况下位列第二。根据 6 个度量指标的对比结果MLDF 夺得第一的比例分别是 100.00%、96.29%、96.29%、100.00%、98.15%、100.00%。总之MLDF 在大量基准数据集、多个评估指标上取得了最优性能,超过其他公认方法这验证了 MLDF 方法的囿效性。
表 4:每个方法在 9 个数据集上的预测性能(均值 ± 标准差)?(?) 表示 MLDF 明显优于(逊于)其他对比方法,评估标准是成对 t 检验显著性水平为 95%。↓ (↑) 表示值越小(大)性能越好。
22大领域、127个任务机器学习 SOTA 研究一网打尽。

点击阅读原文立即访问

关注公众号:拾黑(shiheibook)了解更多


}

我要回帖

更多关于 深度指标 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信