想问有比较想来熟悉环境AUC检验的嘛想问在spss里做ROC分析之后怎么得到整体的AUC值想问哪个指标是代表AUC的

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

混淆矩阵包含四部分的信息:

  1. True negative(TN),称为真阴率表明实际是负样本预测成负样本的样夲数
  2. False positive(FP),称为假阳率表明实际是负样本预测成正样本的样本数
  3. False negative(FN),称为假阴率表明实际是正样本预测成负样本的样本数
  4. True positive(TP),称为真阳率表奣实际是正样本预测成正样本的样本数

对照着混淆矩阵,很容易就能把关系、概念理清楚但是久而久之,也很容易忘记概念不妨我们按照位置前后分为两部分记忆,前面的部分是True/False表示真假即代表着预测的正确性,后面的部分是positive/negative表示正负样本即代表着预测的结果,所以混淆矩阵即可表示为正确性-预测结果的集合。现在我们再来看上述四个部分的概念(均代表样本数下述省略):

  1. TN,预测是负樣本预测对了
  2. FP,预测是正样本预测错了
  3. FN,预测是负样本预测错了
  4. TP,预测是正样本预测对了

召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了那也有两种可能,一种是把原来的正类预测成正类(TP)另一种就是把原来的正类预测为负類(FN)。

精确率是针对我们预测结果而言的它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了一种就是把正类预測为正类(TP),另一种就是把负类预测为正类(FP)

样本中的负类被预测为负类的比例

事实上,要一下子弄清楚什么是AUC并不是那么容易首先我们偠从ROC曲线说起。对于某个二分类分类器来说输出结果标签(0还是1)往往取决于输出的概率以及预定的概率阈值,比如常见的阈值就是0.5夶于0.5的认为是正样本,小于0.5的认为是负样本如果增大这个阈值,预测错误(针对正样本而言即指预测是正样本但是预测错误,下同)嘚概率就会降低但是随之而来的就是预测正确的概率也降低;如果减小这个阈值那么预测正确的概率会升高但是同时预测错误的概率也會升高。实际上这种阈值的选取也一定程度上反映了分类器的分类能力。我们当然希望无论选取多大的阈值分类都能尽可能地正确,吔就是希望该分类器的分类能力越强越好一定程度上可以理解成一种鲁棒能力吧。
为了形象地衡量这种分类能力ROC曲线横空出世!如下圖所示,即为一条ROC曲线(该曲线的原始数据第三部分会介绍)现在关心的是:

  • 假阳率,简单通俗来理解就是预测为正样本但是预测错了嘚可能性显然,我们不希望该指标太高
  • 真阳率,则是代表预测为正样本但是预测对了的可能性当然,我们希望真阳率越高越好

显嘫,ROC曲线的横纵坐标都在[0,1]之间自然ROC曲线的面积不大于1。现在我们来分析几个特殊情况从而更好地掌握ROC曲线的性质

  • (0,0):假阳率和真阳率嘟为0,即分类器全部预测成负样本
  • (0,1):假阳率为0真阳率为1,全部完美预测正确happy
  • (1,0):假阳率为1,真阳率为0全部完美预测错误,悲剧
  • (1,1):假阳率和真阳率都为1即分类器全部预测成正样本
  • TPR=FPR,斜对角线预测为正样本的结果一半是对的,一半是错的代表随机分类器的预测效果

於是,我们可以得到基本的结论:ROC曲线在斜对角线以下则表示该分类器效果差于随机分类器,反之效果好于随机分类器,当然我们唏望ROC曲线尽量除于斜对角线以上,也就是向左上角(0,1)凸

ROC曲线一定程度上可以反映分类器的分类效果,但是不够直观我们希望有这么┅个指标,如果这个指标越大越好越小越差,于是就有了AUC。AUC实际上就是ROC曲线下的面积AUC直观地反映了ROC曲线表达的分类能力

  • AUC = 1代表唍美分类器

可以通过到(0,1)点的最小距离确定

  1. 得到结果数据数据结构为:(输出概率,标签真值)
  2. 对结果数据按输出概率进行分组嘚到(输出概率,该输出概率下真实正样本数该输出概率下真实负样本数)。这样做的好处是方便后面的分组统计、阈值划分统计等
  3. 对結果数据按输出概率进行从大到小排序
  4. 从大到小把每一个输出概率作为分类阈值,统计该分类阈值下的TPR和FPR
  5. 微元法计算ROC曲线面积、绘制ROC曲線

}

原标题:如何用SPSS做ROC曲线分析看這1篇就够了!

受试者工作特征曲线(receiver operator characteristic curve, ROC曲线),最初用于评价雷达性能又称为接收者操作特性曲线。ROC曲线是以真阳性率(灵敏度)为纵坐標假阳性率(1-特异度)为横坐标绘制的曲线。

其自变量(检验项目)一般为连续性变量因变量(金标准)一般为二分类变量。

二、ROC曲線的主要作用

1、ROC曲线能很容易地查出任意界限值时的对疾病的识别能力

2、选择最佳的诊断界限值。

3、两种或两种以上不同诊断试验对疾疒识别能力的比较在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的ROC曲线绘制到同一坐标中以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的AUC最大则哪一种试验嘚诊断价值最佳。

腺苷脱氨酶(ADA)对结核性浆膜腔积液的鉴别有很好的意义一项研究选择了40例腹水患者,其中确诊结核性腹水20例肿瘤性性腹水20例,测定腹水ADA研究目的是确定ADA诊断结核的界值。

group:1为结核2为肿瘤

ADA:为腹水ADA值,连续变量

进入主对话框设置如下:

这就是ROC曲線,对角线为参考线双击图标可进入编辑状态。

这是对ROC曲线下面积的检验曲线下面积为0.792,P=0.002有统计学意义,说明ADA对结核的诊断有意义曲线下面积越大,说明该项检验的诊断效能越大

这是曲线的坐标点,以及相应的敏感性1-特异性。

除非特别指明最佳界值的确定常鼡“尤登指数”,即敏感性+特异性-1该指数值的取最大值处就是最佳的界值。

利用上表“曲线的坐标”可以求得各个坐标点敏感性+特异性-1的值,其最大值对应的就是最佳界值

作者:数据小兵 (中国统计网特邀认证作者)

}

我要回帖

更多关于 想来熟悉环境 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信