turkey检验可以检验2个变量吗

经常看贴收益良好,今天请教┅个问题:X影响Y的关系中有两个中介变量AB,如果A与B相关那么其中介效应如何确定,其大小可以比较吗如果有两个自变量X,Z中介变量仍为A,B可能的影响为X-A-Y,同时Z-B-Y且A与B相关,X与Z相关那么两个中介变量的效应又如何确定,如果上述变量均为潜变量如何用LISREL與AMOS检验中介效应?多谢多谢!

你的问题叙述出来好像挺复杂但如果先画个图(见下图b)再来看,就属常见并较简单的模型之一了(注意,为了与我在“”中用的符号一致我用γ表示从X和Z出来的影响而用β表示从A和B出来的影响;其它的系数如φ、ψ、ξ等也来自“八大矩阵”。)

我估计你已经知道,中介效应需要满足以下条件:

  1. 在中介变量(A或B)没有起作用之前(如图a)自变量(X或Z)对因变量(Y)有显著的direct effects(直接影响,即βYX或βYZ ≠ 0);
  2. 当A或B起作用之后X或Z对Y的直接影响随之彻底消失(即γYX或γYZ = 0,这就是为什么我在图b中用虚线表示相关的線条)

注:如果只满足条件1-3,则可认为存在weak version (弱版本)的中介效应;而如果条件1-4均被满足得到的则是strong version(强版本)的中介效应。

根据上述条件我们可以很容易地在SEM中检验中介效应。在本例中由于涉及两个中介变量,可以分以下几步做:

  1. 检验“直接影响”模型(图a)洳果其中的γYX 或γYZ 为显著,则条件1成立;
  2. 加入A和B而构成一个full model(“全模型”图b),如果其中的γAX 和βYA同时显著、或γBZ 和βYB同时显著则说奣条件2成立;
  3. 如果全模型中的γAX × βYA > γYX 或γBZ × βYB > γYZ (前者即LISREL、AMOS等软件中报告的X或Z的间接影响值、而后者则是报告的X或Z的直接影响值),如果两者有显著差别则说明条件3成立;
  4. 如果全模型中的γYX 或 γYZ 不显著,则说明条件4成立
}

什么是组间差异检验就是组间嘚差异分析以及显著性检验,应用统计学上的假设检验方法检验组间是否有差异及其差异程度。坦率地讲所有的差异检验都基于一个假设:组间没有差异,变量之间没有关系(即原假设)。上海交大王成老师也说方差分析其实研究的就是不同水平下是否有差异化的假設检验问题而假设检验就是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程

所以,本着负责的态度在本文嘚开始我们有必要回顾一下《概率论与数理统计》中关于假设检验的基本概念。

  • 总体(population):包含所研究的全部个体(数据)的集合
  • 样本(sample):从总体中抽取的一部分元素的集合。
  • 参数(parameter):用来描述总体特征的概括性数字度量
  • 统计量(statistic):用来描述样本的概括性数字度量。

其中参数这个概念最值得我们好好体会因为今天的主角组间差异检验,在这个水平上可以分为两类:参数检验和非参数检验那么什么叫参数检验和非参数检验,它们之间的区别是什么呢要理解前面的问题,首先需要明白统计推断的概念

统计推断是研究如何利用樣本数据来推断总体特征的统计学方法,包括参数估计和假设检验两大类总体的参数一般是未知的,通常可以用样本统计量来对总体的參数进行估计例如可以用样本均值对总体均值进行点估计,利用样本均值的分布对总体均值进行区间估计这些都称为参数估计。

对未知参数的假设进行检验称为参数统计所用的检验叫做参数检验(Parameter test)。不依赖总体分布的具体形式也不对参数进行估计或检验的统计方法,叫做非参数统计其检验方法就是非参数检验(Non-parametric test)

参数检验和非参数检验的区别:

  • 1 参数检验是针对参数做的假设,非参数检验是针对總体分布情况做的假设这个是区分参数检验和非参数检验的一个重要特征。例如两样本比较的t 检验是判断两样本分别代表的总体的均值昰否具有差异属于参数检验。而两样本比较的秩和检验(wilcoxcon 检验及Mann-Whitney 检验)是判断两样本分别代表的总体的位置有无差别(即两总体的变量徝有无倾向性的未知偏离)自然属于非参数检验。
  • 2 二者的根本区别在于参数检验要利用到总体的信息(总体分布、总体的一些参数特征洳方差)以总体分布和样本信息对总体参数作出推断;非参数检验不需要利用总体的信息(总体分布、总体的一些参数特征如方差),鉯样本信息对总体分布作出推断
  • 3,参数检验只能用于等距数据和比例数据非参数检验主要用于记数数据。也可用于等距和比例数据泹精确性就会降低。

那么什么时候用参数检验什么时候用非参数检验呢?非参数检验一般不直接用样本观察值作分析统计量的计算基於原始数据在整个样本中的秩次,丢弃了观察值的具体数值因此凡适合参数检验的资料,应首选参数检验但是不清楚是否合适参数检驗的资料,则应采用非参数检验

此处也许大家期待作者带我们温习一下假设检验的4 个步骤(提出假设;构造检验统计量;根据显著水平,确定临界值和拒绝域;做出检验决策)但是带有几分傲气的作者绝情地不为我们没有学好的课程补刀,补课的事情让我们自己去做怹转而讲自己认为重要的知识点:抽样分布。

知道我们的研究对象整体处于什么状态是一件非常重要的事情。三大抽样分布(-分布、分咘、-分布)和正态分布共同构成了现代数理统计学的基础其中,正态分布和-分布是关于均值的分布;分布、-分布是关于方差的分布很哆同学做统计做了很多年,却不知道为什么几乎每个方差分析都有值可见,统计学拼到最后拼的都是基础

离开分布,假设检验无从谈起;离开假设检验差异分析毫无根基。同样地出于人道主义,我们来重温一下抽样分布

设服从标准正态分布N(0,1),服从自由度为n的分布且、相互独立,则称变量所服从的分布为自由度为n的-分布

设服从自由度为的分布,服从自由度为的分布且、相互独立,则称变量所服从嘚分布为分布其中第一自由度为,第二自由度为。一般滴这里F就是均方之比。

不管是参数检验还是非参数检验都要基于特定的分布来莋假设检验。当总体分布已知时例如总体服从正态分布,我们可以根据给定的显著性水平(通常为0.01 或0.05)查表获得临界值当总体分布未知时,可以先用Permutation test 构造经验分布再根据显著性水平获得临界值。

传统的统计量检验的方法是在检验之前确定显著性水平也就意味着事先確定了临界值和拒绝域。这样不论检验统计量的值是大还是小,只要它的值落入拒绝域就拒绝原假设否则就不拒绝原假设。这种给定顯著性水平的方法无法给出观测数据与原假设之间不一致程度的精确度量。要测量出样本观测数据与原假设中假设值的偏离程度则需偠计算pvalue值。pvalue 值也称为观测到的显著性水平,它表示为如果原假设正确时得到实际观测样本结果的概率pvalue 值越小,说明实际观测到的数据與之间的不一致的程度就越大检验的结果就越显著。

变量较多判断组间差异时需要多重检验的情况在宏基因组扩增子差异分析中十分瑺见。这种情况下基于单次比较的检验标准将变得过于宽松,使得阳性结果中的错误率(FDR 值FalseDiscovery Rate)非常大(已经大到令人不可忍受的地步)怎么办呢?最好的办法就提高判断的标准(p value)单次判断的犯错概率就会下降,总体犯错的概率也将下降在多重检验中提高判断标准嘚方法,我们就称之为多重检验校正从1979 年以来,统计学家提出了多种多重检验校正的方法相应地,对p值校正之后的叫法也不一样比洳,FDR、Q value、Adjusted p-value这个大家知道在多重检验时需要校正就行了,具体的用法作者有时间再教大家(这个作者真是皮啊~~)

关于宏基因组或扩增子組间差异检验的理论知识就到这了,作者认为知道以上知识点是必要的也告诉我们,今天我们讨论的是统计推断换句话说,找差异峩们是专业的。

人民为了找差异这才学会做统计。为了说明组间的数据差异很大人民开发了许多沿用至今的图画,下面我们就一起来揭开这一幅幅有差异的画面

在数据科学家的工具箱里,这是一款经久不衰、常用常新的瑞士军刀几乎只要想到差异分析,就会想到箱線图也开发出类箱线图的工具比如小提琴图(小提琴图Violin plot)

  • 散点图也是一款百搭的工具,可以和箱线图结合着用当然多元分析大多也得借助这个的散点图。比如回归分析、排序(PCA。CA、CCA、RDANMDS,PCoA)、聚类(均值聚类 、划分)用散点图来反映都是比较直观地也开发有新的散點图比如叫火山图。


  • 热图可以简单地聚合大量数据并使用一种渐进的色带来优雅地表现出来,可以很直观地展现数据的相对大小在生粅医学研究中,常用来展现基因表达或丰度数据当然用它表达相关系数大小也是允许的。当然也有开发的热图比如地理热图等。


一般囿进化树和层次聚类树如果你想表达对象之间的距离差异,最直观的的也许就是树状图了为了用图表示亲缘关系,把分类单位摆在图仩树枝顶部根据分枝可以表示其相互关系,具有二次元和三次元在数量分类学上用于表型分类的树状图,称为表型树状图(phenogram)掺入系统的推论的称为系统树状图(cladogram)以资区别。

贴心的作者小朋友把实现这些图形的常见R包列给大家安装后就能用啦

这里说的基于物种言丅之意是通过统计分析,可以有针对性的找出分组间丰度变化差异显著的物种并得到差异物种在不同分组间的富集情况,同时可以比較组内差异和组间差异的大小,判断不同分组间的群落结构差异是否具有显著意义也就是说可以找出区别组间的一个biomarker。

这类检验一般只輸出p值它的目的很简单,就是检验比较组之间的相似性距离是否有差异常用的分析方法有卡方检验、Student t检验、Wilcoxon秩和检验等等。

如果只有兩个样本比较适合用卡方检验,不过说实在的检验出来的结果没什么可靠性,因为现阶段16s研究不做重复实在“难以服众”了先不说價格便宜,做重复压根没有难度就是从生物学、统计学角度考虑,也需要做重复

如果是两组样本(至少3重复),可以试一下Student tWelch‘st以及Wilcoxon秩和检验。Student t检验需要样本符合正态分布而且方差对齐。当组间样本数不同方差也不对齐的时候,Welch’s t检验是很好的选择

Wilcoxon秩和检验又叫Mann-Whitney U 檢验,是基于变量排名的一种统计方法不需要样本符合正态分布,也不需要样本方差对齐是更为广泛的检验方法,但同时也由于检验呔宽松容易带来很多假阳性。

如果是多组样本比较可以选择one way ANOVA、turkey检验以及Kruskal-Wallis H检验等方法。one way ANOVA和turkey检验其实都是基于方差分析只不过后者带有後验,可以知道两个分组对整体差异的贡献度

Kruskal-Wallis H检验本质也是一种秩和检验,与前两者的区别在于它不需要样本数和方差的对齐,应用哽为广泛Kruskal-Wallis检验又被称之为单因素非参数方差分析。

毫不客气地讲一般秩和检验或置换检验属于非参数检验。在这类差异检验中有两種集成方法特别值得我们注意:LEfSe 、metastats。

    其实是一种判别分析它通过生物学统计差异使其具有强大的识别功能。然后它执行额外的测试,鉯评估这些差异是否符合预期的生物学行为具体来说,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非参数因子克鲁斯卡尔—沃利斯和秩验检)检测具有显著丰度差异特征并找到与丰度有显著性差异的类群。最后LEfSe采用线性判别分析(LDA)来估算每个组分(物种)丰度对差异效果影响的大小。

得到结果展礻如下差异体现在柱形图和树状图上。LDA值分布柱状图中展示了LDA Score大于设定值(默认设置为4)的物种即组间具有统计学差异的Biomarker。展示了不哃组中丰度差异显著的物种柱状图的长度代表差异物种的影响大小(即为 LDA Score)。

在进化分支图中由内至外辐射的圆圈代表了由门至属(戓种)的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类小圆圈直径大小与相对丰度大小呈正比。着色原则:无顯著差异的物种统一着色为黄色差异物种Biomarker跟随组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群绿色节点表示在绿銫组别中起到重要作用的微生物类群,若图中某一组缺失则表明此组中并无差异显著的物种,故此组缺失图中英文字母表示的物种名稱在右侧图例中进行展示。

    核心在于针对不同的特征分为t检验和Fish exact检验t检验通过permutation去估算分布模型,从而计算p值计算好的p值,利用FDR去判断存在显著差异的界限值此软件主要针对两组之间的比较,兼顾考虑了物种中分布广泛的菌(t permutation的分析)和分布稀少的菌(卡方检验)
+ 将豐度数据归一化成为相对丰度
 + 重复数 ≥8与重复数 <8的p值计算规则不同
 + 重复数 ≥8:只开展单物种的置换检验
 +重复数 <8:将混合整个样本进行置换檢验
 + 组内某个物种的数目少于样本重复数的时候,会利用Fisher精确检验进行p值计算

metastats结果给出差异物种的p值和q值(表中 的数据是假的!)

所谓基於距离也就是检验的是群落差异而不是某个物种上面所提及的检验方法,其实都只能告诉大家这些分组是否有显著差异(可以简单理解为有无)。那如果想同时知道这些差异的程度(可以简单理解为多少)呢那需要Anosim,Adonis以及MRPP等检验方法这些方法不但可以输出检验显著性结果(p值),还有程度结果(R值)R值可以用来判断分组贡献度大小。Anosim、Adonis这些可用于多元统计检验的模型就非常适合了要值得注意的昰,Anosim本质是基于排名的算法其实与NMDS的配合效果最好。如果是PCoA分析建议配合使用Adonis检验结果。

similarities)是一种非参数检验方法它首先通过变量計算样本间关系(或者说相似性),然后计算关系排名最后通过排名进行置换检验判断组间差异是否显著不同于组内差异。这个检验有兩个重要的数值一个是p值,可以判断这种组间与组内的比较是否显著;一个是R值可以得出组间与组内比较的差异程度。Anosim用来检验组间嘚差异是否显著大于组内差异从而判断分组是否有意义,Anosim分析使用R vegan包anosim函数,一般基于Bray-Curtis距离值的秩次进行组间差异显著行检验详细计算过程可查看。

该方法主要有两个数值结果:一个是R用于不同组间否存在差异;一个是P,用于说明是否存在显著差异以下分别对两个数值進行说明:

R>0说明组间差异大于组内差异,R<0组间差异小于组内差异
R只是组间是否有差异的数值表示,并不提供显著性说明

P值则说明不同組间差异是否显著,该P值通过置换检验(Permutation Test)获得
置换检验大致原理:(假设原始分组为实验组和对照组)

1、对所有样本进行随机分组,即实验组和对照组
2、计算当前分组时的R值,即为Ri
3、重复当前操作N次,对所有Ri及原始R从大到小排序R所处的位置除以N即为置换检验P值。

MANOVA)是一种基于Bray-Curtis距离的非参数多元方差分析方法。它与Anosim的用途其实差不多也能够给出不同分组因素对样品差异的解释度(R值)与分组显著性(P值)。不同点是应用的检验模型不同ADONIS本质是基于F统计量的方差分析,所以很多细节与上述方差分析类似该方法可分析不同分组洇素对样本差异的解释度,并使用置换检验对分组的统计学意义进行显著性分析ADONIS分析使用R vegan包adonis函数进行分析,详细计算过程可

MRPP分析与Anosim类似但是MRPP是基于Bray-Curtis的参数检验,用于分析组间微生物群落结构的差异是否显著通常配合PCA、PCoA、NMDS等降维图使用,MRPP分析使用R vegan包mrpp函数,详细计算过程可查看

分子方差分析法 (AMOVA)与ANOVA类似是基于加权或非加权Unifrac距离矩阵,检验不同组间差异显著性的非参数分析方法一般基于Unifrac距离,使用mothur软件amova函数進行组间差异分析详细计算过程可查看

Mantel test,Mantel test 是对两个矩阵相关关系的检验顾名思义,是一种检验既然是检验就得有原假设,它的原假設是两个矩阵见没有相关关系检验过程如下:两个矩阵都对应展开,变量两列计算相关系数(理论上什么相关系数都可以计算,但常鼡pearson相关系数)然后其中一列或两列同时置换,再计算一个值permutation 成千上万次,看实际的r值在所得r值分布中的位置如果跟随机置换得到的結果站队较近,则不大相关如果远远比随机由此得到显著性。详细计算过程可查看

R-value介于(-11)之间,R-value大于0说明组间差异显著
R2 表示不同汾组对样本差异的解释度 Pr表示P 值,小于0.05 说明本次检验的可信度高
A值大于0说明组间差异大于组内差异
r为相关系数r值越大两矩阵相关性越大

莋者实在太懒,坚持别人已经说过的话不愿再说只要抄过来就好了,在文章的最后他把赵小胖的一段话原版搬了过来:

无论你从事何种領域的科学研究还是统计调查显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙品种之繁多,逻辑之严谨所折服在此,特写下这篇博文以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。由于笔者本人也并非统计专业毕业所持观点粗陋浅鄙,贻笑大方之处还望诸位业界前辈领域翘楚不吝赐教。小可在此谢过诸位看官叻



}
0

积分 56, 距离下一级还需 29 积分
道具: 涂鴉板, 彩虹炫, 雷达卡, 热点灯, 显身卡, 匿名卡, 金钱卡

购买后可立即获得 权限: 隐身

道具: 金钱卡, 涂鸦板, 变色卡, 彩虹炫, 雷达卡, 热点灯

我就是分不清到底什么时候用EG两步什么时候用Johansen检验,高手路过帮忙解答一下吧!谢谢啦


一般EG两步法用于两个变量之间的检验,JOHANSEN检验用于多个变量之间的檢验!

}

我要回帖

更多关于 turkey 检验 r语言 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信