举例说明,未来你会如何分散风险,大部分人是否关注协方差,为什么?

访问获取含摘要速递,涵盖CS|物理|数学|经济|统计|金融|生物|电气领域,更有搜索、收藏、发帖等功能!点击阅读原文即可访问

stat统计学,共计46篇

摘要:在萨赫勒地区,人口主要依靠雨水灌溉的农业。特别是在西非,气候模型无法捕捉当今气候变化的一些基本特征。这项研究提出了一个在气候变化的背景下分析农业气候风险演变的贡献。对雨季的主要变量进行统计检验,确定趋势,并用数据序列描述变量。因此,本文在分析农业气候参数的季节变化及其年际变化的同时,提供了不同农业气候风险的统计模型。研究确定了农业气候风险的概率分布,阐明了雨季的特征。

摘要:具有科学意义的模拟模型通常缺乏易于处理的似然函数,排除了基于标准似然的统计推断。近似贝叶斯计算是一种常用的无似然推理方法,通过比较模拟器输出和观测数据,得到一个近似的后验概率。然而,模拟数据和观测数据之间的紧密性的有效度量通常很难构造,特别是对于通常是高维和结构复杂的时间序列数据。现有的方法通常涉及手工构建摘要统计数据,需要大量的领域专业知识和实验,或者依赖不现实的假设,比如iid数据。其他的则不适用于更复杂的环境,如多变量或不规则采样的时间序列数据。在本文中,我们介绍了使用路径签名作为一个自然的候选特征集来构建时间序列数据之间的距离,用于近似贝叶斯计算算法。实验表明,这种方法比现有的时间序列模型方法能产生更精确的近似贝叶斯后验概率。

摘要:我们介绍了一个新的粒子演化采样器家族,适用于约束域和非欧几里德几何。Stein变分镜像下降和镜像Stein变分梯度下降使Kullback-Leibler(KL)散度最小化,从而使粒子在镜像映射定义的对偶空间中演化。Stein变分自然梯度法利用非欧几里德几何原理,有效地减小了KL对无约束目标的发散。我们从一类新的镜像Stein算子和自适应核中导出了这些采样器。我们证明了这些新的采样器可以精确地逼近单纯形上的分布,在后选择推理中提供有效的置信区间,并且在大规模无约束后验推理中比以前的方法收敛更快。最后,在目标分布的可验证条件下,证明了新方法的收敛性。

摘要:许多科学问题需要确定一小部分与目标反应相关的协变量,并估计其影响。通常,这些影响是非线性的,并且包含相互作用,因此线性和加法方法可能导致较差的估计和变量选择。贝叶斯框架使得在层次模型中同时表达稀疏性、非线性和交互作用变得简单。但是,对于处理这三个问题的少数其他方法来说,推理在计算上是很困难的——运行时协变量的数量至少是二次的,而且往往更糟。在目前的工作中,我们解决了这个计算瓶颈。我们首先证明了合适的贝叶斯模型可以表示为高斯过程(GPs)。然后,我们演示了如何用核技巧减少这些GPs到O(#协变量)的计算时间来进行变量选择和估计。我们得到的拟合对应于希尔BERT空间中回归函数的稀疏正交分解(即,函数方差分析分解),其中交互作用效应表示不能用低阶效应解释的所有变化。在各种合成数据集和真实数据集上,我们的方法优于用于大型高维数据集的现有方法,同时在运行时保持竞争力(或快几个数量级)。

摘要:多状态模型提供了通常生存/事件历史分析设置的扩展。在医学领域,多状态模型为进一步研究复发和缓解等中间事件提供了可能。在这项工作中,提出了一个进一步的扩展,使用相对生存率,其中由于人口原因(即非疾病相关死亡率)的死亡率进行评估。目的是在死因没有记录或不确定的数据集中,将所有疾病死亡率和非疾病相关死亡率(有或没有中间事件)分开。为此,人口死亡率表被整合到估算过程中,同时使用了基本的相对存活率概念,即总体死亡率风险可以写为人口和超额部分的总和。因此,我们提出了一种改进的非参数估计方法,其中考虑了人口死亡率。对转移危险和转移概率给出了精确的定义和合适的估计。介绍了方差估计技术和置信区间,并通过仿真研究了新方法的性能。通过对异基因造血干细胞移植后患者队列的分析,说明了新开发的方法。该工作也在R包mstate中实现。

摘要:时间序列的新息序列是一系列独立且同分布的随机变量序列,原始时间序列具有因果表示。一次的创新在统计上独立于时间序列的先前历史。因此,它代表的是目前所包含的新信息,而不是过去的信息。由于其简单的概率结构,新息序列是最有效的原始签名。与主成分分析(PCA/ICA)表示不同,新息序列不仅保留了原始时间序列的完整统计特性,而且保留了原始时间序列的时序。一个长期存在的开放性问题是寻找一种计算上易于处理的方法来提取非高斯过程的新息序列。提出了一种利用因果卷积神经网络提取新息序列的深度学习方法,称为新息自动编码器(IAE)。文中还介绍了IAE在具有未知异常和无异常模型的非参数异常检测中的应用。

摘要:在大数据流环境下,模型的变量集会随着数据流的变化而变化,这是一种常见的情况。本文提出了一种均匀化策略来表示在数据流处理过程中逐渐更新的异构模型。通过均匀化表示,我们可以方便地构造各种在线更新统计量,如参数估计、残差平方和和和$F$-统计量。与经典情形的主要区别在于,同质化模型中的人工协变量与原始模型中的自然协变量的分布不完全相同,因此相关的理论性质与经典模型不同。建立了在线更新统计量的渐近性质,结果表明,该方法在不受数据批数限制的情况下,具有估计效率高、预测性好的特点。模拟实验的各种数值例子进一步说明了该方法的性能。

摘要:亚椭圆连接函数通常被用来模拟随机向量各分量之间的依赖关系。它们由一个相关矩阵和一个称为密度生成器的map$g$指定。当后一种相关矩阵可以很容易地从伪观测样本中估计出来时,密度发生器就不属于参数族了。我们提出了非参数识别这个发生器的充分条件。然后,通过M估计、基于模拟的推理或R包中的迭代过程,提出了几个非参数估计。仿真结果表明了后一种方法的有效性。

摘要:COVID-19大流行在美国造成了严重的公共卫生后果。美国在2020年底开始了一项疫苗接种运动,主要针对老年居民,然后再向年轻人提供疫苗接种。由于COVID-19感染致死率和疫苗摄取率在不同年龄段存在差异,一个重要的考虑因素是年龄对死亡的贡献是否随着时间的推移而向年轻年龄组转移。在这项研究中,我们使用贝叶斯非参数空间方法来估计年龄对COVID-19归因死亡的贡献。所提出的空间方法是由正则B样条投影的低秩高斯过程。仿真分析和基准测试结果表明,在较低的运行时间下,空间方法的性能优于标准的B样条方法,与标准的高斯过程相当。我们发现COVID-19在美国尤其致命。美国各州85岁以上老人的死亡率从1%到5%不等。自疫苗接种运动开始以来,美国各州每周死亡人数都有所减少,75岁以上的人比0-74岁的人减少得更快。与此同时,75岁以上的人对死亡的贡献也有所下降,在全国范围内,这种下降的时间和速度存在着巨大的差异。

摘要:本文介绍了一种神经网络方法来拟合多种群的Lee-Carter和Poisson-Lee-Carter模型。我们开发了一些神经网络来复制单个LC模型的结构,并通过同时分析所有考虑人群的死亡率数据来进行联合拟合。神经网络体系结构是专门设计用来校准每个单独的模型使用所有可用的信息,而不是使用人口特定的数据子集在传统的估计方案。在人类死亡率数据库(HMD)的所有国家进行的大量数值实验表明了该方法的有效性。特别是,由此产生的参数估计似乎很平稳,对死亡率数据中经常出现的随机波动不太敏感,特别是对于低人口国家。此外,预测效果也有显著提高。

摘要:利用理论和数值结果,我们证明了广泛的状态空间模型中常用的变分贝叶斯方法的准确性。结果表明,就固定参数的精度而言,方法有一个明确的层次结构,不近似状态的方法比近似状态的方法具有更高的精度。我们还用数值方法证明了不同方法之间的推断差异通常只会在小样本评估期内产生小的预测精度差异。然而,在某些情况下,这些预测差异可能会在较长的样本期内变得显著。这一发现表明,预测结果对推理不准确的不变性,这是从业者经常吹捧的观点,试图证明使用变分推理的合理性,并不是普遍存在的,必须根据具体情况进行评估。

摘要:介绍了一种新的大规模核岭回归求解器ParK。我们的方法结合了分区与随机投影和迭代优化,以减少空间和时间复杂度,同时可证明保持相同的统计精度。特别地,直接在特征空间而不是在输入空间中构造适当的划分,我们促进了局部估计量之间的正交性,从而确保了局部有效维数和偏差等关键量保持在控制之下。我们描述了我们模型的统计计算折衷,并通过大规模数据集的数值实验证明了我们方法的有效性。

摘要:Shapley价值观已经成为解释复杂机器学习模型预测的最合适和理论上最合理的框架之一。Shapley值在解释环境中的流行可能是由于其独特的理论性质。然而,Shapley值的主要缺点是,它的计算复杂度随着输入特征的数量呈指数增长,这使得它在可能有成百上千个特征的许多实际情况下是不可行的。此外,对于许多(依赖的)特征,呈现/可视化和解释计算出的Shapley值也变得具有挑战性。本文介绍了groupShapley:一种处理上述瓶颈的概念上简单的方法。其思想是将特征分组,例如按类型或相关性,然后计算并呈现这些组的Shapley值,而不是所有单个特征的Shapley值。将成百上千个特征减少到六个左右,使得精确计算切实可行,表示和知识提取大大简化。我们证明了在一定的条件下,groupShapley等价于每个特征组中特征值的求和。此外,我们提供了一个模拟研究,举例说明这些条件不满足时的差异。我们在一个真实的汽车保险示例中说明了该方法的可用性,其中groupShapley用于提供简单直观的解释。

摘要:本文在贝叶斯框架下研究了数据驱动的机会约束随机优化问题。贝叶斯后验概率提供了一种将数据和先验知识结合到随机优化问题中的原则性机制。然而,贝叶斯后验概率的计算是一个典型的难以解决的问题,并且已经产生了大量关于近似贝叶斯计算的文献。在这里,在机会约束优化的上下文中,我们关注的是使用近似后验分布计算的最优值的统计一致性(在适当意义上)的问题。为此,我们严格地证明了一个频率一致性结果,证明了一个固定的参数化约束优化问题的最优值到最优值的弱收敛性。我们通过建立最优值的概率收敛速度来增强这一点。我们还证明了近似贝叶斯随机优化问题的凸可行性。最后,我们证明了我们的方法在一个M/M/c排队模型的最优人员配置问题上的实用性。

摘要:新息搜索的思想最初被提出用于数据聚类,最近被用于离群点检测。在应用新息搜索进行离群点检测时,利用新息方向来度量数据点的新息。研究了二次成本函数下新息搜索算法计算的新息值,证明了新成本函数下的新息值等价于杠杆率得分。利用这一有趣的联系,为基于杠杆评分的鲁棒PCA方法建立了若干理论保证,并设计了一种新的鲁棒PCA方法。理论结果包括对异常值分布和内联值分布的不同模型的性能保证。此外,我们还证明了算法对噪声的鲁棒性。数值和理论研究表明,该方法具有快速性和封闭性,其性能优于现有的大多数算法。

摘要:本文对英格兰中部温度序列的结构变化进行了统计分析。这个系列包含了一个最长的表面温度记录和它的变化点分析揭示了几个有趣的方面。具有结构突变(包括均值和趋势变化)的回归函数被拟合到序列中,并通过两个常用的多重变点惩罚似然准则进行比较。最后,最优模式被判定为一个包含三个位置和趋势变化的模式,大约在1989年过渡到快速变暖的状态。序列的变异性没有发现显著变化,并且判断变化特征比短记忆或长记忆自相关更可信。该分析作为一个不同的转换点技术的走查教程,说明了从不同的模型可以统计推断出什么。

摘要:随着COVID-19在全球肆虐,准确预测疾病的传播对于态势感知、资源分配和公共卫生决策至关重要。与美国疾病控制和预防中心(CDC)收集的传统疾病监测数据不同,互联网上的大数据(如在线搜索量)此前已被证明包含跟踪传染病动态的有价值信息。在这项研究中,我们评估了利用互联网上相关查询的搜索量来跟踪和预测COVID-19大流行的可行性。我们发现COVID-19的死亡趋势与症状相关查询(如“味觉丧失”)的搜索量之间有很强的关联。然后,我们将搜索量信息与COVID-19时间序列信息相结合,进一步发展了一个流感追踪模型,以预测未来2周内美国国家层面的COVID-19死亡人数。与基准时间序列模型相比,在国家层面上减少了45%的误差,因此我们利用跨州跨分辨率时空框架(跨州、跨地区和跨国家收集来自搜索量和COVID-19报告的信息),额外构建了州层面的COVID-19死亡模型。然后,这些ARGOX变量以赢家通吃的集成方式进行聚合,以生成最终的州级2周预测。数值实验表明,该方法稳定地优于时间序列基线模型,在公开的基准模型中达到了最先进的性能。总的来说,我们表明,在COVID-19大流行期间,疾病动态和相关的公共搜索行为共同进化,在利用历史病例/死亡以及时空跨区域信息的同时捕获它们的依赖性,将能够实现稳定和准确的美国国家和州级预测。

摘要:本文讨论了当后门或前门准则中的调整变量被部分观测时因果效应的估计问题。对于这类情形,我们通过求解两个非线性优化问题得到了因果效应的界,并证明了该界是充分的。利用这种优化方法,我们提出了一个降维框架,允许一个交易估计功率偏差,并通过仿真研究证明其性能。 摘要:This paper addresses the

摘要:基于核Stein差异(KSD)的非参数拟合优度检验方法是验证各种情况下一般非规范分布的有效方法。现有的工作主要集中在研究提高测试性能的最优内核选择。然而,Stein算子一般是非唯一的,不同的Stein算子选择也会对测试性能产生相当大的影响。在这项工作中,我们提出了一个统一的框架,即广义核Stein差异(GKSD),从理论上比较和解释了基于KSD的拟合优度检验中不同的Stein算子。我们明确地导出了GKSD框架如何推广现有的Stein算子及其相应的测试。此外,我们还表明gksd框架可以作为开发基于核的非参数拟合优度测试的指导,用于复杂的新数据场景,例如截断分布或成分数据。实验结果表明,与现有方法(包括基于最大平均偏差(MMD)的测试)相比,本文提出的测试方法能够很好地控制I型误差,获得更高的测试效率。

摘要:每个指标病例引起的继发感染预期数、生殖数或R$数是了解和管理传染病的重要汇总统计数据。估算R$的方法有很多;然而,这些模型中很少有明确的异质性疾病繁殖模型,这导致了在人群中的超扩散。本文提出了一个包含异质个体繁殖数的流行病曲线的简约离散时间分支过程模型。我们的贝叶斯推断方法表明,这种异质性导致时变队列繁殖数的估计不太确定。不考虑未来交叉验证评估了所提出模型的预测性能,使我们能够评估流行病曲线,寻找超扩散的证据。我们将这些方法应用于爱尔兰共和国的COVID-19流行曲线,并找到一些支持异质性疾病繁殖的方法。我们得出结论,10%最具传染性的指数病例约占预期继发感染的40-80%。我们的分析强调了从流行曲线中识别异质性疾病繁殖的困难,并且异质性是估计R\t$时的一个重要考虑因素。

摘要:我们研究土匪的纯探索,在土匪中,特征表示的维数可以远远大于武器的数目。为了克服维数灾难,我们建议自适应地将每个手臂的特征表示嵌入到低维空间中,并仔细处理诱导的模型错误。我们的方法在概念上与现有的只能处理低维线性强盗或被动处理模型错误的工作有很大不同。我们展示了我们的方法在两个纯探索环境中的应用,这两个纯探索环境是以前研究的:(1)奖励函数属于一个可能无限维的再生核Hilbert空间,(2)奖励函数是非线性的,可以用神经网络来逼近。我们的主要结果提供了样本复杂性保证,仅依赖于核或神经表示中特征空间的有效维数。在合成数据集和真实数据集上进行的大量实验证明了我们方法的有效性。

摘要:当潜在解释变量的数量大于样本量时,我们发展了一种线性回归模型的推断方法。我们的方法将每个回归系数依次作为兴趣参数,其余的系数作为讨厌的参数,并寻求一个最佳的兴趣变换。这种转换的作用是允许对每个变量进行边际最小二乘分析,就像在析因实验中一样。这个问题的一个参数化在计算和数学上都特别方便。特别是,它允许一个最佳转换问题的解析解,便于与其他工作进行比较。与lasso(Tibshirani,1996)及其扩展等正则化回归相比,不需要对选择进行调整,也不需要对解释变量进行重新缩放,从而确保回归系数的物理解释得以保留。我们讨论了使用这种置信区间作为一个更广泛的推理语句集的一部分,以便反映模型以及参数的不确定性。文中简要讨论了将这项工作推广到其它回归模型的考虑因素。

摘要:注意模块是Transformer的重要组成部分,由于其二次复杂性,不能有效地扩展到长序列。许多工作集中在对点的逼近,然后对softmax函数进行指数化处理,导致了次二次甚至线性复杂的变换器结构。然而,我们发现,这些方法不能应用于更强大的注意模块,超越点然后指数风格,如Transformer与相对位置编码(RPE)。由于在许多最先进的模型中,相对位置编码被用作默认值,因此设计能够结合RPE的高效转换器是很有吸引力的。在本文中,我们提出了一种新的方法来加速Transformer的注意力计算的RPE上的核注意。基于相对位置编码形成Toeplitz矩阵的观察,我们从数学上证明了快速傅立叶变换(FFT)可以有效地计算RPE核化注意。通过FFT,我们的方法达到了$\mathcal{O}(n\logn)$的时间复杂度。有趣的是,我们进一步证明了适当使用相对位置编码可以缓解香草核化注意的训练不稳定性问题。在广泛的任务,我们的经验表明,我们的模型可以从零开始训练,没有任何优化问题。所学习的模型比许多有效的Transformer变型具有更好的性能,并且在长序列情况下比标准Transformer更快。

摘要:血源性疾病的诊断通常涉及识别和描述患者血样。自动检测和分类血细胞亚型的方法在医学上有重要的应用。自动化的医学图像处理和分析为医学诊断提供了强有力的工具。在这项工作中,我们处理的问题,白血球分类的基础上,其外部轮廓,颜色的形态特征。我们将探索一套预处理和分割(基于颜色的分割、形态学处理、轮廓)算法以及一套特征提取方法(角点检测算法和梯度直方图(HOG)),降维算法(主成分分析(PCA)),能够通过各种无监督(k-近邻)和有监督(支持向量机、决策树、线性判别分析、二次判别分析、,朴素贝叶斯(naivebayes)算法将不同类别的白细胞分为嗜酸性粒细胞、淋巴细胞、单核细胞和中性粒细胞。我们甚至向前迈出了一步,探索各种深度卷积神经网络架构(Sqeezent、MobilenetV1、MobilenetV2、InceptionNet等),无需预处理/分割和预处理。我们希望探索许多算法来识别时间复杂度最低、资源需求较低的鲁棒算法。这项工作的结果可以作为根据自动血细胞分类的要求选择算法的线索。

摘要:随着机器学习模型变得越来越复杂,它们的应用变得越来越重要,解释模型预测的工具变得越来越重要。尽管可解释性技术被广泛使用,评估和比较不同的特征属性方法仍然具有挑战性:评估理想情况下需要人类研究,而经验评估指标在实际数据集的计算上往往是禁止的。在这项工作中,我们通过发布XAI Bench来解决这个问题:一套合成数据集和一个用于基准特性属性算法的库。与真实世界的数据集不同,合成数据集允许有效地计算条件期望值,这些值是评估基本真值Shapley值和其他度量所需的。我们发布的合成数据集提供了各种各样的参数,可以配置这些参数来模拟真实世界的数据。我们通过对流行的解释性技术进行多个评估指标的基准测试,并识别流行解释者的失败模式,来展示我们的库的强大功能。我们图书馆的效率将有助于从开发到部署带来新的解释方法。

摘要:我们研究了有限分类器集合上多数票的随机对应,并研究了它的泛化性质。虽然我们的方法适用于任意分布,但我们用Dirichlet分布来实例化它:这允许期望风险的一个封闭形式和可微表达式,然后将泛化界转化为一个可处理的训练目标。由此产生的随机多数投票学习算法达到了最先进的精度,并受益于(非真空)严格的泛化边界,在一系列的数值实验中,当与同样最小化PAC贝叶斯目标的竞争算法进行比较时——既有不知情的(数据独立的)先验,也有知情的(数据依赖的)先验。

摘要:最近的文献报道了神经结构搜索的进展,以及连接结构的可解释性和可解释性。然而,我们对于如何设计贝叶斯深度学习(BDL)超参数,特别是深度、宽度和集合大小的理解,对于具有不确定性量化的鲁棒函数映射,仍然是新兴的。本文试图通过将贝叶斯连接表示映射到具有不同噪声类型和比率的不同阶多项式来加深我们的理解。我们研究噪声污染多项式来寻找超参数的组合,这些超参数可以提取出潜在的多项式信号,同时基于噪声属性量化不确定性。具体地说,我们试图研究这样一个问题:可以找到一个合适的神经结构和集合配置来检测任何n阶多项式的信号,该信号被具有不同分布和信噪比以及不同噪声属性的噪声污染。我们的结果表明,可能存在一个最佳的网络深度以及预测技巧和不确定性量化的最佳集合数,分别。然而,宽度的最优性是不可辨别的,即使在高宽度值时,性能增益随着宽度的增加而减小。我们的实验和见解对理解BDL表示的理论性质和设计实际的解决方案具有指导意义。

摘要:从大量训练实例中选择数据子集是一种高效、经济的机器学习方法。然而,在较小子集上训练的模型泛化能力较差。在本文中,我们的目标是设计一个选择训练数据子集的算法,以便在不显著牺牲精度的情况下快速训练模型。更具体地说,我们专注于L2正则化回归问题的数据子集选择,并提供了一个新的问题公式,该公式寻求在验证集上受误差界影响的情况下,最小化关于可训练参数和训练数据子集的训练损失。我们通过一些技术创新来解决这个问题。首先,我们使用原始训练问题的对偶,用简化的约束来表示这个问题,并且证明这个新表示的目标是一个单调的α-子模函数,用于各种各样的建模选择。这样的性质使得我们开发了SELCON,一种有效的数据子集选择优化最小化算法,它允许一个近似保证,即使训练提供了训练模型的不完全估计。最后,我们在多个数据集上的实验表明,SELCON比目前的最新技术更有效地权衡了准确性和效率。

摘要:众所周知,金融收益之间存在着不对称的依赖结构。在本文中,我们使用一种新的非参数的局部相关性度量,即局部高斯相关性来改进投资组合的配置。我们扩展了经典的均值-方差框架,并证明使用我们的新方法,投资组合优化是简单的,只依赖于一个调整参数(带宽)。对于月度资产收益数据,新方法的表现优于等权(1/N)投资组合和经典Markowitz投资组合。

摘要:我们观察到,尽管他们的层次卷积性质,合成过程中的典型生成对手网络依赖于绝对像素坐标在一个不健康的方式。这表现为,例如,细节似乎被粘在图像坐标上,而不是被描绘对象的表面。我们追踪的根本原因是粗心的信号处理,造成混叠在发电机网络。将网络中的所有信号解释为连续的,我们导出了普遍适用的、小的体系结构更改,以保证不需要的信息不会泄漏到分层合成过程中。得到的网络与StyleGAN2的FID匹配,但在内部表示上有很大的不同,即使在亚像素尺度上,它们也完全等同于平移和旋转。我们的结果为更适合视频和动画的生成模型铺平了道路。

摘要:机器学习算法从输入数据和目标输出的模式中训练模型,目的是为看不见的测试输入预测正确的输出。在这里,我们展示了机器学习在医学信息学或专利法等重要应用领域中的一个问题,它包括在输入数据表示中确定定义目标输出的测量。这将导致基于已知目标定义的机器重构的完美但循环的预测,但在实际数据上失败,其中定义的测量可能不可用或仅不完全可用。对给定的数据集和黑盒机器学习模型进行了循环性检验,检验了目标函数定义是否可以重构并用于训练。我们认为,将研究成果转移到现实世界的应用需要通过将定义目标结果的度量与机器学习中的数据表示分离来避免循环性。

摘要:将人工神经网络(ANN)应用到特定任务中,研究人员、程序员和其他专家通常会在设计中过多地使用卷积层。这意味着,这些人工神经网络包含太多的参数,需要在不影响结果的情况下进行不必要的训练。卷积层所能处理的特征受到其感受野的严格限制。通过逐层分析感受野的扩展,我们可以可靠地预测在给定的神经网络结构中,对推理没有定性贡献的层序列。基于这些分析,我们提出了解决这些低效率的设计策略,优化了人工神经网络的可解释性和计算性能。由于这些策略和分析都不需要对实际模型进行训练,因此这些洞察使得人工神经网络体系结构的设计过程非常有效,将来可能会实现自动化。

摘要:联邦学习(FL)已经成为一种活跃的、有前途的分布式机器学习模式。由于统计上的异质性,最近的研究清楚地表明,流行的FL方法(例如FedAvg)的性能由于本地更新引起的客户端漂移而急剧恶化。本文提出了一种新的联合学习算法(IGFL),它利用个体和群体的行为来模拟分布,从而提高了对异质性的处理能力。与现有的FL方法不同,我们的IGFL可以应用于客户机和服务器优化。作为一个副产品,我们提出了一种新的基于注意的联邦学习在服务器优化的IGFL。据我们所知,这是第一次将注意机制纳入联邦优化。我们进行了大量的实验,结果表明IGFL可以显著提高现有联邦学习方法的性能。特别是当个体间的数据分布不同时,IGFL可以将分类精度提高13%左右。

摘要:通常,人口研究的特点是金字塔组织的数据表示使用层次贝叶斯模型(HBM)丰富的板块。这些模型在神经成像(neuroimaging)等环境中可能会变得异常庞大,其中一个样本由一个功能性MRI信号组成,该信号在4个测量环节中,在6.4万个大脑位置进行测量,至少有数十名受试者。即使是在300个大脑位置的特定皮层区域上的一个简化例子,也会有大约100万个参数,这妨碍了基于模拟的推理(SBI)等现代密度估计技术的使用。为了在这类具有挑战性的问题中推断参数的后验分布,我们设计了一种新的方法来自动产生一个变分族对偶到目标HBM。这个变量族表示为一个神经网络,由一个基于注意的分层编码器组合而成,该编码器将摘要统计信息提供给一组规范化流。我们自动导出的神经网络利用了厚板的可交换性,并对其参数空间进行因子分解。由此产生的体系结构相对于典型的SBI表示减少了几个数量级的参数化,同时保持了表达能力。我们的方法在摊销设置中对指定的HBM进行推断:一旦训练,它可以很容易地应用于新的数据样本来计算参数的全后验概率。我们证明了我们的方法对模拟数据的能力,以及一个具有挑战性的高维大脑分割实验。我们还提出了SBI技术和结构化变分推理交叉的几个问题。

摘要:我们提供了一个设置和一般方法,公平的在线学习随机敏感和非敏感的背景。场景是玩家和自然之间的重复游戏,在每个阶段,双方都根据上下文选择动作。受无意识概念的启发,我们假设玩家在做出决定之前只能访问非敏感上下文,同时我们讨论了自然访问敏感上下文和自然不知道敏感上下文的两种情况。利用Blackwell的可接近性理论处理未知上下文分布的情况,给出了学习目标与公平约束相容的一般充要条件。这一条件在(分组)无遗憾和(分组)校准目标以及作为附加约束的人口均等上被实例化。当目标与约束不相容时,所提供的框架允许描述两者之间的最佳权衡。

摘要:本文研究了一个经典的在线学习问题——多武装土匪的后悔最小化问题。为了开发更有效的统计算法,我们建议使用随机效应模型的假设。在这个模型中,武器的平均报酬是独立于我们估计的参数的未知分布而得出的。我们给出了该模型中arm均值的估计量,并对其不确定性进行了分析。基于这些结果,我们设计了一个UCB算法,我们称之为ReUCB。我们分析了ReUCB,并证明了它的$n$轮遗憾上的Bayes遗憾界与现有的下限相匹配。我们的实验表明,ReUCB可以在各种情况下优于Thompson抽样,而不必假设arm均值的先验分布是已知的。

摘要:这项工作处理的公平性问题的背景下产生的程序,如图像超分辨率,这需要不同的定义,从标准的分类设置。此外,虽然传统的群体公平性定义通常是针对特定的受保护群体来定义的——掩盖了这些群体是人为的、带有历史和政治动机这一事实——但我们强调,没有基本的真相认同。例如,南亚人和东亚人应该被视为一个单独的群体还是单独的群体?我们应该把一个种族看作一个整体,还是按性别进一步划分?选择哪些群体是有效的,谁属于他们是一个不可能的两难选择,对亚洲人来说“公平”可能要求对南亚人来说“不公平”。这推动了定义的引入,允许算法对相关分组是不经意的。我们定义了群体公平的几个直观概念,并研究了它们的不相容性和取舍。我们证明了人口均等的自然扩展强烈地依赖于分组,并且{不可能}被遗忘地实现。另一方面,我们引入的新定义,条件比例表示,可以通过后验抽样实现。我们的实验验证了我们的理论结果,并使用最先进的生成模型实现了公平的图像重建。

摘要:高斯过程是贝叶斯学习的主要方法之一。虽然这种方法已成功地应用于许多问题,但它有一些基本的局限性。文献中的多种方法解决了这些局限性。然而,到目前为止,还没有对这些主题进行全面的调查。现有的大多数研究只关注高斯过程及其导数的一种特殊变体。这项调查详细说明了使用高斯过程的核心动机,它们的数学公式,局限性,以及多年来蓬勃发展的研究主题,以解决上述局限性。此外,深高斯过程(DGPs)是一个特殊的研究领域,在过去的十年中得到了很大的发展。他们的调查概述了推动这一研究领域前沿的重要出版物。最后,对存在的问题和今后的研究方向进行了简要的讨论。

摘要:当源域有足够的数据,而目标域的标记数据很少时,迁移学习是必不可少的。我们发展估计,实现最小最大线性风险的线性回归问题的分布转移。我们的算法涵盖了不同的迁移学习设置,包括协变量移位和模型移位。我们还考虑了从线性或一般非线性模型生成数据的时间。我们证明了线性minimax估计在minimax风险的绝对常数范围内,即使在各种源/目标分布的非线性估计中也是如此。

摘要:许多机器学习技术在模型中加入了保持身份的变换,将其性能推广到以前看不到的数据中。这些变换通常是从一组已知的函数中选择的,这些函数在应用时可以保持输入的一致性(例如,旋转、平移、翻转和缩放)。然而,有许多自然变化不能被标记以供监督或通过检查数据来定义。正如流形假说所建议的,许多这些自然变化存在于或接近低维非线性流形上。有几种技术通过一组学习的李群算子来表示流形变化,李群算子定义流形上的运动方向。然而,这些方法是有限的,因为它们在训练模型时需要变换标签,并且它们缺乏一种方法来确定流形的哪些区域适合应用每个特定的操作符。我们通过引入一种不需要变换标签的学习策略来解决这些限制,并开发了一种方法来学习每个操作符可能被使用的局部区域,同时保持输入的身份。在MNIST和Fashion-MNIST上的实验突出了我们的模型在多类数据集上学习身份保持转换的能力。此外,我们在CelebA上进行训练,以展示我们的模型以无监督的方式学习复杂数据集上语义上有意义的转换的能力。

摘要:在主动学习中,新标签通常是成批获得的。然而,常见的采集函数一次只能用于一个样本采集轮,当它们的分数被天真地用于批量采集时,它们会导致批次缺乏多样性,从而降低性能。另一方面,最先进的批量采集函数的计算成本很高。在本文中,我们提出了一类新的随机获取函数,通过观察一个样本的获取分数随额外样本的获取而变化,并对额外批次样本的这种差异进行建模,将一个样本的获取函数扩展到批次设置。我们只需根据采集分数,使用Gibbs分布从池集中采样,就可以获得新的样本。我们的采集函数在计算和执行其他批量采集函数时都要便宜得多。

摘要:超统计是非平衡统计物理中的一种通用方法,已被广泛应用于各种复杂系统,从流体动力湍流到交通延误和空气污染动力学。在这里,我们调查了河流中测量的水质时间序列(如溶解氧浓度和电导率),并提供了它们表现出超统计行为的证据。我们的主要例子是英格兰东南部河棋中记录的时间序列。具体来说,我们使用季节性去趋势和经验模式分解(EMD)来分离测量数据的趋势和波动。无论采用哪种去趋势方法,我们都观察到了重尾涨落分布,这是由溶解氧的对数正态超统计很好地描述的。相反,我们发现电导率数据的双峰非标准超统计,我们使用两个组合的$\chi^2$-分布来建模。

摘要:我们介绍了KrigR,一个R软件包,用于使用kriging获取和统计降尺度最新的气候数据。KrigR允许R用户(1)下载用户指定区域的ERA5和ERA5陆地气候再分析数据和时间长度,(2)将这些气候产品聚合到所需的时间分辨率和度量,(3)获取地形协变量,以及(4)通过kriging使用协变量数据统计地将空间数据缩小到用户指定的分辨率。KrigR可以在一个函数调用中执行所有这些任务,从而使用户能够用一个R命令以高时空分辨率获得83(ERA5)/50(ERA5-Land)气候变量中的任何一个。因此,KrigR提供了一个工具箱,以前所未有的高时间和空间分辨率组合获得大量定制的气候数据。此外,我们还演示了如何将KrigR进行划分,以便在kriging步骤中使用任何给定的气候数据集和第三方/用户提供的协变量,并通过提供降尺度的不确定性,与其他高分辨率数据集相比带来优势,这可以解释现有几种高分辨率气候产品之间的差异。

摘要:机器学习中一个越来越常见的设置涉及多方,每一方都有自己的数据,他们希望共同预测未来的测试点。代理希望从全套代理的集体专业知识中获益,以便做出比单个代理更好的预测,但可能不愿意公布其数据或模型参数。在这项工作中,我们探索了一种分散的机制来在测试时进行集体预测,利用每个代理预先训练的模型,而不依赖于外部验证、模型再训练或数据池。我们的方法从社会科学文献中获得了关于人类共识形成的启示。我们从理论上分析了我们的机制,结果表明它在大样本限制下收敛于逆均方误差加权。为了计算集体预测的误差线,我们提出了一个分散的Jackknife过程,评估我们的机制对单个代理预测的敏感性。在经验上,我们证明了我们的方案有效地结合了输入空间中不同质量的模型。所提出的一致性预测比经典的模型平均法获得了显著的收益,甚至优于可以获得额外验证数据的加权平均法。

摘要:近年来,学习型迭代收缩阈值算法(LISTA)的研究越来越受到人们的关注。大量的实验和理论证明了LISTA在解决稀疏编码问题上的高效性。然而,现有的LISTA方法都是串行连接。为了解决这个问题,我们提出了一种新的基于超梯度的LISTA(ELISTA),它具有剩余结构和理论保证。特别是,我们的算法也能在一定程度上为Res网提供可解释性。从理论上证明了该方法具有线性收敛性。在实践中,大量的实证结果验证了该方法的优越性。

}

出版物经营许可证:新出发苏零字第苏吴中217号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!

}

证券投资组合理论复习题目和答案(附有重点知识整理)

证券投资组合理论复习题目和答案(附有重点知识整理)

[版权声明] 本站所有资料由用户提供并上传,若内容存在侵权,请联系邮箱。资料中的图片、字体、音乐等需版权方额外授权,请谨慎使用。网站中党政主题相关内容(国旗、国徽、党徽)仅限个人学习分享使用,禁止广告使用和商用。

还剩 10 页未读, 点击可继续阅读 >

}

我要回帖

更多关于 下列哪种情况是不可分散风险的例子 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信