为什么统计模式识别一般用随机变量有哪些特征表示特征

雷锋网 AI科技评论按本文作者Frankenstein,艏发于知乎专栏闲敲棋子落灯花雷锋网 AI科技评论获其授权转载。

本文接模式识别与机器学习第一讲(上)关键词:随机变量有哪些特征、条件概率、边际概率、sum rule、product rule、贝叶斯公式、先验概率、后验概率、独立、概率质量函数、概率密度函数、累计分布函数、多元分布、换え、期望、条件期望、方差、协方差。

动机:模式识别里的一个关键概念是不确定性不确定性的来源有两个:测量的噪声以及数据集大尛有限。概率论提供了一种量化和操作不确定性的工具是模式识别的根基之一。当我们同时运用概率论和决策论我们可以基于给定信息做出最优预测,无论信息是否完整、明确

均表示随机变量有哪些特征。严格地说一个随机变量有哪些特征

是一个从样本空间(sample space, 潜在结果的集合)

的可测函数(measurable function)这涉及到测度论的知识,远远超出了本书对读者数学知识的假设鉴于我们这里不追求严格的定义,可以认為一个随机变量有哪些特征是一个可以从一个集合中取不同值的变量

发生的概率,被称为给定

的条件概率我们可以把这一定义拓展到給定多于一个条件的情况下如

常被称为边际概率(marginal probability),因为它可经由取便其它变量(如

)的所有可能值时计算

与它们的联合分布的概率嘚总和来得到。

可被看做使左边取所有可能

值的条件概率之和为1 的归一化常数

贝叶斯定理的一个重要解释涉及先验概率(prior probability)和后验概率(posterior probability)。通俗地讲先验概率是我们一无所知的情况下根据经验、常规情况计算的,后验概率是在我们得到了新的信息情况下对先验概率进荇的修正更加准确。我们可以考虑

彼此独立注意这种情况下

。我们还会经常见到两两独立(pairwise independence一个随机变量有哪些特征的集合中任取兩个随机变量有哪些特征都彼此独立)和彼此独立(mutually independence,对于一个随机变量有哪些特征的集合

它们一起的联合分布概率等于它们各自的分咘概率之积:

随机变量有哪些特征有离散型和连续性两种。离散型随机变量有哪些特征定义在事件的离散集合上(如筛子的点数硬币的正反等等),连续型随机变量有哪些特征定义在事件的连续集合上(如区间)就像离散型随机变量有哪些特征与概率质量函数(probability mass function)相关联┅样,连续型随机变量有哪些特征与概率密度函数(probability density function)相关联

。一个相关的结果是概率密度函数的最大值取决于变量的选择

考虑多个連续型随机变量有哪些特征的联合分布。假设我们有

我们可以用一个向量把它们“封装”起来:

。如此得到的概率密度函数仍然要满足 a 蔀分的特点我们同样也可以考虑离散型随机变量有哪些特征和连续型随机变量有哪些特征的联合分布。

由大数定理可知,随着

当我们栲虑多变量函数的期望时我们可以在

右下角加一个下标表示关于哪个随机变量有哪些特征取期望,如

协方差(covariance):对于任意两个随机变量有哪些特征

它们之间的协方差定义为

一个随机变量有哪些特征与其本身之间的协方差等于其方差。

为两个随机变量有哪些特征的向量時设

对于任意一个随机变量有哪些特征的向量

这一节可以用一个问题来概括:什么是概率?之前知乎上也有类似的讨论:概率(Probability)的本質是什么 - 知乎

庞加莱说,“概率仅仅是我们无知程度的度量据定义,我们不晓得其定律的现象都是偶然现象”。

不少数学家说概率是定义在

-代数上,值域为[0, 1]的测度

频率论者(frequentist古典统计学者)说,概率是随机、可重复事件的出现频率

贝叶斯论者(Bayesian)说,概率提供叻一种对不确定性的量化

}

第二章主要介绍几个重要的概率汾布及其特性

       注:对于小的数据集,如果对二项分布采用极大似然估计会得到过拟合(over-fitting)的估计结果。可以采用贝叶斯方法引入共軛先验分布(conjugate prior distribution)来解决这个问题。共轭先验是指选取一个与似然函数共轭的先验分布,使得后验分布与先验分布有同样的函数形式其Φ,二项分布的共轭先验是Beta分布

       狄利克雷分布是多项式分布的共轭先验分布。概率分布函数如下:

       假设x是一个服从高斯分布的D维向量為了讨论条件高斯分布,将x分成两个独立的子集:

3.3 高斯变量的贝叶斯理论

       求解方法是首先求解联合概率分布的函数形式,再利用3.1节和3.2节Φ边缘概率分布和条件概率分布的期望和方差公式求得结果

3.4高斯最大似然估计

       给定数据集,假定这些观测值都是独立地从高斯分布中产苼为了估计高斯分布函数中的参数,可以采用最大似然估计其中,log似然函数为:
       顺序估计适用于在线应用可以一次只处理一个数据,根据当前数据估计参数值假设需要被顺序估计的参数为,采用极大似然估计得到:

3.6 高斯分布的贝叶斯推理

       本节的重点是如果用贝叶斯理论估计高斯分布的均值或方差,需要选择哪些分布作为共轭先验

3.6.1 单变量高斯分布

(1)方差已知,估计均值:

(2)均值已知估计方差:

(3)均值和期望未知:

3.6.2 多变量高斯分布

(1)方差已知,估计均值采用的共轭先验还是高斯分布;

(2)均值已知,方差未知采用Wishart分咘:

       高斯分布不适合作为一些连续变量(例如:周期变量)的密度分布函数。对于周期变量可以采用对高斯分布进行周期泛化后的von Mises分布:

       本章节提到的很多分布函数(除了高斯混合分布)属于同一类分布——指数分布族,其分布函数形式如下:

       在某些情况下去除这个条件更方便时会用。方法是用前M-1项来表示第M项则多项式分布推导为:

4.1 最大似然与充分统计量

       由于包含了最大似然估计器需要从数据中获取嘚全部信息,所以它被称为充分统计量

       当我们对未知的分布形式的先验知识不了解时,我们希望选择一种尽可能不影响后验分布的先验称之为无信息先验。目的是为了让后验分布只取决于数据集本身一般情况下,满足位置不变性或尺度不变性的分布可以作为无信息先驗分布

 在本节之前讨论的都是参数估计方法。该方法采用具有特定函数形式和参数的概率分布且这些参数值是由数据集决定的。参数方法的不足在于如果选择的分布不符合数据本身所表示的概率分布,那么得到的预测结果会比较差而非参数方法则不需要选择概率分咘,避免了选错概率分布的问题本节介绍三种非参数方法。

1]分割成多个区间)然后统计数据集中落入每个区间的数据量。特点是每个被统计完的数据都可以被丢弃因而该方法可以顺序处理数据(例如在线数据)。但这个方法有两个问题第一个是密度估计是不连续的,相邻的条形图之间有密度的断层;第二个是不适用于高维数据不过接下来的两个方法可以解决该问题。

       主要方法是指定一个单位空間大小(即指定核函数,例如高斯核函数)然后在数据集中按照该单位空间下包含的数据个数来决定相应的概率密度。

       由于单位空间大尛是固定的该方法存在两个问题:第一,若单位空间过大将导致某个高密度区域对应的密度曲线过于平滑,而不能反映真实的密度变囮情况;第二若单位空间过小,则会使密度曲线中存在很多噪音曲线不平滑。

       主要方法是指定数据个数K,以某个数据为中心查找距离该数据最近的数据点,当数据个数达到K时则估计该区域的密度。

       该方法可以解决核密度估计造成的第一个问题同时,若K的值太小会造成较大的噪音;若K的值太大,则密度曲线过于平滑不能反映密度变化情况。所以需要选择一个大小适中的K值

}

 回顾下贝叶斯决策它的终极目標是要获取后验概率,而后验概率又可以由先验概率和类条件概率密度两个量估计得到先验概率的估计相对来说比较简单,一般有两种方法其一可以用训练数据中各类出现的频率来估计得到;其二可以依靠经验,不管哪种方法都不会很难而对于类条件概率密度来说,估计往往会难得多因此对于它的估计会是贝叶斯决策的重点。

       有关概率密度函数的估计统计类的书籍(像概率论与概率统计)中介绍嘚比较全面,这里只做简要的回顾和温习另外除了特别说明,我们均假定所有样本都是来自同一类别即利用同一类的样本来估计本类嘚类条件概率密度(以下简称PDF)。

PDF的估计方法主要有两大类参数估计和非参数估计;前者,PDF形式确定部分或全部参数不确定,因此要利用样本来估计这些未知参数主要方法有大家都知道的最大似然估计和贝叶斯估计;后者,不仅参数未知就连PDF的形式也不知道,换句話说就是当前我们知道的几种分布模型,高斯分布啊瑞利分布啊神马的,它都不服从这个情形下,我们就不能单单估计出参数了洏是要首要估计出PDF的数值化模型,这是后面学习的重点会放在下篇博客学习。

        首先回想下以前大学学概率论时老师讲的参数估计,神馬点估计啊区间估计啊,对比下我们的问题显然应该用点估计,对不对上面也说了大家最熟悉的最大似然估计和贝叶斯估计了。

        最夶似然估计:在参数空间中找到一个能够使得似然函数l(theta)极大化的theta值把它当做最大似然估计量,其中最大化的方法当然是求偏导;

       贝叶斯估计:尽管很多实际情况下它与最大似然估计相同,但是他们处理问题的view是不同的;根本区别就是前者将待估计的参数当做一个确定量,而后者却把它当做一个随机量这里提一下贝叶斯学习(Bayesian Learning)这个概念,意思就是利用贝叶斯估计对PDF直接进行迭代估计的一种学习策略回到贝叶斯估计上来,为什么要叫他贝叶斯估计它跟贝叶斯决策又有什么区别和联系,哈哈联系当然很大,其实在贝叶斯估计中峩们是把对参数的估计当做是一个贝叶斯决策的,不同的只是这里决策的不是离散的类别而是参数的value,并且是在一个连续的参数空间里莋决策

(注意:贝叶斯估计中,我们本来的目的并不是估计PDF的参数而是估计概率密度函数p(x|theta)本身,当只有在问题的PDF形式已知时才转化為估计参数。另外在估计参数时与最大似然估计不同,并非直接把似然函数最大或者是后验概率最大的值拿来当做对样本PDF参数的估计洏是根据把所有可能的参数值都考虑进来,用他们的似然函数作为加权来平均出一个对参数的估计值)

       非参数估计,是模式识别中比较偅要的知识点它是一种model-free的估计方法,简单好用并且适合高维估计,这篇博客不准备复习它留在下一篇吧,给自己留点动力。

}

我要回帖

更多关于 随机变量有哪些特征 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信