如何在手机上信息熵为0上存款500万

点击联系发帖人 时间：2020-06-06 12:53

信息熵为0

在机器学习中的决策树类算法中主要依靠信息熵为0熵的大小来选择重要的特征属性作为节点换分数据集从而获得训练结果

 计算给定数据集的香农熵

}

著作权归作者所有商业转载请聯系作者获得授权，非商业转载请注明出处

首先我们要区分信息熵为0量和信息熵为0熵的区别。

下面根据我的理解一步一步引出信息熵为0熵及其公式的来源：

先抛出信息熵为0熵公式如下：

其中 代表随机事件X为 的概率下面来逐步介绍信息熵为0熵的公式来源！

信息熵为0量是对信息熵为0的度量，就跟时间的度量是秒一样当我们考虑一个离散的随机变量x的时候，当我们观察到的这个变量的一个具体值的时候我們接收到了多少信息熵为0呢？

多少信息熵为0用信息熵为0量来衡量我们接受到的信息熵为0量跟具体发生的事件有关。

信息熵为0的大小跟随機事件的概率有关越小概率的事情发生了产生的信息熵为0量越大，如湖南产生的地震了；越大概率的事情发生了产生的信息熵为0量越小如太阳从东边升起来了（肯定发生嘛，没什么信息熵为0量）这很好理解！

脑补一下我们日常的对话：

师兄走过来跟我说，立波啊今忝你们湖南发生大地震了。

我：啊不可能吧，这么重量级的新闻！湖南多低的概率发生地震啊！师兄你告诉我的这件事，信息熵为0量巨大我马上打电话问问父母什么情况。

又来了一个师妹：立波师兄我发现了一个重要情报额，原来德川师兄有女朋友额~德川比师妹早進一年实验室全实验室同学都知道了这件事。我大笑一声：哈哈哈哈这件事大家都知道了，一点含金量都没有下次八卦一些其它有價值的新闻吧！orz，逃~

因此一个具体事件的信息熵为0量应该是随着其发生概率而递减的且不能为负。

但是这个表示信息熵为0量函数的形式怎么找呢

随着概率增大而减少的函数形式太多了！不要着急，我们还有下面这条性质

如果我们有俩个不相关的事件x和y那么我们观察到嘚俩个事件同时发生时获得的信息熵为0应该等于观察到的事件各自发生时获得的信息熵为0之和，即：

根据上面推导我们很容易看出h(x)一定與p(x)的对数有关（因为只有对数形式的真数相乘之后，能够对应对数的相加形式可以试试）。因此我们有信息熵为0量公式如下：

（1）为什麼有一个负号

其中负号是为了确保信息熵为0一定是正数或者是0，总不能为负数吧！

这是因为我们只需要信息熵为0量满足低概率事件x对應于高的信息熵为0量。那么对数的选择是任意的我们只是遵循信息熵为0论的普遍传统，使用2作为对数的底！

下面我们正式引出信息熵为0熵

信息熵为0量度量的是一个具体事件发生了所带来的信息熵为0，而熵则是在结果出来之前对可能产生的信息熵为0量的期望——考虑该随機变量的所有可能取值即所有可能发生事件所带来的信息熵为0量的期望。即

最终我们的公式来源推导完成了

这里我再说一个对信息熵為0熵的理解。信息熵为0熵还可以作为一个系统复杂程度的度量如果系统越复杂，出现不同情况的种类越多那么他的信息熵为0熵是比较夶的。

如果一个系统越简单出现情况种类很少（极端情况为1种情况，那么对应概率为1那么对应的信息熵为0熵为0），此时的信息熵为0熵較小

至于是如何编码使其平均长度最小的，参考[哈夫曼编码]就知道了

}