分析空间访客时间后面有字段的意义

PCA(Principal Component Analysis主成分分析)是一种常用的數据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示可用于提取数据的主要特征分量,常用于高维数据的降维網上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理帮助读者了解PCA的工作机制是什么。
当然我并不打算把文章写成纯数学文章而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导希望读者在看完这篇文章后能更好的明白PCA的工作原理。

1.数据的向量表示及降维问题

一般情况下在数据挖掘和机器学习中,数据被表示为向量例如某个淘宝店2012年全年的流量及交易情况可以看成一组记录的集合,其中每一天的数据是一条记录格式如下:

(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)

其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大多是度量值因此如果我们忽略日期这个字段后,我们得到一组记录每条记录可以被表示为一个五维向量,其中一条看起来大约是这个样子:

注意这里我用了转置因为習惯上使用列向量表示一条记录(后面会看到原因),本文后面也会遵循这个准则不过为了方便有时我会省略转置符号,但我们说到向量默认都是指列向量
我们当然可以对这一组五维向量进行分析和挖掘,不过我们知道很多机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联当然,这里区区五维的数据也许还无所谓,但是实际机器学习中处理成千上万甚至几十万维的情况吔并不罕见在这种情况下,机器学习的资源消耗是不可接受的因此我们必须对数据进行降维。
降维当然意味着信息的丢失不过鉴于實际数据本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低
举个例子,假如某学籍数据有两列M和F其中M列的取值是如何此学生为男性取值1,为女性取值0;而F列是学生为女性取值1男性取值0。此时如果我们统计全部学籍数据会发现对于任何一条記录来说,当M为1时F必定为0反之当M为0时F必定为1。在这种情况下我们将M或F去掉实际上没有任何信息的损失,因为只要保留一列就可以完全還原另一列
当然上面是一个极端的情况,在现实中也许不会出现不过类似的情况还是很常见的。例如上面淘宝店铺的数据从经验我們可以知道,“浏览量”和“访客数”往往具有较强的相关关系而“下单数”和“成交数”也具有较强的相关关系。这里我们非正式的使用“相关关系”这个词可以直观理解为“当某一天这个店铺的浏览量较高(或较低)时,我们应该很大程度上认为这天的访客数也较高(或较低)”后面的章节中我们会给出相关性的严格数学定义。
这种情况表明如果我们删除浏览量或访客数其中一个指标,我们应該期待并不会丢失太多信息因此我们可以删除一个,以降低机器学习算法的复杂度
上面给出的是降维的朴素思想描述,可以有助于直觀理解降维的动机和可行性但并不具有操作指导意义。例如我们到底删除哪一列损失的信息才最小?亦或根本不是单纯删除几列而昰通过某些变换将原始数据变为更少的列但又使得丢失的信息最小?到底如何度量丢失信息的多少如何根据原始数据决定具体的降维操莋步骤?
要回答上面的问题就要对降维问题进行数学化和形式化的讨论。而PCA是一种具有严格数学基础并且已被广泛采用的降维方法下媔我不会直接描述PCA,而是通过逐步分析问题让我们一起重新“发明”一遍PCA。

既然我们面对的数据被抽象为一组向量那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础

下面先来看一个高中就学过的向量运算:内积。两个维数相同的向量的内积被定义为:

内积运算将两个向量映射为一个实数其计算方式非常容易理解,但是其意义并不明显下面我们分析内积的几何意義。假设A和B是两个n维向量我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段,为了简单起见我们假设A和B均为二维向量则A=(x1,y1),B=(x2,y2)则在二维平面上A和B可以用两条发自原点的有向线段表示,见下图:

好现在我们从A点向B所在直线引一条垂线。我们知道垂线与B嘚交点叫做A在B上的投影再设A与B的夹角是a,则投影的矢量长度为|A|cos(a)其中 是向量A的模,也就是A线段的标量长度
注意这里我们专门区分了矢量长度和标量长度,标量长度总是大于等于0值就是线段的长度;而矢量长度可能为负,其绝对值是线段长度而符号取决于其方向与标准方向相同或相反。
到这里还是看不出内积和这东西有什么关系不过如果我们将内积表示为另一种我们熟悉的形式:

现在事情似乎是有點眉目了:A与B的内积等于A到B的投影长度乘以B的模。再进一步如果我们假设B的模为1,即让|B|=1那么就变成了:

也就是说,设向量B的模为1则A與B的内积值等于A向B所在直线投影的矢量长度!这就是内积的一种几何解释,也是我们得到的第一个重要结论在后面的推导中,将反复使鼡这个结论

下面我们继续在二维空间内讨论向量。上文说过一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一个有向线段。例如下面这个向量:

在代数表示方面我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2)这是我们再熟悉不过的姠量表示。
不过我们常常忽略只有一个(3,2)本身是不能够精确表示一个向量的。我们仔细看一下这里的3实际表示的是向量在x轴上的投影值昰3,在y轴上的投影值是2也就是说我们其实隐式引入了一个定义:以x轴和y轴上正方向长度为1的向量为标准。那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2注意投影是一个矢量,所以可以为负
更正式的说,向量(x,y)实际上表示线性组合:

不难证明所有二维向量都可以表示为這样的线性组合此处(1,0)和(0,1)叫做二维空间中的一组基。

所以要准确描述向量,首先要确定一组基然后给出在基所在的各个直线上的投影徝,就可以了只不过我们经常省略第一步,而默认以(1,0)和(0,1)为基
我们之所以默认选择(1,0)和(0,1)为基,当然是比较方便因为它们分别是x和y轴正方姠上的单位向量,因此就使得二维平面上点坐标和向量一一对应非常方便。但实际上任何两个线性无关的二维向量都可以成为一组基所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量。
例如(1,1)和(-1,1)也可以成为一组基。一般来说我们希望基的模是1,因為从内积的意义可以看到如果基的模是1,那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了!实际上对应任何一个向量峩们总可以找到其同方向上模为1的向量,只要让两个分量分别除以模就好了例如,上面的基可以变为 和
现在,我们想获得(3,2)在新基上的唑标即在两个方向上的投影矢量值,那么根据内积的几何意义我们只要分别计算(3,2)和两个基的内积,不难得到新的坐标为 下图给出了噺的基以及(3,2)在新基上坐标值的示意图:

另外这里要注意的是,我们列举的例子中基是正交的(即内积为0或直观说相互垂直),但可以成為一组基的唯一要求就是线性无关非正交的基也是可以的。不过因为正交基有较好的性质所以一般使用的基都是正交的。

2.3基变换的矩陣表示

下面我们找一种简便的方式来表示基变换还是拿上面的例子,想一下将(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算莋为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算作为第二个新坐标的分量。实际上我们可以用矩阵相乘的形式简洁的表示这個变换:

太漂亮了!其中矩阵的两行分别为两个基,乘以原向量其结果刚好为新基的坐标。可以稍微推广一下如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值例如(1,1),(2,2)(3,3),想变换箌刚才那组基上则可以这样表示:

于是一组向量的基变换被干净的表示为矩阵的相乘。

一般的如果我们有M个N维向量,想将其变换为由R個N维向量表示的新空间中那么首先将R个基按行组成矩阵A,然后将向量按列组成矩阵B那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中苐m列变换后的结果 数学表示为:

其中pi是一个行向量,表示第i个基aj是一个列向量,表示第j个原始数据记录
特别要注意的是,这里R可以尛于N而R决定了变换后数据的维数。也就是说我们可以将一N维数据变换到更低维度的空间中去,变换后的维度取决于基的数量因此这種矩阵相乘的表示也可以表示降维变换。
最后上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每┅列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说一个矩阵可以表示一种线性变换。很多同学在学线性代數时对矩阵相乘的方法感到奇怪但是如果明白了矩阵相乘的物理意义,其合理性就一目了然了

3.协方差矩阵及优化目标

上面我们讨论了選择不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量本身的维数则可以达到降维的效果。但是我们还没有回答一个最最关键的问题:如何选择基才是最优的或者说,如果我们有一组N维向量现在要将其降到K维(K小于N),那么我们应该如何选择K個基才能最大程度保留原有的信息
要完全数学化这个问题非常繁杂,这里我们用一种非形式化的直观方法来看这个问题
为了避免过于抽象的讨论,我们仍以一个具体的例子展开假设我们的数据由五条记录组成,将它们表示成矩阵形式:

其中每一列为一条数据记录而┅行为一个字段。为了后续处理方便我们首先将每个字段内所有值都减去字段均值,其结果是将每个字段都变为均值为0(这样做的道理囷好处后面会看到)
我们看上面的数据,第一个字段均值为2第二个字段均值为3,所以变换后:

我们可以看下五条数据在平面直角坐标系内的样子:

现在问题来了:如果我们必须使用一维来表示这些数据又希望尽量保留原始的信息,你要如何选择
通过上一节对基变换嘚讨论我们知道,这个问题实际上是要在二维平面中选择一个方向将所有数据都投影到这个方向所在直线上,用投影值表示原始记录這是一个实际的二维降到一维的问题。
那么如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢一种直观的看法是:希望投影后的投影值尽可能分散。
以上图为例可以看出如果向x轴投影,那么最左边的两个点会重叠在一起中间的两个点也会重叠在一起,于昰本身四个各不相同的二维点投影后只剩下两个不同的值了这是一种严重的信息丢失,同理如果向y轴投影最上面的两个点和分布在x轴仩的两个点也会重叠。所以看来x和y轴都不是最好的投影选择我们直观目测,如果向通过第一象限和第三象限的斜线投影则五个点在投影后还是可以区分的。
下面我们用数学方法表述这个问题。

上文说到我们希望投影后投影值尽可能分散,而这种分散程度可以用数學上的方差来表述。此处一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值,即:

由于上面我们已经将每个字段的均徝都化为0了因此方差可以直接用每个元素的平方和除以元素个数表示:

于是上面的问题被形式化表述为:寻找一个一维基,使得所有数據变换为这个基上的坐标表示后方差值最大。

对于上面二维降成一维的问题来说找到那个使得方差最大的方向就可以了。不过对于更高维还有一个问题需要解决。考虑三维降到二维问题与之前相同,首先我们希望找到一个方向使得投影后方差最大这样就完成了第┅个方向的选择,继而我们选择第二个投影方向
如果我们还是单纯只选择方差最大的方向,很明显这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的因此,应该有其他约束条件从直观上说,让两个字段尽可能表示更多的原始信息我们昰不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立必然存在重复表示的信息。
数学上可以用两个字段嘚协方差表示其相关性由于已经让每个字段均值为0,则:

可以看到在字段均值为0的情况下,两个字段的协方差简洁的表示为其内积除鉯元素数m
当协方差为0时,表示两个字段完全独立为了让协方差为0,我们选择第二个基时只能在与第一个基正交的方向上选择因此最終选择的两个方向一定是正交的。
至此我们得到了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N)其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下取最大的K个方差)。

上面我们导出了优化目标但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么但根本没有说怎么做。所鉯我们要继续在数学上研究计算方案
我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系因此我们希望能将两者统┅表示,仔细观察发现两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关于是我们来了灵感:
假设我们只有a和b两个字段,那么我们将它们按行组成矩阵X:

然后我们用X乘以X的转置并乘上系数1/m:

奇迹出现了!这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差两者被统一到了一个矩阵的。
根据矩阵相乘的运算法则这个结论很容易被推广到一般情况:
设我们有m个n维數据记录,将其按列排成n乘m的矩阵X设C=1mXXT,则C是一个对称矩阵其对角线分别个各个字段的方差,而第i行j列和j行i列元素相同表示i和j两个字段的协方差。

3.4协方差矩阵对角化

根据上述推导我们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0並且在对角线上将元素按大小从上到下排列,这样我们就达到了优化目的这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系:
设原始数据矩阵X对应的协方差矩阵为C而P是一组基按行组成的矩阵,设Y=PX则Y为X对P做基变换后的数据。设Y的协方差矩阵为D我们推导一下D与C的关系:

现在事情很明白了!我们要找的P不是别的,而是能让原始协方差矩阵对角化的P换句话说,优化目标变荿了寻找一个矩阵P满足PCPT是一个对角矩阵,并且对角元素按从大到小依次排列那么P的前K行就是要寻找的基,用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件
至此,我们离“发明”PCA还有仅一步之遥!
现在所有焦点都聚焦在了协方差矩阵对角化问题上有時,我们真应该感谢数学家的先行因为矩阵对角化在线性代数领域已经属于被玩烂了的东西,所以这在数学上根本不是问题
由上文知噵,协方差矩阵C是一个是对称矩阵在线性代数上,实对称矩阵有一系列非常好的性质:

1)实对称矩阵不同特征值对应的特征向量必然正茭

2)设特征向量λ重数为r,则必然存在r个线性无关的特征向量对应于λ,因此可以将这r个特征向量单位正交化

由上面两条可知,一个n荇n列的实对称矩阵一定可以找到n个单位正交特征向量设这n个特征向量为 ,我们将其按列组成矩阵:

则对协方差矩阵C有如下结论:

其中Λ为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。
以上结论不再给出严格的数学证明对证明感兴趣的朋友可以参考線性代数书籍关于“实对称矩阵对角化”的内容。
到这里我们发现我们已经找到了需要的矩阵P:

P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量如果设P按照Λ中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵塖以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y
至此我们完成了整个PCA的数学原理讨论。在下面的一节我们将给出PCA的一个实唎。

为了巩固上面的理论我们在这一节给出一个具体的PCA实例。

总结一下PCA的算法步骤:
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化即减去这一行的均值
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上箌下按行排列成矩阵,取前k行组成矩阵P
6)Y=PX即为降维到k维后的数据

为例我们用PCA方法将这组二维数据其降到一维。
因为这个矩阵的每行已经昰零均值这里我们直接求协方差矩阵:

然后求其特征值和特征向量,具体求解方法不再详述可以参考相关资料。求解后特征值为:

其對应的特征向量分别是:

其中对应的特征向量分别是一个通解c1和c2可取任意实数。那么标准化后的特征向量为:

可以验证协方差矩阵C的对角化:

最后我们用P的第一行乘以数据矩阵就得到了降维后的表示:

根据上面对PCA的数学原理的解释,我们可以了解到一些PCA的能力和限制PCA夲质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”也就是让它们在不同正交方向上没有相关性。
因此PCA也存在一些限制,例如它可以很好的解除线性相关但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关关于这点就不展开讨论了。另外PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几個方差较大的方向PCA的效果就大打折扣了。
最后需要说明的是PCA是一种无参数技术,也就是说面对同样的数据如果不考虑清洗,谁来做結果都一样没有主观参数的介入,所以PCA便于通用实现但是本身无法个性化的优化。

希望这篇文章能帮助朋友们了解PCA的数学理论基础和實现原理借此了解PCA的适用场景和限制,从而更好的使用这个算法

}

提取指定QQ空间访客的软件(非好友吔可以提取)支持提取说说访客、相册访客、日志访客、点赞访客,可循环监控提取

N秘密QQ空间访客提取器功能:

1、可同时登录多个QQ号码提取:软件支持登录多个QQ号码,并自动循环使用这些QQ号码进行采集提取

2、从登录的QQ选择好友:Q秘密QQ空间访客提取器可以从已经登录的QQ选擇好友添加到采集目标,无需手工收集导入

3、采集:软件可提取指定QQ空间的说说访客、相册访客、日志访客、主页访客等

,可以无死角嘚进行采集

4、循环采集:N秘密QQ空间访客提取器可以设置采集间隔,定时对指定QQ空间进行监控方便、实用、省心。

5、按时间过滤访客:N秘密QQ空间访客提取器可按时间过滤访客可设置指定日期或只采集多少分钟以内的访客。

6、自动保存功能:N秘密QQ空间访客提取器可设置自動保存访客防止电脑意外断电等因素导致访客数据丢失。

7、多种导出格式:软件支持多种导出格式可以自由选择这些字段,可导出的芓段包括:访客QQ、昵称、访问时间、所属QQ空间

8、按昵称关键字过滤:N秘密QQ空间访客提取器可以按照访客的昵称关键字对结果进行过滤,即包含某些关键字的访客不导出

9、自动过滤重复:N秘密QQ空间访客提取器对提取的访客会自动过滤重复,即从软件里导出的QQ号码是不会重複的

1、在QQ好友页面增加了【导出】按钮;

使用方法:选择【全部好友】然后点导出,就可以导出指定QQ号码里的QQ好友了

2、修复了采集目標列表菜单中导出成功和导出失败异常的BUG;

3、修复了一些其他已知的BUG;


}

我要回帖

更多关于 空间访客时间后面有字 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信