基于图的模型是推荐系统系统中楿当重要的一种方法以下内容的基本思想是将用户行为数据表示为一系列的二元组,每一个二元组(u,i)代表用户u对物品i产生过行为这样便鈳以将这个数据集表示为一个二分图。
假设我们有以下的数据集只考虑用户喜不喜欢该物品而不考虑用户对物品的喜欢程度,
上述便是┅个典型的二分图我们用G(V,E)来表示,其中V为用户user和物品item组成的顶点集即[A,B,C,a,b,c,d]而E则代表每一个二元组(u,i)之间对应的边e(ui),我们这里不考虑用户對物品的喜爱程度即默认喜爱则e=1,不喜爱则e=0
那么我们如何使用上述的二分图模型进行物品的推荐系统呢?根据用户与物品的相关性對于相关性高的顶点有如下的定义:
(1)两个顶点之间有很多路径相连
(2)连接两个顶点之间的路径长度都比较短
(3)连接两个顶点之间的路径不会经過度比较大的顶点
上面有一个概念需要理解,度顶点的度是指和该顶点相关联的边数。
基于上述的定义我们这里使用基于随机游走的PersonalRank算法来计算,那么这个算法是什么意思呢
在解释之前,我们先理解一下另一个算法pageRank算法,这个一个用来衡量搜索引擎中特定网页相对於其他网页重要性的算法使用这个算法作为搜索结果网页排名相当重要的一部分。
它的基本思想是假设网页之前通过超链接相互连接,互联网上的所有网页便构成了一张图用户随机的打开一个网页,并通过超链接跳转到另一个网页每当用户到达一个网页,他都有两種选择停留在当前网页或者通过继续访问其他网页。如果用户继续访问网页的概率为d那么用户停留在当前网页的概率便是1-d。如果用户繼续访问其他网页则会以均匀分布的方式随机访问当前网页指向的另一网页,这是一个随机游走的过程当用户多次访问网页后,每一個网页被访问到的概率便会收敛到某个值而计算出来的结果便可以用于网页排名,我们用以下的公式来表示:
其中PR(i)是网页i被访问到的概率d代表用户继续访问网页的概率,N为所有网页的数量in(i)代表所有指向网页i的网页集合,out(j)代表网页j指向的其他网页集合
接下来我们分析┅下这个公式,网页i被访问到的概率由两部分组成:
第一部分是网页i作为起点第一个被用户点击后停留在当前页面的概率,即:
第二部分昰用户点击其他网页后(无论网页i是不是起点)再次跳转回到网页i的概率:
这两部分的和便是网页i被点击到的概率。
介绍完pageRank算法后我们再来看看PersonalRank算法,这个算法是基于pageRank算法进行了一些变化在pageRank算法中,计算出来的是每一个顶点相对其他顶点的相关性代入到我们的用户物品二汾图中,这显然不是我们想要的我们需要的是所有物品相对于特定某个用户的相关性,有公式如下:
对比pageRank不同点只在于r的值不同,u代表根节点即我们的目标用户节点,意思便是我们每次都是从目标用户节点出发进行随机游走,而不同于pageRank的起点是随机从所有网页中进荇选择personalRank算法得出的结果便是所有顶点相对于目标用户结点的相关性。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。