PageRank学习

喜欢手写学习，记忆深刻（字丑勿喷！）。

计算过程的代码如下：

public class PageRank
{
	private static double m[][]={
		{   0        , 0.5 , 1 ,  0 },
		{0.333333333 ,  0  , 0 , 0.5},
		{0.333333333 ,  0  , 0 , 0.5},
		{0.333333333 , 0.5 , 0 ,  0 }
	};
	private static double v[]={0.25,0.25,0.25,0.25};
	private static double v1[]={0,0,0,0};
	public static void main(String[] argv)
	{
		for(int iterater=0;iterater<1000;iterater++)
		{
			for(int i=0;i<4;i++)
			{
				for(int j=0;j<4;j++)
				{
					v1[i]+=m[i][j]*v[j];
				}
			}
			for(int k=0;k<4;k++)
			{
				v[k]=v1[k];
				v1[k]=0;
			}
		}
		for(int k=0;k<4;k++)
		{
			System.out.println(v[k]);
		}
	}
}

　　上面使用的图是一个没有太大缺陷的图，其实PageRank中海油很多问题需要处理，主要问题有：

1.终止点问题

上述上网者的行为是一个马尔科夫过程的实例，要满足收敛性，需要具备一个条件：

图是强连通的，即从任意网页可以到达其他任意网页：

　　互联网上的网页不满足强连通的特性，因为有一些网页不指向任何网页，如果按照上面的计算，上网者到达这样的网页后便走投无路、四顾茫然，导致前面累计得到的转移概率被清零，这样下去，最终的得到的概率分布向量所有元素几乎都为0。假设我们把上面图中C到A的链接丢掉，C变成了一个终止点，得到下面这个图：

　　对应的转移矩阵为：

　　连续迭代下去，最终所有元素都为0：　　

代码如下：

public class PageRank
{
	private static double m[][]={
		{   0        , 0.5 , 0 ,  0 },
		{0.333333333 ,  0  , 0 , 0.5},
		{0.333333333 ,  0  , 0 , 0.5},
		{0.333333333 , 0.5 , 0 ,  0 }//第三列全为0
	};
	private static double v[]={0.25,0.25,0.25,0.25};
	private static double v1[]={0,0,0,0};
	public static void main(String[] argv)
	{
		for(int iterater=0;iterater<1000;iterater++)
		{
			for(int i=0;i<4;i++)
			{
				for(int j=0;j<4;j++)
				{
					v1[i]+=m[i][j]*v[j];
				}
			}
			for(int k=0;k<4;k++)
			{
				v[k]=v1[k];
				v1[k]=0;
			}
		}
		for(int k=0;k<4;k++)
		{
			System.out.println(v[k]);
		}
	}
}

2.陷阱问题

　　另外一个问题就是陷阱问题，即有些网页不存在指向其他网页的链接，但存在指向自己的链接。比如下面这个图：

　　上网者跑到C网页后，就像跳进了陷阱，陷入了漩涡，再也不能从C中出来，将最终导致概率分布值全部转移到C上来，这使得其他网页的概率分布值为0，从而整个网页排名就失去了意义。如果按照上面图对应的转移矩阵为：　

　　不断的迭代下去，就变成了这样：

代码如下：

public class PageRank
{
	private static double m[][]={
		{   0        , 0.5 , 0 ,  0 },
		{0.333333333 ,  0  , 0 , 0.5},
		{0.333333333 ,  0  , 1 , 0.5},//此行第三列为1
		{0.333333333 , 0.5 , 0 ,  0 }
	};
	private static double v[]={0.25,0.25,0.25,0.25};
	private static double v1[]={0,0,0,0};
	public static void main(String[] argv)
	{
		for(int iterater=0;iterater<1000;iterater++)
		{
			for(int i=0;i<4;i++)
			{
				for(int j=0;j<4;j++)
				{
					v1[i]+=m[i][j]*v[j];
				}
			}
			for(int k=0;k<4;k++)
			{
				v[k]=v1[k];
				v1[k]=0;
			}
		}
		for(int k=0;k<4;k++)
		{
			System.out.println(v[k]);
		}
	}
}

解决终止点问题和陷阱问题

上面过程，我们忽略了一个问题，那就是上网者是一个悠闲的上网者，而不是一个愚蠢的上网者，我们的上网者是聪明而悠闲，他悠闲，漫无目的，总是随机的选择网页，他聪明，在走到一个终结网页或者一个陷阱网页（比如两个示例中的C），不会傻傻的干着急，他会在浏览器的地址随机输入一个地址，当然这个地址可能又是原来的网页，但这里给了他一个逃离的机会，让他离开这万丈深渊。模拟聪明而又悠闲的上网者，对算法进行改进，每一步，上网者可能都不想看当前网页了，不看当前网页也就不会点击上面的连接，而上悄悄地在地址栏输入另外一个地址，而在地址栏输入而跳转到各个网页的概率是1/n。假设上网者每一步查看当前网页的概率为a，那么他从浏览器地址栏跳转的概率为(1-a)，于是原来的迭代公式转化为：

　　现在我们来计算带陷阱的网页图的概率分布：

　　重复迭代下去，得到：

　　可以看到C虽然占了很大一部分pagerank值，但其他网页页获得的一些值，因此C的链接结构，它的权重确实应该会大些。

代码如下：

public class PageRank
{
	private static double m[][]={
		{   0        , 0.5 , 0 ,  0 },
		{0.333333333 ,  0  , 0 , 0.5},
		{0.333333333 ,  0  , 1 , 0.5},
		{0.333333333 , 0.5 , 0 ,  0 }
	};
	private static double v[]={0.25,0.25,0.25,0.25};
	private static double v1[]={0,0,0,0};
	public static void main(String[] argv)
	{
		for(int iterater=0;iterater<1000;iterater++)
		{
			for(int i=0;i<4;i++)
			{
				for(int j=0;j<4;j++)
				{
					v1[i]+=m[i][j]*v[j];
				}
			}
			for(int k=0;k<4;k++)
			{
				v[k]=0.8*v1[k]+0.2*0.25;//此处0.2乘的一直都是v[]的初始值
				v1[k]=0;
			}
		}
		for(int k=0;k<4;k++)
		{
			System.out.println(v[k]);
		}
	}
}

时间： 2024-11-17 11:31:05

PageRank学习

PageRank学习的相关文章

PageRank算法学习与整理

学习日志---基于hadoop实现PageRank

大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例

Spark 学习: spark 原理简述与 shuffle 过程介绍

Spark学习笔记总结-入门资料精化

Hama学习总结

Massive Data Mining学习记录

Social Network Analysis的Centrality总结，以及networkx实现EigenCentrality，PageRank和KatzCentrality的对比

海量数据挖掘——第1讲.MapReduce and PageRank