Nutch中Web图基本类型和存储结构

类Node表示Web图中节点,基本信息包括:入链数、出链数、入链分数和元数据。出链分数通过入链分数除以出链数得到。

类LinkDatum表示Web图中链接,基本信息包括:链接、锚文本、分数、时间戳和链接类型(出链或入链)。

类LinkNode表示链接节点,包括链接和Node两部分。

类LoopSet表示链接构成的环,包含环中的链接集合。

Web图由抓取的段(主要是parse-data,可选包括crawl-fetch)生成,包括三部分:出链数据库、入链数据库和节点库。

设Web图所在目录为w,则:

出链数据库所在目录为w/outlinks/current;

老出链数据库所在目录为w/outlinks/old;

入链数据库所在目录为w/inlinks

节点库所在目录为w/nodes;

环数据库所在目录为w/loops;

路径所在目录为w/routes;

链接转储数据库所在目录为w/linkdump。

出链数据库为MapFile,键为链接字符串(源链接),值为LinkDatum(类型为出链,其中的链接为目标链接)。

入链数据库为MapFile,键为链接字符串(目标链接),值为LinkDatum(类型为入链,其中的链接诶为源链接)。

节点数据库为MapFile,键为节点链接字符串,值为Node。

环数据库为MapFile,键为链接Text,值为LoopSet。表示每个链接的环信息。

链接转储数据库为MapFile,键为链接Text,值为LinkNodes,表示每个链接的入链信息。

时间: 2024-11-11 20:39:37

Nutch中Web图基本类型和存储结构的相关文章

图总结之存储结构代码详解

一.图的存储结构 1.1 邻接矩阵 图的邻接矩阵存储方式是用两个数组来表示图.一个一维数组存储图中顶点信息,一个二维数组(邻接矩阵)存储图中的边或弧的信息. 设图G有n个顶点,则邻接矩阵是一个n*n的方阵,定义为: 看一个实例,下图左就是一个无向图. 从上面可以看出,无向图的边数组是一个对称矩阵.所谓对称矩阵就是n阶矩阵的元满足aij = aji.即从矩阵的左上角到右下角的主对角线为轴,右上角的元和左下角相对应的元全都是相等的. 从这个矩阵中,很容易知道图中的信息. (1)要判断任意两顶点是否有

图的邻接矩阵存储结构

如上图,我们可以把v0标记为0,v1标记为1.... 并把联通的2点权值全设置为1,那么可以用邻接矩阵(右图)来表示 概念解析: 第一个邻接顶点: 我们以vo为例,第一个邻接顶点为V1(其实也可以使V3,只不过考虑计算机的存储顺序,我们找邻接顶点,一般是从v0扫描到v3,所以我们先在内存中扫描到v1) 下一个邻接顶点: 我们以v0为例,下一个邻接顶点就是v3(同样,其实也可以使V1,只不过考虑计算机的存储顺序,我们找下个邻接顶点,一般是从v2扫描到v3,之所以从v2扫描起,那是因为,V1已经是第

图的常用存储结构

一.邻接矩阵 邻接矩阵是简单的也是比较常用的一种表示图的数据结构,对于一个有N个点的图,需要一个N*N的矩阵,这个矩阵的i行第j列的数值表示点vi到点vj的距离.邻接矩阵需要初始化,map[i][i] = 0;map[i][j] = INF(i != j),对于每组读入的数据vi,vj,w(vi为边的起点,vj为边的终点,w为边的权值),赋值map[vi][vj] = w,另外邻接矩阵的值和边的输入顺序无关. 对于邻接矩阵来说,初始化需要O(n^2)的时间,建图需要O(m),所以总时间复杂度是O

C/C++中float和double的存储结构

浮点数在内存中的存储格式  http://blog.csdn.net/happylife1527/article/details/8059219 http://blog.csdn.net/aa2010aa/article/details/4982375 http://www.cnblogs.com/rain-lei/p/3619173.html http://zhidao.baidu.com/link?url=g1wFWLfS7JrCSeic0HvTR9b5RRj1dleuEPjVTv1u7N4

数据结构(二十九)图的邻接矩阵存储结构

一.邻接矩阵的Java语言代码实现: 二.邻接矩阵的创建C语言代码实现: #include "stdio.h" #include "stdlib.h" #include "io.h" #include "math.h" #include "time.h" #define OK 1 #define ERROR 0 #define TRUE 1 #define FALSE 0 #define MAXVEX 10

js中函数参数基本类型和引用类型的区别

高级程序设计中说明,所有函数的参数都是按值传递的. 基本类型 向参数传递基本类型的值时,被传递的值会被复制给对应的命名参数 function addTen(num){ num=+10; return num; } var count=20; var result=addTen(count); alert(count);//20 在函数内部,num的值被加上10,但不影响外部count变量的值 引用类型 在向参数传递引用类型的值时,把这个值在内存中的地址复制给对应的局部变量,如果这个局部变量没有重

《大话数据结构》笔记(7-2)--图:存储结构

第七章  图 图的存储结构 图不能用简单的顺序存储结构来表示. 而多重链表的方式,即以一个数据域和多个指针域组成的结点表示图中的一个顶点,尽管可以实现图结构,但是会有问题,比如若各个顶点的度数相差很大,按度数最大的顶点设计结点结构会造成很多存储单元的浪费,而若按每个顶点自己的度数设计不同的顶点结构,又带来操作的不便. 对于图来说,如何对它实现物理存储是个难题.图有以下五种不同的存储结构. 邻接矩阵 图的邻接矩阵(Adjacency Matrix)存储方式使用过两个数组来表示图.一个一维数组存储图

14 图的基础知识-几种常用的存储结构

时间有点紧 没时间接着更了..考完研回头再写吧 一.邻接矩阵1.描述:用一维数组存储图顶点的信息用二维数组存储图边的信息2.特点:①无向图的邻接矩阵: 是唯一的对称矩阵,可以压缩存储(仅存储上/下三角): 第i行(列)非零元素为第i个顶点的度②有向图的邻接矩阵: 第i行(列)的非零元素为第i个顶点的出度(入度):③邻接矩阵的局限性:要确定多少边必须按行列检测,花费时间的代价很大.④用于确定两点之间是否有边非常方便⑤设图G邻接矩阵为A,A的n次方元素A^n[i][j]等于由顶点i~j长度为n的路径

数据结构 - 逻辑结构和存储结构

程序=算法+数据结构 N.沃思(Niklaus Wirth)教授提出: 程序=算法+数据结构 以上公式说明了如下两个问题: (1)算法决定如何构造和组织数据(算法→数据结构). (2)算法的选择依赖于作为基础的数据结构(数据结构→算法). 软件=程序+文档(软件工程的观点) 求解非数值计算的问题 主要考虑的是设计出合适的数据结构及相应的算法. 即:首先要考虑对相关的各种信息如何表示.组织和存储? 因此,可以认为:数据结构是一门研究非数值计算的程序设计问题中计算机的操作对象以及它们之间的关系和操作