类Node表示Web图中节点,基本信息包括:入链数、出链数、入链分数和元数据。出链分数通过入链分数除以出链数得到。
类LinkDatum表示Web图中链接,基本信息包括:链接、锚文本、分数、时间戳和链接类型(出链或入链)。
类LinkNode表示链接节点,包括链接和Node两部分。
类LoopSet表示链接构成的环,包含环中的链接集合。
Web图由抓取的段(主要是parse-data,可选包括crawl-fetch)生成,包括三部分:出链数据库、入链数据库和节点库。
设Web图所在目录为w,则:
出链数据库所在目录为w/outlinks/current;
老出链数据库所在目录为w/outlinks/old;
入链数据库所在目录为w/inlinks
节点库所在目录为w/nodes;
环数据库所在目录为w/loops;
路径所在目录为w/routes;
链接转储数据库所在目录为w/linkdump。
出链数据库为MapFile,键为链接字符串(源链接),值为LinkDatum(类型为出链,其中的链接为目标链接)。
入链数据库为MapFile,键为链接字符串(目标链接),值为LinkDatum(类型为入链,其中的链接诶为源链接)。
节点数据库为MapFile,键为节点链接字符串,值为Node。
环数据库为MapFile,键为链接Text,值为LoopSet。表示每个链接的环信息。
链接转储数据库为MapFile,键为链接Text,值为LinkNodes,表示每个链接的入链信息。
时间: 2024-11-11 20:39:37