webpage字段解释 webpage各阶段的字段值变化
ROW com.2345.www:http/ COL f : fi //fetchInterval COL f : ts //fetchTime
id 主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息(这里说的不对,会保留历史版本的,每个row都有时间戳,会保留一定量的历史版本,过低的可能会删除)。
rowkey为 reversed domain name:protocol:port and path 举例: com.2345.www:http/
nutch基本是用 url 作为rowkey的, 用这个实现url的去重。 然后通过“fetchTime” 来看是否达到generate的日期。
时间: 2024-07-29 00:01:41