开源 java CMS - FreeCMS2.3 Web页面信息采集

原文地址:http://javaz.cn/site/javaz/site_study/info/2015/23312.html

项目地址:http://www.freeteam.cn/

Web页面信息采集

从FreeCMS 2.1开始支持

通过简单配置即可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面。

采集规则管理

从左侧管理菜单点击采集规则进入。

添加采集规则

在采集规则列表下方点击"添加"按钮。

填写相关属性后点击"保存"按钮即可。

采集规则属性说明

采集规则属性分为基本、设置、采集地址,采集属性,关键词替换。

一般情况下只要在基本选项卡填写相关属性即可完成。如果需要更多高级设置可以使用后面几个选项卡。

下面针对主要属性进行解释说明。

名称:采集规则的名称。

采集到栏目:采集的信息要添加到那个栏目。

页面编码:目标网页的页面编码,默认为UTF-8。

采集地址:目标网页的地址。在基本选项卡中只能设置一个,想要设置多个可以在采集地址选项卡中设置。

采集调度:设置定时执行采集操作,这个设置非常重要,只有设置了采集调度系统才执行采集操作。

内容列表开始结束html:因为系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的开始结束html就很重要,一定要设置为相对比较唯一的开始结束html,这样系统才能正确的截取到目标属性。此属性主要为了截取目标页面信息列表的html.

内容地址开始结束html:根据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

内容标题开始结束html:根据上面的属性获取内容地址后,系统会抓取此内容地址的网页内容,然后根据此属性截取内容标题。内容相关属性的设置跟此属性类似,下面不再赘述。

状态:启用状态下的采集规则,系统才会执行。

采集图片:将信息内容中的图片下载到本地。

自动审核通过:将采集的信息直接设置为已审核状态。

使用采集信息点击量:默认采集到的信息的点击量为0,设置此属性和内容点击量开始结束html后系统会截取目标信息的点击量,设置为采集后信息的点击量。

最多采集内容数:默认不限制,如果设置了此属性,系统会从采集记录中统计此采集规则已采集了多少条信息,如果超过最多采集内容数,系统将不再采集。

将首幅图片设为标题图片:如果信息内容中有图片,则提取第一张做为标题图片,并设置信息为图片信息。

清除内容中的html标签:将信息内容中的html标签清除,保留纯文本。

当内容为空时是否采集:可设置在内容为空时不采集此信息。

使用采集信息的添加时间:默认采集到的信息的添加时间为当前时间,设置此属性和内容添加时间开始结束html后系统会截取目标信息的添加时间,设置为采集后信息的添加时间。

采集信息添加时间格式:默认格式为yyyy-MM-dd,如果目标页面的添加时间格式不同,需要在这里设置为正确的日期格式。

采集开始时间:默认为当前时间,如果不到采集开始时间,系统是不会采集的。

采集结束时间:默认为永不结束,如果超过采集结束时间,系统是不会采集的。

内容地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容地址的前缀。

图片地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置图片链接地址的前缀。

内容中A标签链接地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容中A标签链接地址的前缀。

采集地址分为静态和动态地址,静态地址为固定的地址,动态地址一般指可以分页的地址,通过{page}来代表分页变量,可以设置从那一页采集到那一页,如http://www.freetam.cn/list_{page}.html,设置开始页数为1,结束页数为10,系统会自动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有页面的数据。

一般情况下我们只采集信息的标题和内容就可以了,系统还提供采集内容描述、点击量、作者、来源、添加时间属性的功能。

通过关键词替换功能,您可以将采集到的信息里面的关键词替换为自己想要的关键词。

编辑采集规则

选择需要编辑的采集规则,然后点击"编辑"按钮。

注意:同时只能编辑一个采集规则。

填写相关属性后点击"保存"按钮即可。

采集

选择需要采集的采集规则,然后点击"采集"按钮。

注意:同时只能对一个采集规则进行采集操作。

删除采集规则

选择需要删除的采集规则,然后点击"删除"按钮。

提示:同时可以删除多个采集规则。

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

查看采集记录

从左侧管理菜单点击采集记录进入。

在这里可以查看到所有web页面采集记录,您可以删除指定的采集记录,但并不会删除已采集的信息数据,选择需要删除的采集记录,然后点击"删除"按钮。

提示:同时可以删除多个采集记录。

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

时间: 2024-08-09 02:20:46

开源 java CMS - FreeCMS2.3 Web页面信息采集的相关文章

开源 java CMS - FreeCMS2.0发布。

FreeCMS商业版V2.0更新功能 1.标签参数不区分大小写,如向infoList标签传递siteid参数,参数名为siteid或SiteId都可以正确传递参数. 2.增加清空索引功能. 3.增加信息五星评分功能. 4.增加数据模型:站点.栏目.信息,可自由扩展自定义字段. 支持输入方式: 文本框(单行) 文本框(多行) 富文本编辑器 复选列表(checkbox) 单选列表(radio) 下拉列表(select单选) 日期选择框 日期时间选择框 支持验证方式: 中文 英文 Email格式 网址

开源 java CMS - FreeCMS2.1发布

项目地址:http://www.freeteam.cn/ FreeCMS商业版V2.1更新功能 1.web页面信息采集:通过简单配置即可抓取目标网页信息,支持增量式采集.关键字替换.定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面. 2.数据库信息采集:通过简单配置即可抓取目标数据库信息,支持增量式采集.关键字替换.定时采集,可采集多种信息属性,可自动审核且静态化信息页面. 3.全站一键静态化:只需一键,就可以静态化站点的全部页面,支持定时全站静

开源 java CMS - FreeCMS2.3 数据库信息采集

项目地址:http://www.freeteam.cn/ 数据库信息采集 从FreeCMS 2.1开始支持 通过简单配置即可抓取目标数据库信息,支持增量式采集.关键字替换.定时采集,可采集多种信息属性,可自动审核且静态化信息页面. 采集规则管理 从左侧管理菜单点击采集规则进入. 添加采集规则 在采集规则列表下方点击"添加"按钮. 填写相关属性后点击"保存"按钮即可. 采集规则属性说明 采集规则属性分为基本.设置.关键词替换. 一般情况下只要在基本选项卡填写相关属性即

开源 java CMS - FreeCMS2.2公布

项目地址:http://www.freeteam.cn/ FreeCMS商业版V2.2更新功能 1.添加freecms_uploadfile表.存放信息上传的附件,使附件能够保存原文件名称,并可排序. 2.添加uploadfile标签提取附件. 3.信息内容添加导入word功能,支持doc,docx格式,可直接生成word中的图片. 4.添加栏目和信息浏览权限控制,可按会员.同意IP段.禁止IP段控制浏览权限. 5.添加fhtml动态页面处理,方便前台动态页面处理,如訪问/site/FreeCM

开源 java CMS - FreeCMS2.3发布

项目地址:http://www.freeteam.cn/ FreeCMS商业版V2.3更新功能 注意:此版本升级后需要对所有页面进行静态化,否则访问地址可能出错!如果使用了android客户端也需要使用最新的android程序. 1.增加channelPage标签分页提取栏目. 2.信息发布默认审核流程改为不需要审核. 3.增加站点管理员授权,设置为站点管理员的角色可以管理站点的所有栏目. 4.html标签增加属性key.keySpanAttr,支持对关键字进行显示处理. 5.增加图片水印.文本

开源 java CMS - FreeCMS2.2 菜单管理

项目地址:http://www.freeteam.cn/ 菜单管理 FreeCMS在设计时定位于面向二次开发友好,所以FreeCMS提供了菜单管理功能,二次开发人员可以自由增加新的功能菜单到FreeCMS. 为了让后台管理功能更规范,FreeTeam建议您把新增加的功能放在admin目录下,系统也对admin目录下所有资源进行了登录验证,保证资源的访问安全. 从FreeCMS 1.7开始支持 菜单增加图标属性. 1. 添加一级菜单 从左侧管理菜单点击菜单管理进入. 点击"添加根菜单"

开源 java CMS - FreeCMS2.2发布

项目地址:http://www.freeteam.cn/ FreeCMS商业版V2.2更新功能 1.增加freecms_uploadfile表,存放信息上传的附件,使附件可以保存原文件名,并可排序. 2.增加uploadfile标签提取附件. 3.信息内容增加导入word功能,支持doc,docx格式,可直接生成word中的图片. 4.增加栏目和信息浏览权限控制,可按会员.允许IP段.禁止IP段控制浏览权限. 5.增加fhtml动态页面处理,方便前台动态页面处理,如访问/site/FreeCMS

开源 java CMS - FreeCMS2.2 静态化管理

原文地址 :http://javaz.cn/site/javaz/site_study/info/2015/20454.html 项目地址:http://www.freeteam.cn/ 静态化管理 FreeCMS采用的站点模板概念,所以经过静态化后站点才能显示. 1. 首页静态化 从左侧管理菜单点击首页静态化进入. 系统会直接提示您是否对当前站点进行首页静态化处理,点击"确定"按钮. 系统会在此站点目录下生成index.html文件作为站点首页. 2. 栏目页静态化 从左侧管理菜单点

开源 java CMS - FreeCMS2.2 信息管理

原文地址:http://javaz.cn/site/javaz/site_study/info/2015/19762.html 项目地址:http://www.freeteam.cn/ 信息管理 1. 快速添加 从左侧管理菜单点击快速添加进入. 输入相关属性后添加"保存"按钮即可. 提示:由于信息属性比较多,所以我们把信息的属性分为以下几部分 默认显示的是基本属性,基本满足一个信息应有的属性,需要高级属性的可以点击另外几个选项卡. 从FreeCMS 2.0开始支持 增加是否评分功能,支