如何采集网页数据并发布到Discuz

1. 注册账号

打开神箭手官网http://www.shenjianshou.cn/),注册一个账号:

2.获取采集规则

点击官网首页右上角的“云市场”,在市场里免费获取采集规则:

3.采集数据

1)         进入“管理控制台”;

2)         新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”);

3)         完成任务配置,点击“保存”,系统会自动跳转到任务详情页;

4)         点击右上角的“启动”,采集任务便立即开始。稍等一会,采集到的数据会显示出来。

4.发布数据到Discuz

1)         首先在您的网站上安装神箭手Discuz发布插件(最新插件分享链接:http://pan.baidu.com/s/1nuOGanf)。安装方法详见另一文档“神箭手discuz发布插件安装步骤”。

2)         发布设置。进入神箭手后台,在采集结果右上角,点击“发布设置”->“新建发布项”->“WeCenter发布接口”->“下一步”->填写发布信息:

a)         Discuz管理员用户名与Discuz管理员密码:填写Discuz网站的管理员用户名与密码

b)         Discuz安全提问:若有安全提问,则选择提问类型并填写答案;若无则不填写

c)         网站地址与发布密码:填写Discuz网站地址,发布密码需与神箭手插件中的一致

d)         替换后的超链接:若采集的数据中有其他网站的超链接,可替换成指定网站的链接。若不填写,则默认为不替换

注意:发布设置完成后,注意查看发布是否处于“启用”状态,启用后才可以发布。

3)         手动或者自动发布。返回任务详情页,可以勾选需要的数据手动发布或者选择自动发布发布所有数据,数据将发布到您的网站上。

温馨提示:

如在采集过程中有任何问题,请加QQ群157430999,我们会及时解答您的疑问。

神箭手官网:http://www.shenjianshou.cn/

时间: 2024-07-29 15:00:49

如何采集网页数据并发布到Discuz的相关文章

如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter

  云采集使用教程(发布到WeCenter) 1. 注册账号 打开神箭手官网(http://www.shenjianshou.cn/),注册一个账号: 2.获取采集规则 点击官网首页右上角的“云市场”,在市场里免费获取采集规则: 3.采集数据 1)         进入“管理控制台”: 2)         新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”): 3)         完成任务配置,点击“保存”,系统会自动跳转到任务详情页: 4)    

不需要编程,你也可以灵活采集网页数据

互联网中的数据是海量的,然而大数据的重点并不在"大",而在于"有用"."如何自动高效地采集互联网中我们需要的数据信息并为我们所用?"这是一个重要的问题!而爬虫技术就是为了解决这些问题而生的. 什么是网络爬虫? 网络爬虫是模拟客户端发生网络请求,接收请求响应,一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.它们可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容或检索方式. 网络爬虫的原理过程 1.发起请求通过HTTP库向目标

采集网页数据生成到静态模板newslist.html文件中(正则表达式)

采集数据源:http://www.sgcc.com.cn/xwzx/gsyw/ //根据URL地址获取所有html public static string GetUrltoHtml(string Url, string type) { try { System.Net.WebRequest wReq = System.Net.WebRequest.Create(Url); // Get the response instance. System.Net.WebResponse wResp =

一个我经常用到的采集网页数据抓取网页获取数据的PHP函数类

class get_c_str { var $str; var $start_str; var $end_str; var $start_pos; var $end_pos; var $c_str_l; var $contents; function get_str($str,$start_str,$end_str){ $this->str = $str; $this->start_str = $start_str; $this->end_str = $end_str; $this-&g

用groovy采集网页数据

首先,用?http://groovyconsole.appspot.com/?测试下面的代码,发现引用总是失败. 下载了GGTS:?https://spring.io/tools/ggts 测试成功:? ? @Grapes( @Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2') )import org.ccil.cowan.tagsoup.Parser; class TestHtml { public sta

抓取网页中的内容、如何解决乱码问题、如何解决登录问题以及对所采集的数据进行处理显示的过程

本文主要介绍如何抓取网页中的内容.如何解决乱码问题.如何解决登录问题以及对所采集的数据进行处理显示的过程.效果如下所示: 1.下载网页并加载至HtmlAgilityPack 这里主要用WebClient类的DownloadString方法和HtmlAgilityPack中HtmlDocument类LoadHtml方法来实现.主要代码如下. var url = page == 1 ? "http://www.cnblogs.com/" : "http://www.cnblogs

动态网页数据的采集方案

我在上一篇文章中介绍了使用ScrapySharp快速从网页中采集数据,这种方式是通过直接发送的Http请求来获取的原始页面信息,对于静态网页非常有效,但还有许多网站中的页面内容并非全部存放在原始的页面中,很多内容是通过javascript来动态生成的,这些数据用前面的方式就抓取不到了.本文这里就简单的介绍一下动态网页的采集方案. 对于这样的网页数据的采集,往往是利用一个浏览器引擎来实现整个页面的加载,输出加载完后的完整页面,然后就可以利用ScrapySharp等工具解析了.常用有如下几种方式:

前嗅ForeSpider教程:采集网页链接/源码/时间/重定向地址等

第一步:新建任务①点击左上角"加号"新建任务,如图1:[图1]②弹窗里填写采集地址,任务名称,如图2:[图2]③ 点击下一步,勾选抽取链接,选择网页内所有链接,如图3:[图3]④完成后模板抽取配置列表有一个模板,默认模板.默认模板下自动生成一个链接抽取,名称为网页全部链接,如4:[图4]第二步:创建新的模板,并新建数据抽取①模板配置,点击"新建模板"按钮,得到新建模板,如图5.[图5]②新建数据抽取.直接点击模板二,点击上面"新建数据抽取"按钮,

C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)

转自原文C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 阅读目录 1.HtmlAgilityPack简介 2.XPath技术介绍与使用 3.采集天气网站案例 4.资源 第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel,是真尼玛的累,虽然那个时候C#还很菜,也想能不能通过程序来批量获取(所以平时想法要多才好).几