如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter

 

云采集使用教程(发布到WeCenter

1. 注册账号

打开神箭手官网http://www.shenjianshou.cn/),注册一个账号:

2.获取采集规则

点击官网首页右上角的“云市场”,在市场里免费获取采集规则:

3.采集数据

1)         进入“管理控制台”;

2)         新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”);

3)         完成任务配置,点击“保存”,系统会自动跳转到任务详情页;

4)         点击右上角的“启动”,采集任务便立即开始。稍等一会,采集到的数据会显示出来。

4.发布数据到WeCenter

1)         首先在您的网站上安装神箭手WeCenter发布插件(最新插件分享链接:http://pan.baidu.com/s/1eRr4oca)。安装方法是将app、system、views这三个文件夹都上传到网站的根目录,更新插件时也需要将这三个文件夹都上传到根目录。

2)         发布设置。进入神箭手后台,在采集结果右上角,点击“发布设置”->“新建发布项”->“WeCenter发布接口”->“下一步”->填写发布信息:

a)    网站地址填写WeCenter的网站地址

b)    发布密码需与神箭手发布插件中的一致

c)    替换后的超链接:若采集的数据中有其他网站的超链接,可替换成指定网站的链接。若不填写,则默认为不替换

注意 1:发布设置完成后,注意查看发布是否处于“启用”状态,启用后才可以发布。

注意2:神箭手支持发布到文章和问答两种类型。请特别留意“发布类型”,比如好搜的采集规则属于问答、华尔街见闻的采集规则是文章。如果发布类型选择错误,发布会失败。

3)      手动或者自动发布。返回任务详情页,可以勾选需要的数据手动发布或者选择自动发布发布所有数据,数据将发布到您的网站上。

温馨提示:

如在采集过程中有任何问题,请加QQ群174631869,我们会及时解答您的疑问。

神箭手官网:http://www.shenjianshou.cn/

时间: 2024-11-06 15:41:56

如何在#神箭手云爬虫#上采集网页数据并发布到WeCenter的相关文章

如何采集网页数据并发布到Discuz

1. 注册账号 打开神箭手官网(http://www.shenjianshou.cn/),注册一个账号: 2.获取采集规则 点击官网首页右上角的“云市场”,在市场里免费获取采集规则: 3.采集数据 1)         进入“管理控制台”: 2)         新建任务(“我的任务”->“创建爬虫任务”->选择刚获取的规则(模板)->“下一步”): 3)         完成任务配置,点击“保存”,系统会自动跳转到任务详情页: 4)         点击右上角的“启动”,采集任务便立即

2种办法取得阿里云服务器上的数据库数据

方法1,登录阿里云控制台,登录服务器(需要服务器用户名和密码),因阿里云每天会自动备份数据,所以只需要把已备份好的文件下载到本地即可. (吐槽:使用用户名和密码登录阿里云,还需要在手机阿里云上确认.这点有点坑人,因为是别人注册的,好吧,这是安全所需,我认输) 方法2:在主机未过期的前提下,只要知道数据库地址/主机,数据库用户名和密码,可利用 mysql命令行工具下载,只需二行代码,剩下的就是喝茶等待.

Python爬虫-抓取网页数据并解析,写入本地文件

之前没学过Python,最近因一些个人需求,需要写个小爬虫,于是就搜罗了一批资料,看了一些别人写的代码,现在记录一下学习时爬过的坑. 如果您是从没有接触过Python的新手,又想迅速用Python写出一个爬虫,那么这篇文章比较适合你. 首先,我通过: https://mp.weixin.qq.com/s/ET9HP2n3905PxBy4ZLmZNw 找到了一份参考资料,它实现的功能是:爬取当当网Top 500本五星好评书籍 源代码可以在Github上找到: https://github.com/

python爬虫——爬取网页数据和解析数据

1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2.网络爬虫的功能   图2 网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些金融信息,并进行投资分析等. 有时,我们比较喜欢的新闻网站可能有几个,每次

不需要编程,你也可以灵活采集网页数据

互联网中的数据是海量的,然而大数据的重点并不在"大",而在于"有用"."如何自动高效地采集互联网中我们需要的数据信息并为我们所用?"这是一个重要的问题!而爬虫技术就是为了解决这些问题而生的. 什么是网络爬虫? 网络爬虫是模拟客户端发生网络请求,接收请求响应,一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.它们可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容或检索方式. 网络爬虫的原理过程 1.发起请求通过HTTP库向目标

爬虫---selenium动态网页数据抓取

动态网页数据抓取 什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新.传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面.因为传统的在传输数据格式方面,使用的是XML语法.因此叫做AJAX,其实现在数据交互基本上都是使用JSON.使用AJAX加载的数据,即使使用了JS,将数

采集网页数据生成到静态模板newslist.html文件中(正则表达式)

采集数据源:http://www.sgcc.com.cn/xwzx/gsyw/ //根据URL地址获取所有html public static string GetUrltoHtml(string Url, string type) { try { System.Net.WebRequest wReq = System.Net.WebRequest.Create(Url); // Get the response instance. System.Net.WebResponse wResp =

一个我经常用到的采集网页数据抓取网页获取数据的PHP函数类

class get_c_str { var $str; var $start_str; var $end_str; var $start_pos; var $end_pos; var $c_str_l; var $contents; function get_str($str,$start_str,$end_str){ $this->str = $str; $this->start_str = $start_str; $this->end_str = $end_str; $this-&g

[原创]利用爬虫技术获取网页数据,以及想要的指定数据

最近在公司做个系统,由于要获取网页的一些数据,以及一些网页的数据,所以就写的一个公用的HttpUtils.下面是针对乌云网我写的一个例子. 一.首先是获取指定路径下的网页内容. public static String httpGet(String urlStr, Map<String, String> params) throws Exception { StringBuilder sb = new StringBuilder(); if (null != params &&