关于 拼接 url 连接 参数的问题(爬虫)。

比如这里 我找的 后台请求的json的链接:

第一页:

http://www.igoldenbeta.com:8080/cn-jsfund-server-mobile/bkt/api?appkey=1.0&ttid=Android_unknown_unknown_unknown_xxxx_1.4.0.0003_v10&t=2015-07-10+13%3A30%3A23&sid=&imei=1.0&v=2.0&sign=64c5ec32720f97401aa502a74f41500b&data={%22limit%22%3A%2220%22%2C%22start%22%3A%220%22}&api=api.system.basket.adjustlist&imsi=1.0

第二页:

http://www.igoldenbeta.com:8080/cn-jsfund-server-mobile/bkt/api?appkey=1.0&ttid=Android_unknown_unknown_unknown_xxxx_1.4.0.0003_v10&t=2015-07-10%2013:31:19&sid=&imei=1.0&v=2.0&sign=203b7bf0fbc687c7d06d1d485b1a01da&data={%22limit%22:%2220%22,%22start%22:%2220%22}&api=api.system.basket.adjustlist&imsi=1.0

对URL 进行了 ENCode, 通过 Decode 发现 后面的参数 实际是:

第一页:

http://www.igoldenbeta.com:8080/cn-jsfund-server-mobile/bkt/api

?appkey=1.0&ttid=Android_unknown_unknown_unknown_xxxx_1.4.0.0003_v10&t=2015-07-10 13:30:23&sid=&imei=1.0&v=2.0&sign=64c5ec32720f97401aa502a74f41500b&data={"limit":"20","start":"0"}&api=api.system.basket.adjustlist&imsi=1.0

第二页:

http://www.igoldenbeta.com:8080/cn-jsfund-server-mobile/bkt/api

?appkey=1.0&ttid=Android_unknown_unknown_unknown_xxxx_1.4.0.0003_v10&t=2015-07-10 13:31:19&sid=&imei=1.0&v=2.0&sign=203b7bf0fbc687c7d06d1d485b1a01da&data={"limit":"20","start":"20"}&api=api.system.basket.adjustlist&imsi=1.0

(如果不进行encode  把这个 链接 放在火狐 里, 火狐 会自动encode的)

可以很明显 看到  分页的参数 在 连接中,那就  访问第三页 吧 ,后面的参数 改成:

http://www.igoldenbeta.com:8080/cn-jsfund-server-mobile/bkt/api?appkey=1.0&ttid=Android_unknown_unknown_unknown_xxxx_1.4.0.0003_v10&t=2015-07-10 13:31:19&sid=&imei=1.0&v=2.0&sign=203b7bf0fbc687c7d06d1d485b1a01da&data={"limit":"20","start":"40"}&api=api.system.basket.adjustlist&imsi=1.0

40开始,取20条 ,就是 第三页吧,哎,不行。。。

经过比对 发现 其他的参数 都是一样的,只有sign=203b7bf0fbc687c7d06d1d485b1a01da 不同,

好像 如果是同一sign 的时候,分页参数 是不允许 修改的;可是 往后面的 分页 的 这个参数值 我也不知道啊

时间: 2024-10-13 03:15:44

关于 拼接 url 连接 参数的问题(爬虫)。的相关文章

爬虫如何发现更多的url呢,怎么动态收集新的url连接

大家在做爬虫采集数据的时候很多都会遇到增量采集的问题,有些时候是通过过滤url来进行的,有些是通过爬取网页后再进行分析判断, 以上这些过程也许大部分做爬虫的都会这么做,各位有没有想过, 除了以上的常用的方式还有没有其他的能够可以一次性批量获取先要的url连接地址呢? 自己做爬虫也有很多年了,前不久听了一次SEO优化的课,在SEO优化中有一条是关于sitemap的,很多网站为了方便各个搜索引擎收录最新的内容,基本会每天都会自动生成一个sitemap文件, 是的,就是这个sitemap文件为我们提供

python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

【教训】 form表单提交时,action url中参数无效

今天提交一个表单,内容参考如下: <form action="add.php?a=123&b=456">     <input type="hidden" name='user_id' value="46" />     <input type="hidden" name='user_name' value="snsgou" />     ...     <

利用MVC的过滤器实现url的参数加密和解密

最近在与一个IOS应用做接口对接,之前一直都没有遇到什么很大的问题,但是有一天发现可以通过软件解析app的url,然后直接通过url的拼接修改接口数据,这一下使得数据的安全性和准确性都降低了,于是就想到了url加密. 然后在网上查了一下url的加密算法,使用比较普遍的还是Base64的加密,但是对于如何实现加密,网上的资料确不多,可能是我搜索的关键词不对.既然没有现成的参考文件,那么就只能靠自己了.因为所有的Controller都继承一个基Controller,所以比较自然的想到在基Contro

JAVA中三种URL连接方法

Java的网络类可以让你通过网络或者远程连接来实现应用.而且,这个平台现在已经可以对国际互联网以及URL资源进行访问了.Java的URL类可以让访问网络资源就像是访问你本地的文件夹一样方便快捷.我们通过使用Java的URL类就可以经由URL完成读取和修改数据的操作.现在,我们来看一看,如何才能发挥出URL类的效力. 通过URL进行工作 通过一个URL连接,我们就可以确定资源的位置,比如网络文件.网络页面以及网络应用程序等.其中包含了许多的语法元素.举个例子来说,请看下面这个URL连接: http

(教训) form表单提交时,action url中参数无效

今天提交一个表单,内容参考如下: <form action="add.php?a=123&b=456">    <input type="hidden" name='user_id' value="46" />    <input type="hidden" name='user_name' value="snsgou" />    ...    <inpu

获取js连接参数js_args

获取js连接参数,如下以链接: <script src="js/jscript.js?skin=green" type="text/javascript"></script> console.log(_getArgs('skin'));  //结果:green /*! * _path 获取组件核心文件lhgdialog.js所在的绝对路径 * _args 获取lhgdialog.js文件后的url参数组,如:lhgdialog.js?self

小程序url后面参数的解析

获取跳转的参数 1.在小程序中经常用到点击跳转的操作 并且需要传递参数 例如 wx.navigateTo({ url: '../payDetails/payDetails?activity_id=' + self.data.order_id + '&isfirst=' + self.data.isfirst, }) 拿到这些参数是在ayDetails页面onload里面拿到 onLoad: function (options) { console.log(options) } 这样就能拿到对应的

连接参数

连接参数由发起者在连接时指定,包括以下参数: 连接间隔--BLE连接使用了一种调频机制.设备在指定时间指定通道上发送和接收数据,随后在新的通道上.BLE协议栈的链路层处理通道的转换.两个设备之间收发数据的过程是一个连接事件.如果没有应用数据发送或者接收,设备交换链路层数据以保持连接.连接间隔就是两个连接事件的时间间隔,以1.25ms为单位,范围从6(7.5ms)到3200(4s).连接间隔的大小影响设备的功耗. 从机延时--这个参数让从机能跳过几次连接事件.如果设备没有数据发送,它能跳过连接事件