爬虫案例—中基协数据爬取

因为工作原因,需要爬取相关网站的数据,包括中基协网站和天眼查部分数据。


一、中基协网站

爬取思路:

1.查看目标页:http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=%s&size=50

发现有随机数字串(刷新反爬措施),以及页码和每页信息条数,可以用来拼接爬取url

用一个循环爬取所有展示页面,用到requests库以及random函数生成随机数

返回的是json数据,直接用request的json函数解析数据。

2.save函数用来保存目标页面的详细数据,可根据需要爬取。

 1 import requests
 2 import random
 3 import json
 4
 5 def save(school_datas):
 6     for data1 in school_datas:
 7         # print(data)
 8         id = data1[‘id‘]
 9         managerName = data1[‘managerName‘]
10         artificialPersonName = data1[‘artificialPersonName‘]
11         regAdrAgg = data1[‘regAdrAgg‘]
12         registerNo = data1[‘registerNo‘]
13         print(id, managerName, artificialPersonName, regAdrAgg,registerNo)
14
15 for i in range(0, 427):
16     print("第%s页====================="%str(i))
17     header={
18             ‘Accept‘:‘application/json, text/javascript, */*; q=0.01‘,
19             ‘Accept-Encoding‘:‘gzip, deflate‘,
20             ‘Connection‘:‘keep-alive‘,
21             ‘Host‘:‘gs.amac.org.cn‘,
22             ‘Origin‘:‘http://gs.amac.org.cn‘,
23             ‘Referer‘:‘http://gs.amac.org.cn/amac-infodisc/res/pof/manager/managerList.html‘,
24             ‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36‘
25             }
26     r=random.random()
27     print(str(r))
28
30     # json={"rand":‘0.0045470034372876444‘,"page":str(i),"size":"50"}
31     # http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=1&size=50
32     # data= requests.post("http://gs.amac.org.cn/amac-infodisc/api/pof/manager",json={‘rand‘:str(r),‘page‘:str(i),‘size‘:‘50‘},headers=header)#.json()
33     url="http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=%s&size=50"
34     data= requests.post(url%i,json={‘rand‘:str(r),‘page‘:str(i),‘size‘:‘50‘}).json()
35
40
41     # print (type(r))
42     # print (r.status_code)
43
45     # print (r.cookies)
46     # print(r.text,"\n")
47     # print(r.json())
48
55
56     print("每一页信息条数——>", len(data[‘content‘]))
57     print("全部信息条数——>", data["totalElements"])
58     print("每页有——>", data["size"])
59     print("总页数-->>", data["totalPages"])
60
61     school_datas = data["content"]
62     save(school_datas)


爬虫案例—中基协数据爬取

原文地址:https://www.cnblogs.com/daliner/p/10145040.html

时间: 2024-11-08 20:25:51

爬虫案例—中基协数据爬取的相关文章

爬虫学习 09.移动端数据爬取

爬虫学习 09.移动端数据爬取 前言 随着移动市场的火热,各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户.那么在移动端的平台当时势必会出现大量有价值的信息和数据,那这些数据我们是否可以去享用一下呢?那么接下来就进入我们的移动端APP数据的爬虫中来吧. 今日概要 fiddler简介 手机APP抓包设置 fiddler设置 安装证书下载 安全证书安装 局域网设置 fiddler手机抓包测试 今日详情 1 什么是Fiddler? Fiddler是位于客户端和服务器端的HTTP

《python3网络爬虫开发实战》--Ajax数据爬取

1. ajax 异步的 JavaScript和 XML. 对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容. 在这个过程中,页面实际上是在后台与服务器进行了数据交互,获 取到数据之后,再利用 JavaScript改变网页,这样网页内容就会更新了. 2. Ajax请求网页更新: 发送请求 解析内容 渲染网页 3. Ajax分析方法: 查看请求 过滤请求 4. Ajax结果提取: 分析请求 分析响应 原文地址:https://ww

【个人】爬虫实践,利用xpath方式爬取数据之爬取虾米音乐排行榜

实验网站:虾米音乐排行榜 网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install lxml) IDEA开发工具:PyCharm_2017.3 Python版本:Python3 期望结果:爬取出排行版歌名以及对应歌手 运行效果图: 音乐排行榜: 爬取数据结果图: 像这种简单的爬取就没必要使用Scrapy框架进行处理,是在有点大材小用,不过如果你刚开始学Scrapy的话,拿这些简单的练

Python爬虫 股票数据爬取

前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析 地址分析 http://money.finance.sina.com.cn/corp/go.php/vFD_FinancialGuideLine/stockid/000001/ctrl/2017/displaytype/4.phtml 在浏览器(PC上)中打开这个地址,就可以看到下图显示的财务数据.这个地址是一个通用格式:(

爬虫1.5-ajax数据爬取

目录 爬虫-ajax数据爬取 1. ajax数据 2. selenium+chromedriver知识准备 3. selenium+chromedriver实战拉勾网爬虫代码 爬虫-ajax数据爬取 1. ajax数据 ajax (异步JavaScript 和 XML)(读作阿贾克斯),ajax可以时网页实现异步更新,一般使用的json数据交互,即在不重新加载整个页面也可以对网页的部分进行更新,ajax技术加载的数据在网页源代码中是看不到的,只能看到url加载的html部分 获取ajax数据的两

Python爬虫入门教程 15-100 石家庄政民互动数据爬取

1. 石家庄政民互动数据爬取-写在前面 今天,咱抓取一个网站,这个网站呢,涉及的内容就是 网友留言和回复,特别简单,但是网站是gov的.网址为http://www.sjz.gov.cn/col/1490066682000/index.html 首先声明,为了学习,绝无恶意抓取信息,不管你信不信,数据我没有长期存储,预计存储到重装操作系统就删除. 2. 石家庄政民互动数据爬取-网页分析 点击更多回复 ,可以查看到相应的数据. 数据量很大14万条,,数据爬完,还可以用来学习数据分析,真是nice 经

爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字,作者,等一些基本信息,并存入csv中

爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字,作者,等一些基本信息,并存入csv中 准备使用的环境和库Python3.6 + requests + bs4 + csv + multiprocessing 库的说明 requests模拟计算机对服务器发送requests请求 bs4:页面分析功能,分析页面找到所需要的特定内容 xlwt:把爬取的内容存入csv文件中 multiprocessing:开启多进程爬取 1.准备URLs 起点中文网 起点中文网的URL:https://w

python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片

本篇博文在编写时参考了http://cuiqingcai.com/2652.html,向作者表示感谢 一.新的问题与工具 平时在淘宝上剁手的时候,总是会看到各种各样的模特.由于自己就读于一所男女比例三比一的工科院校--写代码之余看看美女也是极好的放松方式.但一张一张点右键–另存为又显得太过麻烦而且不切实际,毕竟图片太多了.于是,我开始考虑用万能的python来解决问题. 我们先看看淘女郎页面的URL,https://mm.taobao.com/json/request_top_list.htm?

数据挖掘工具分析北京房价 (一) 数据爬取采集

一. 前言 房价永远是最让人头疼且激动的话题,尤其是在帝都,多少人一辈子都为了一套房子打拼.正好我也想用一个大家比较关心的话题作为案例,把目前我开发的这套软件进行一次完整的演练.从数据采集,到清洗,分析,和最终可视化和报告的呈现,实现一次完整的流程.一方面可以给大家切实的分享一些有用的信息,再者可以更好地了解这套软件的使用流程.  关于本工具的介绍,可参考数据挖掘平台介绍(综述)——平台简介. 自然的,文章分为四部分,本节是第一部分:数据爬取和采集. 二.  准备工作 俗话说巧妇难为无米之炊,没