目标爬取社会信用码

目标爬取社会信用码

http://125.35.6.84:81/xk/#
1.首先界面是一个简单的分页查询

2.刷新一下,发现数据是ajax请求的

3.查相关参数

4.点击一条记录进去

5.发现数据也是ajax请求的

6.查看参数发现,是根据之前的ID查询的

7.开始work,首先爬取前面数据的ID,在根据ID爬取社会信用码

import json
import requests
import re
all_count=0
page_count=[1]
page_size=15
data_id=[]
social_credit_code=[]

def post1(url):
    while True:
        print(page_count[0])
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
        }
        params = {
            'on': True,
            'page': page_count[0],
            'pageSize ': 15,
            'productName ': '',
            'conditionType ': 1,
            'applyname ': '',
            'applysn ': '',
        }

        res = requests.post(url=url, params=params, headers=headers)
        json_data = res.json()
        for i in json_data['list']:
            #打印每次获取的ID值
            print(i["ID"])
            data_id.append(i["ID"])

        # 获取总页数
        all_count = json_data['pageCount']
        # 判断分页是否结束自定义页数
        if page_count[0] == 5:
            break
        else:
            page_count[0] += 1
    print(data_id)

def post2(url, data_id):

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
    }

    for i in data_id:
        params = {
            'id': i
        }
        res = requests.post(url=url, params=params, headers=headers)
        json_data = res.json()
        #打印每次获取的社会信用代码
        print(json_data['businessLicenseNumber'])
        social_credit_code.append(json_data['businessLicenseNumber'])

if __name__ == '__main__':
    url = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList"
    url2 = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById"

    post1(url)
    post2(url2,data_id)
    print(social_credit_code)

原文地址:https://www.cnblogs.com/zx125/p/11399239.html

时间: 2024-08-30 06:41:36

目标爬取社会信用码的相关文章

UI自动化之特殊处理四(获取元素属性\爬取页面源码\常用断言)

获取元素属性\爬取页面源码\常用断言,最终目的都是为了验证我们实际结果是否等于预期结果 目录 1.获取元素属性 2.爬取页面源码 3.常用断言 1.获取元素属性 获取title:driver.title() 获取元素文本:driver.find_XX().text 获取元素标签:driver.find_XX().tag_name 获取元素的其他属性的值:driver.find_XX().get_attribute("class") 获取class属性的值 获取文本框输入的值:drive

python爬虫爬取页面源码在本页面展示

python爬虫在爬取网页内容时,需要将内容连同内容格式一同爬取过来,然后在自己的web页面中显示,自己的web页面为django框架 首先定义一个变量html,变量值为一段HTML代码 >>> print(html) <div id=1>   my <br>   name <br> is   JAY <br> </div> ,我们现在要取div里面的内容,在自己的web页面中显示,空格和换行符等都以HTML代码的形式抓取.最终

简单爬取网页源码

import urllib.request url = 'http://www.baidu.com/' response = urllib.request.urlopen(url) data = response.read() str_data = data.decode('utf_8') # print(str_data) with open('baidu.html','w',encoding='utf_8') as f: f.write(str_data) 原文地址:https://www.

爬取Ajax动态加载网页

常见的反爬机制及处理方式 1.Headers反爬虫 :Cookie.Referer.User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2.IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问 解决方案: 1.构造自己IP代理池,每次访问随机选择代理,经常更新代理池 2.购买开放代理或私密代理IP 3.降低爬取的速度 3.User-Agent限制 :类似于IP限制 解决方案: 构造自己的User-Agent池,每次访问随机选择 5.

结对-爬取大麦网演唱会信息-设计文档

结对编程成员:阎大为,张跃馨 搭建环境: ?1.安装python2.7 ?2.安装beautifulsoup4等相关模块 编写程序阶段: ?1.分析html代码以及了解相关参数 ?2.写代码,爬取网站源码 ?3.对返回的源码进行分析 ?4.提取有用的信息 ?5.测试程序是否稳定 ?6.完善并提交

Python3——爬取淘宝评论

一.分析目标 爬取淘宝商品评论详情 二.分析网页加载流程 目标数据是否在网页源代码中(即右键--查看源代码) 不在 目标数据在审查元素中(即右键--审查元素或f12) f12-->Network-->f5 重新加载并记录网页活动-->点击网页评论-->Name-->Preview找评论信息(script类型(Type))-->Header从中找记录评论信息的网址 三.分析目标数据的请求.分析参数.自己构造url 1. 找到网址: https://rate.tmall.c

爬取京东商品信息和评价的爬虫实现源码

话不多说,直接上源码: var keyword = "d3.js";//@input(keyword, 查询关键字, 爬取该关键字搜索出来的京东商品) var comment_count = 100;//@input(comment_count, 爬取的评论数, 最多爬取多少条评论) var page_count = comment_count / 10; keyword = keyword.trim(); var scanUrls = []; scanUrls.push("

爬虫新手学习2-爬虫进阶(urllib和urllib2 的区别、url转码、爬虫GET提交实例、批量爬取贴吧数据、fidder软件安装、有道翻译POST实例、豆瓣ajax数据获取)

爬虫新手学习1-爬虫基础 1.urllib和urllib2区别实例 urllib和urllib2都是接受URL请求相关模块,但是提供了不同的功能,两个最显著的不同如下: urllib可以接受URL,不能创建设置headers的Request类实例,urlib2可以. url转码 https://www.baidu.com/s?wd=%E5%AD%A6%E7%A5%9E python字符集解码加码过程: 2.爬虫GET提交实例 #coding:utf-8 import urllib #负责url编

python scrapy爬取皇冠体育源码下载网站数据二(scrapy使用详细介绍)

1.scrapy工程创建皇冠体育源码下载论坛:haozbbs.com Q1446595067 在命令行输入如下命令,创建一个使用scrapy框架的工程 scrapy startproject scrapyDemo 1 命令创建好后的工程结构如下图scrapy工程结构 输入如下命令,在工程目录中创建示例代码 PS C:\ProjectPycharm> cd scrapyDemoPS C:\ProjectPycharm\scrapyDemo> scrapy genspider example ex