寒假学习记录第七天

Python爬虫的一个案例

爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据

import requests
from fake_useragent import UserAgent
ua = UserAgent(use_cache_server=False,verify_ssl=False).random
headers = {
    ‘User-Agent‘:ua
}
url = ‘http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList‘
pageNum = 3
for page in range(3,5):
    data = {
        ‘on‘: ‘true‘,
        ‘page‘: str(page),
        ‘pageSize‘: ‘15‘,
        ‘productName‘:‘‘,
        ‘conditionType‘: ‘1‘,
        ‘applyname‘:‘‘,
        ‘applysn‘:‘‘
    }
    json_text = requests.post(url=url,data=data,headers=headers).json()
    all_id_list = []
    for dict in json_text[‘list‘]:
        id = dict[‘ID‘]#用于二级页面数据获取
        #下列详情信息可以在二级页面中获取
        # name = dict[‘EPS_NAME‘]
        # product = dict[‘PRODUCT_SN‘]
        # man_name = dict[‘QF_MANAGER_NAME‘]
        # d1 = dict[‘XC_DATE‘]
        # d2 = dict[‘XK_DATE‘]
        all_id_list.append(id)
    #该url是一个ajax的post请求
    post_url = ‘http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById‘
    for id in  all_id_list:
        post_data = {
            ‘id‘:id
        }
        response = requests.post(url=post_url,data=post_data,headers=headers)
        if response.headers[‘Content-Type‘] == ‘application/json;charset=UTF-8‘:
            #print(response.json())
            #进行json解析
            json_text = response.json()
            print(json_text[‘businessPerson‘])

原文地址:https://www.cnblogs.com/xuange1/p/12275080.html

时间: 2024-11-05 16:32:50

寒假学习记录第七天的相关文章

寒假学习记录12

学习任务: 1.python基础 (1)dict Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度. 把数据放入dict的方法,除了初始化时指定外,还可以通过key放入,由于一个key只能对应一个value,所以,多次对一个key放入value,后面的值会把前面的值冲掉. 要避免key不存在的错误,有两种办法,一是通过in判断key是否存在: 二是通过dict提供的get()方法,如果ke

2020年寒假学习进度第七天

今天主要学习了spark实验四的内容,实验四主要为RDD编程,本实验的重点为两个编程题 1.编写独立应用程序实现数据去重对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件 C.下面是输入文件和输出文件的一个样例,供参考.输入文件 A 的样例如下: 20170101 x 20170102 y 20170103 x 20170104 y 20170105 z 20170106 z 输入文件 B 的样例如下: 20170101 y 2

寒假学习记录15_Geo学习

因为疫情的信息需要使用中国地图进行展示,因此我对Echars中的Geo进行了学习. 首先要准备好echarts.min.js和china.js这两个js文件,准备好后就可以对data部分进行修改了,通过访问数据库将城市和对应数据填在对应的name和value位置. (爬虫部分回头另写博客) 数据展示代码如下所示: <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncodi

C#学习记录(七)LINQ语句及LAMDA表达式

LINQ LINQ是一种集成在计算机语言里的信息查询语句,可以让编写者以代码的方式操作数据库. 在C#中,LINQ语句有两种写法. 这是第一种写法 IEnumerable<Customer> result = from customer in customers where customer.FirstName == "Donna“ select customer; 由于这种写法比较容易和SQL语言混淆,所以我更倾向于使用另一种写法 IEnumerable<Customer&g

我的HTML学习记录(七)

JQuery语法 *1.JQuery("选择器").action;通过选择器调用事件函数 * 但JQuery中,JQuery可以用$代替,即$("选择器").action(); * ①选择器,可以直接使用css选择器,选中元素 * ②.action()表示对元素执行的操作 * * 2.文档就绪函数:防止了文档在完全加载(就绪)之前运行JQuery代码 * $(document).ready(function(){ JQuery代码 })简写:$(function()

php学习记录《七》

PHP 函数: 1:PHP函数不支持重载,而且函数是不区分大小写的,但是建议区分大小写~~!毕竟需要和谐! 2:递归函数 不要递归过多,可能会因为堆栈溢出导致脚本崩溃. <?php function reverse($a){ if($a < 20){ echo "this is $a"; $a += 1; reverse($a); } } 3:参数默认是按值传递,标量. 如果想要按引用传递,则要加&. 默认参数 : function default_param($a

Linux 学习记录:七、fdisk 分区工具

一.fdisk分区工具 fdisk 是来自 IBM 的老牌分区工具,支持绝大多数操作系统,几乎所有的 Linux 发行版都装有 fdisk,包括在 Linux 的 resuce 模式下依然能够使用. fdisk 是一个基于 MBR 的分区工具,所以如果需要使用 GPT,则无法使用 fdisk 进行分区. 二.fdisk简单实用 fdisk 命令只有具有超级用户权限才能够运行 使用 fdisk -l 命令可以列出所有安装的硬盘及其分区信息 使用 fdisk /dev/sda 可以对第一块 SATA

Java学习记录(补充七:一些工具类)

Math类package Box; import java.util.ArrayList; import java.util.Collections; import java.util.List; public class TestBox { public static void main(String[] args) { //八个包装类 /*Integer i=5;//在栈里面开辟了一个内存空间(基本数据类型) Integer n = new Integer(5);//用new在堆里面开辟了一

python学习记录(七)------python字符串

1.对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符: 2.要计算str包含多少个字符,可以用len()函数: 3.len()函数计算的是str的字符数,如果换成bytes,len()函数就计算字节数: 格式化以及占位 在python中用%作为占位,包括如下类型: %d      整型 %s      字符串 %f       浮点数 %x      16进制整数 其中%d前面可以添加数字或者0表示整型位数以及前面是否补0: %s能将任